掲示板のコメントはすべて投稿者の個人的な判断を表すものであり、
当社が投資の勧誘を目的としているものではありません。
-
16222(最新)
そうですね
サイトの仕様変更はこれからもあるので、自分でイチから作るのか、
サイトの仕様変更に合わせて手直しするのか
株価データだけでなく、決算データなども解析するのであれば、手間や時間をどうするのか
自動化やマシンパワーも含めて考えないといけないですし
iloさんはお仕事で統計解析をされてきてるので、そのあたりのバランスもご存知かと思います
iloさん、教えてくれてありがとね😊 -
16221
端的に言うとそんな感じです。最近karauri.netのトップだけがずっとエラーになっていたり、Suikの仕様が変わったりで、サイトの仕様変更リスクを現実的な物として考えていたもので。
なんとか過去の決算も纏めてDLして比較できればと思っているんですが、考えるだけで全く手を付けていません。
結局PC上にデータベースを抱えた方が楽なのではという気もしてます。
それはそうとコードどもです。僕もGPTに大まかに作ってもらってから大改造する事が多いです。
BeautifulSoupのほうが簡単で好きなんですが、16213の方も言っていたように本来DLするならseleniumを併用したほうがいいのかもしれませんね。 -
16220
parsed_data = parse_xbrl_data(xbrl_content, namespaces)
print(parsed_data)
このコードは、SEC(米国証券取引委員会)のEDGARから企業のCIKを指定してXBRLデータをダウンロードし、特定の要素(ここでは"Revenues"と"OperatingIncomeLoss")を抽出します。企業や要素の変更に合わせて、コードを調整してください。 -
16218
if response.status_code == 200:
soup = BeautifulSoup(response.content, 'xml')
entries = soup.find_all('entry')
xbrl_links = [entry.link.href.text for entry in entries if 'xbrl' in entry.link.type.text.lower()]
return xbrl_links
else:
print(f"Failed to fetch XBRL data. Status code: {response.status_code}")
return []
def extract_xbrl_data(xbrl_url):
response = requests.get(xbrl_url)
with ZipFile(BytesIO(response.content)) as zip_file:
# Assuming there is only one XBRL file in the ZIP archive
xbrl_file = zip_file.namelist()[0]
xbrl_content = zip_file.read(xbrl_file)
return xbrl_content
def parse_xbrl_data(xbrl_content, namespaces):
root = ET.fromstring(xbrl_content)
results = {}
for key, value in namespaces.items():
ET.register_namespace(key, value) -
16217
> 試しにChatGPTさんに書いてもらった、米国SEC版を書いてくれました
EDINET上のXBRL形式の決算短信データを抽出して、「売上高」や「営業利益」など項目ごとに分類整理するコードをPythonで書いてみてください
▶ChatGPT
EDINETからXBRL形式の決算短信データを抽出し、特定の項目を分類整理するためには、lxmlやxml.etree.ElementTreeなどのライブラリを使用してXMLを解析する必要があります。また、XBRLの構造は企業ごとに異なるため、具体的なXMLの構造に合わせてコードを書く必要があります。
以下は、一般的なXBRLの解析のスケッチです。これを参考に、具体的なXBRLファイルの構造に合わせてコードを調整してください。
import requests
from bs4 import BeautifulSoup
from zipfile import ZipFile
from io import BytesIO
import xml.etree.ElementTree as ET
def download_xbrl_data(cik, doc_type='edgar', start=0, count=5):
base_url = f'https://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK={cik}&type={doc_type}&start={start}&count={count}&output=atom'
response = requests.get(base_url) -
16216
f88さんこんちゃー(*´ ▽ `*)ノ
決算データを自分で抽出するのかー
そういう発想はなかったから、やったことないですね
たぶんXBRLの中の構造がどうなってるのか?その部分のスクリプトがあればなーって意味かと思うのですが、Qiitaあたりにありそうな気もします(・・?
試しにChatGPTさんに書いてもらった、米国SEC版を書いてくれました
やっぱり中身はアメリカ人や🤣 -
16215
ファイルどもです。
BeautifulSoupを使っていますが、スクレイピングやスクリーニング自体は問題ないので、XBRLの仕様やTDnetやEDINETからDLし、過去データと比較する際のコツがあればなぁと思ったんですよね。
参考になりそうなコード自体はネット上に色々あるようなのでおいおい探り探りやってみます。 -
16214
以下のグーグルドライブからDLしてください。
https://drive.google.com/drive/folders/1OLNDMuDHzTsdO8zpDmAh68KGoFH1d67x?usp=drive_link -
16213
せっかく、カニさんの板を訪れたので、サンプルファイルを差し上げます。
google chrome 32bit で動く
seleniumを使うがseleniumは、google chrome 32bitのヴァージョンによってかわるので、現在の自分のVERにあったseleniumをDLして、google chrome 32bitの自動VER_UPをころす。そのフォルダ構成もスクショしたのでご参考に。
TSEの決算予定日のスクレイピング
日証金の逆日歩、売り禁銘柄などを抜くスクレイピング
今、テストしたけど動く。
ただし、立ち上げディレクトリとc:\stock\に書き込むのであらかじめc:\stock\
を作成のこと。
DLは、↑の板から取得してください。 -
-
16211
カニさんへ。プログラムは、ちゃんと動くことが一番重要。汚いコードでも動く方が偉い。今動いているVBAがあるなら、それを磨いていくのがいいと思う。
1.早いPCを手に入れる。
2.EXCELのバージョンをギリギリまで落とす。(古い方が早い)
3.プログラムの見直し。例えば1セル1セルを見ていくと時間がかかるので、
ある程度の大きさのデータを、一挙にとってオンメモリで処理。たしか、適当な範囲に名前を付けてオンメモリで処理する方法があったはず。
もし、今後、さらに大きなデータを処理する気概なら、シートに展開しない、OPEN、CLOSEの昔ながらBASICを勉強するといい。 -
16210
Pythonのスクレイピングのスクリプトは、割と簡単に作れる。ググりつつ、自己努力だな。ヒントは、HP上のファイルをとるんじゃなくて、中身の内容(テキスト、バイナリ)をいったんメモリで受けるコマンドがある。
健闘を祈る。 -
16209
今は決算データを某サイトからスクレイピングして無理やり抽出し、スクリーニングしてるんですけど、サイトの仕様変更等のリスクがあるんですよ。
有りものがあればでいいんですけど、XBRLの決算短信等から抽出するPythonのスクリプトとか、それに類するものを作ってる人っていたりします?
やろうやろうと思いつつ面倒で先延ばしし続けちゃってるんで、雛形があるだけで非常に助かるんですよね。 -
16207
どういたしまして。
-
16206
ありがと
毎日の作業自体はマクロ組んでやってるからそんなでもないんだけど、
最終的に結果出るまで20-30分かかるから、それをなんとかしたかったのね
時間あるときに大手術してみます(`・ω・´)ゞ
ありがとね -
16205
YES、そのとおり。
-
16204
結局、スプレッドシートに展開する段階でメモリ食うのね
EXCEL上で途中の式を非表示にしてもほとんど変わらなかったし
やっぱり根本的に作り直すしかないのか、、 -
16203
いいえ、ワークシートに読み込まないので、単に関数が使えないだけです。
-
16202
そか
関数使わずに自分で作ったほうがメモリ節約できるんかね?
大手術になるわw -
16201
カニさん私もよろしくお願いします♪^^
読み込みエラーが発生しました
再読み込み
よもぎ大福 2019年7月3日 11:42
メモとか雑記とか♪ 掲示板の裏バージョンです。
雑談、猥談、オカルト、誹謗中傷、日常生活自慢、喧嘩、なんでもありの掲示板です。一応管理人はいますが、基本は「無法地帯」と心得てください。