ここから本文です
裏・メモとか雑記とか♪
投稿一覧に戻る

裏・メモとか雑記とか♪の掲示板

>>16209

f88さんこんちゃー(*´ ▽ `*)ノ

決算データを自分で抽出するのかー
そういう発想はなかったから、やったことないですね

たぶんXBRLの中の構造がどうなってるのか?その部分のスクリプトがあればなーって意味かと思うのですが、Qiitaあたりにありそうな気もします(・・?

試しにChatGPTさんに書いてもらった、米国SEC版を書いてくれました
やっぱり中身はアメリカ人や🤣

  • >>16216


    > 試しにChatGPTさんに書いてもらった、米国SEC版を書いてくれました

    EDINET上のXBRL形式の決算短信データを抽出して、「売上高」や「営業利益」など項目ごとに分類整理するコードをPythonで書いてみてください
    ▶ChatGPT
    EDINETからXBRL形式の決算短信データを抽出し、特定の項目を分類整理するためには、lxmlやxml.etree.ElementTreeなどのライブラリを使用してXMLを解析する必要があります。また、XBRLの構造は企業ごとに異なるため、具体的なXMLの構造に合わせてコードを書く必要があります。

    以下は、一般的なXBRLの解析のスケッチです。これを参考に、具体的なXBRLファイルの構造に合わせてコードを調整してください。

    import requests
    from bs4 import BeautifulSoup
    from zipfile import ZipFile
    from io import BytesIO
    import xml.etree.ElementTree as ET

    def download_xbrl_data(cik, doc_type='edgar', start=0, count=5):
    base_url = f'https://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK={cik}&type={doc_type}&start={start}&count={count}&output=atom'
    response = requests.get(base_url)

  • >>16216

    端的に言うとそんな感じです。最近karauri.netのトップだけがずっとエラーになっていたり、Suikの仕様が変わったりで、サイトの仕様変更リスクを現実的な物として考えていたもので。
    なんとか過去の決算も纏めてDLして比較できればと思っているんですが、考えるだけで全く手を付けていません。
    結局PC上にデータベースを抱えた方が楽なのではという気もしてます。

    それはそうとコードどもです。僕もGPTに大まかに作ってもらってから大改造する事が多いです。
    BeautifulSoupのほうが簡単で好きなんですが、16213の方も言っていたように本来DLするならseleniumを併用したほうがいいのかもしれませんね。