ここから本文です
Yahoo!ファイナンス
投稿一覧に戻る

(株)アドバンスト・メディア【3773】の掲示板 2023/11/23〜2024/01/25

>>249

Googleニュースで、同じものを拝見して
いました。生成AIの自然言語処理の正確性
を向上させるためには、大規模言語モデルを
構築する必要があり、そのためには膨大な
音声言語データが必要となる。

音声データや言語データが極めて重要な
位置付けとなり価値を生むことになる。

生成AIを考える会社は、喉から手がでる
ほど欲しい。

  • >>250

    ここには、創業以来集めた、とんでもない量のデータがあるわけですよ。「製品開発のために使わせて頂ければ、使用量を゙安くします」という形で顧客から買った言語、音声データが。多分、NICTの保有データが事前学習に使われ、ここのデータがファインチューニングやchatGPTでのwhisperにあたる部分を作るのに使われるのでしょう。
    CEATECでも壮年のエンジニアにこの話題をぶつけてみました。「そこは社内でも話題になっているが、まだ具体的には始まっていない」という答えでした。エンジニアは嘘を付けない人が多いから、本当じゃないかな。10月の時点では個別企業等向けの開発には入っていない。鼻歌混じりで膨大なデータから個人情報にあたる部分などを゙切り取って準備している段階と思います。