ここから本文です
Fronteo lab
投稿一覧に戻る

Fronteo labの掲示板

日本語を処理するKIBITの改良に成功
アジア言語処理の技術を強化

株式会社FRONTEO(本社:東京都港区、代表取締役社長:守本 正宏、以下 FRONTEO)は、独自開発のAIエンジン 「KIBIT(読み:キビット)」において、自然言語処理における日本語処理の改良に成功したことをお知らせします。
 
KIBITは、極めて少ない教師データで運用が可能な、弁護士や法務担当などの専門家の判断を支援するAIとして、2012年に開発されました。国際訴訟におけるeディスカバリ(電子証拠開示)では、証拠保持者(カストディアン)1人当たり数テラバイトに及ぶこともある膨大な文書データの中から、限られた期間内かつ調査に携わる弁護士の判断と同等の正確さで、証拠に関連する文書を発見することが求められます。KIBITを用いたAIレビューツール「KIBIT Automator(読み:キビットオートメーター)」は、この証拠発見の効率化に寄与するリーガルテックとして、国内外で活用されています。
 
日本語は、英語のように分かち書き(個々の単語間がスペースで区切られた表記)されず、また助詞などそれ単独では意味を持たない単語を伴うという特徴を持つ言語です。そのため、AIによる日本語の処理においては、文章を個々の単語などの形態素*1に分解する技術(形態素解析)と、分解して得られた形態素を解析する技術の2つの技術を要します。さらに、後者の技術において、分かち書きをした際に抽出される1文字の形態素、例えば、「は」や「に」が何の品詞であるかを判断することは難しく、証拠への関連性の有無の判断にどの程度関係するのかを評価することが課題となっていました。
 
今回、FRONTEOの研究開発チームは、KIBITを構成するAIエンジン「Illumination Forest(読み:イルミネーションフォレスト)」において、1文字からなる単語を機械学習により自動的に取捨選択するようにアルゴリズムを改良しました。その結果、改良前と比べRecall*2が向上し、証拠に関連する文書の80%を発見するのに必要な人がレビューする文書数の最大7%の削減を実現しました(図参照、FRONTEOのテストデータを使用)。
 
本技術は、韓国語や中国語といった他の分かち書きされない言語にも適用が可能です。KIBITの強みの一つは処理が困難なアジア言語を得意とする点であり、今回の研究成果は、KIBITを搭載する幅広い製品群に一層の精度向上をもたらすものと見込まれます。
 
FRONTEOは今後も自然言語処理に強みを持つ独自のAIソリューションの高度化を推進し、専門家を支援するデジタルフォレンジック・ディスカバリベンダーとしてAIアルゴリズムの開発・改良に努めてまいります。