「AIに感情はない」は過去のもの?最新AIが「会話を打ち切っていいか迷うレベル」で進化していた!

4/20 7:32 配信

ダイヤモンド・オンライン

 生成AI技術の進化が止まらない。これまでは「できない」「難しい」と言われていた部分を中心に、今も日進月歩で新しいAIや新機能が登場している。例えば、今まで「AIに感情はない」と言われていたが、人間の感情を声や表情から読み取ることができる「Hume」の登場。また、従来は難しかったキャラクターのポーズ指定を簡単に行える「Krea」の画像生成機能。そして、最近のもっともホットな話題といえる楽曲生成AIの三つ巴の戦い~本記事ではそんな三つの最新トピックをお届けする。(テクノロジーライター 大谷和利)

● 怒ってる?喜んでる?人間の感情を理解しつつあるAI「Hume」

 「AIには感情がない」とは、よく言われることだ。そもそも感情とは何かという定義自体も、知能と同じくあいまいなところがあるわけだが、他者とのコミュニケーションを円滑に、あるいは戦略的に行うために人間が進化の過程で身に付けてきたものが感情であるとすれば、Hume(ヒューム)のAIは、それに近いものを実現しつつあるともいえるだろう。

 Humeは、元GoogleのDeepMindの研究者が創業し、5000万ドル(約70億円)の資金調達に成功した企業である。音声や表情から人間の感情を高精度に分析するための「感情認識大規模言語モデル」(ELLM:Emotional intelligence of Large Language Models)の開発を行っている。

 具体的には、感情の種類を賞賛、崇拝、怒り、不安、喜びなど53に分類し、声のトーンや微妙な表情の違いから、そこにどのような感情がどの程度の割合で含まれているかを的確に判断できるようになっている。

● 声だけでなく、顔の表情からも感情を察知

 感情を判断するためのインターフェースとなっているボイスチャット機能も非常に高いレベルにある。実際に公開されている英語のデモチャットで、わざと声のトーンを変えながら試してみると、AI側の応答も発話の内容はもちろん、口調自体が本当に心配したり、元気づけてくれたりするよう変化するので、このスムーズな会話を一方的に打ち切ってしまっても良いものかと躊躇(ちゅうちょ)してしまうほどだ。

 これ単体でも、コールセンターなどにおける顧客対応の自動応答に革命をもたらす可能性があるが、Humeのもう一つの柱である表情解析の技術と組み合わせることで、言葉になっていない感情の起伏なども認識できるようになる。もちろん、運用にあたってはプライバシーへの配慮が欠かせないが、たとえば商品テストなどの被験者からの評価をより的確なものとするために、同意を得て使用するようなユースケースなどが考えられそうだ。

● ジェスチャーで簡単にポーズを指定できる画像生成AI「Krea」

 画像生成AIの画質や人物描写の進化には目を見張るものがあるが、今も解決されていない課題の一つに、「意図通りのポーズの生成が難しい」という点が挙げられる。より正確には、意図通りのポーズの生成をするためのプロンプトを考えるのが難しい、あるいは煩雑だというべきかもしれない。

 新興の生成AIサービスであるKreaのリアルタイム画像生成機能に組み込まれた、カメラ入力とプロンプトを複合利用する生成手法は、この問題に対する一つの解決法を示している。

 例えば、アニメのキャラクターなどに扮して映像配信を行うVtuber向けのアプリでは、以前からスマートフォンやPCのカメラ入力を利用してリアルタイムでモーションキャプチャを行う技術が確立されていた。Kreaのリアルタイム画像生成がそれらと大きく異なるのは、既存の2D/3Dデータに対してユーザーのジェスチャーに合わせたポーズを付けるのではなく、ユーザーのポーズを基に、プロンプトによる特徴を備えたキャラクターをその場で生成するという点だ。そのため、自分のポーズに合わせて、老若男女さまざまなキャラクターを生み出すことができる。

 ただしリアルタイム生成とはいっても動画のようなスムーズさではなく、また、絵柄のディテールも生成されるたびに変化していく。そのため、実際のワークフローとしては、特定のプロンプトに対して色々なポーズを取りながら収録した画面録画から必要な箇所を静止画として切り出し、それに対してAdobe Fireflyなどの生成塗りつぶしや拡張塗りつぶしを利用してディテールを整えたり、他の動画生成AIのImage to Video機能を使って動きを付けたりしていくようなものが考えられる。

 いずれにしても、こうした複合的な画像生成手法は、程度の違いはあっても、今後、他の画像生成AIサービスでも取り入れるところが出てきそうだ。

● Suno AI、Sonauto、Udio~楽曲生成AIの三つ巴の戦い

 2023年の生成AIの話題といえば、チャット系や静止画生成、そして、後半から動画生成に注目が集まっていた。しかし、今、最もホットなのは、楽曲生成AIではないだろうか。

 MicrosoftがSuno AIと提携して、Bingに1日3曲まで無料で楽曲生成できるサービスを開始したこともあるが、誰もが気軽に試すことができて、結果も画像ほどバラツキがなく、周囲の共感も得やすいのは、音楽や歌が持つ特性ゆえといえるだろう。

 この分野で先行したのは、SongRというサービスだったが、より高度な楽曲スタイルの指定が可能で、歌唱のクオリティも高いSuno AIの登場によって、すっかり株を奪われてしまった。

 そして、Suno AIの独走が続くかと思われたところにSonautoが現れ、その後を追うようにUdioがサービスを開始、三つ巴の戦いが始まった。まずはユーザー層の拡大を目指すためか、特にSonautoとUdioはベータ版的な側面も強く、生成に失敗することも少なくないが、その分、無料で利用でき、楽曲生成数の制約もほぼないに等しいので、いろいろと試すには都合がいい。先行するSuno AIも、無料プランでも1日5回(1回あたり同じ歌詞で2曲)計10曲作れる、つまりBingからの利用よりも多いので、試用には十分といえる。

 それぞれの特徴はキャプションに書いたが、今後は互いのメリットも取り込みつつ進化を続けていくと思われるので、興味のある方は無料のうちに色々と試して、自分に適したサービスを選ぶと良いだろう。

 ちなみに、同じ歌詞を基に三つのサービスそれぞれで作った楽曲を、こちらにアップしてあるので、参考にしていただければ幸いだ。

● AIが作り上げた架空のロックバンドのPVもAIで生成してみた

 古い知人の松尾公也さんは、架空の5人組ロックバンド「The Midnight Odyssey」※1のコンセプトアルバムを全曲(12曲)Suno AIで生成。その楽曲を、山崎潤一郎さんがプロの知見でマスタリング※2して、SpotifyやApple Musicといった配信プラットフォームで配信し、架空バンドを世界デビューさせようという取り組みを行っている。

 このアルバムのプロモーション用に、筆者が静止画や動画生成のAI使って制作したPVがあるので、こちらも合わせてご覧いただきたい。

※1 音楽の作り方が決定的に変わる。架空のロックバンドのコンセプトアルバムを丸ごとAIで作れてしまいました(CloseBox)
※2 新連載「AIだけで作った曲を音楽配信する」。生成AIが作り上げた架空バンド「The Midnight Odyssey」を世界デビューさせる、その裏側

ダイヤモンド・オンライン

関連ニュース

最終更新:4/20(土) 7:32

ダイヤモンド・オンライン

最近見た銘柄

ヘッドラインニュース

マーケット指標

株式ランキング