3分でわかるOpen AIの発表「友達みたいに話せるGPT-4o」
音声も画像もまぜこぜで、人間みたいなスピード感で会話。
OpenAIが新たなフラッグシップモデル「GPT-4o(フォー・オー)」を発表しました。GPT-4に比べて画像や音声の理解力が大幅に向上していて、テキストでも音声でも画像でもひとつの会話の中で自然に受け止めてくれます。
人間の呼吸音も表情も、意味を理解
デモでは音声での会話を軸に、GPT-4oの多彩な能力を見せてくれました。たとえば「緊張してるからリラックス法を教えて! ゼーハーゼーハー(呼吸音)」と言うと、「ちょw 掃除機じゃないんだから!」と、ゼーハー音が荒い呼吸であることも理解している様子。「ゆっくり深呼吸…はい吸ってー…吐いてー…」と、リラックスするための呼吸法をガイドしてました。
また数式を画像で見せると、読み取って理解します。「xの答えをすぐに出さず、段階的に解いていくのを手伝って」と言うと、その通りヒントを出していってくれました。「I (ハート) GPT」と書いた画像が「I Love GPT」であることも当然のようにわかります。
さらに、人間の表情を読み取って感情を推測したりもできます。声に感情を込めたり、ロボットボイスにしたり、情感たっぷりのロボットボイスにしたりと、声のトーンも指定通りに変化させてくれます。
限りなく人間に近いレイテンシー
GPT-4oは音声でのレスポンスの速さが特長で、それが自然さにつながってます。OpenAIによれば、人間の反応スピードに非常に近い、平均320ミリ秒で音声に反応できるとのこと。リアルタイム翻訳(デモでは英語←→イタリア語)も違和感なく、対応言語は50以上になるそうです。
発表のプレゼンターの人たちはChatGPTに対しかなりかぶせ気味に会話してたんですが、かぶせると文の途中でも止めて聞くモードに入るのも人間っぽいです。
無料ユーザーも使えます
こんなGPT-4o、無料ユーザーに対しても公開するという太っ腹です。ただ公開スケジュールは段階的で、まずはテキストと画像の機能が今日からロールアウト開始してます。ただ音声モードに関しては、アルファ版としてChatGPT Plusユーザーに対し数週間以内に公開となっています。
またGPT-4oは、APIでも利用可能です。ChatGPTと同じく、テキストと画像モデルがすでに利用可能になっているそうですが、音声・動画機能に関しては「数週間以内に、少数の信頼できるパートナーに対しローンチ予定」となっています。
デスクトップアプリも登場
GPT-4o公開に合わせ、ChatGPTのデスクトップアプリもローンチされました。こちらも無料ユーザーも利用可能ですが、さしあたりmacOS向けのみになっています。またこのアプリでも、追ってGPT-4oの高性能な音声・動画機能が使えるようになる予定とのこと。
デスクトップアプリを使ったデモでは、音声で会話しながら開発中のコードをコピペしたりしていて、ChatGPTをアシスタント的に使う作業がよりシームレスにできそうです。またグラフ画像を読み取って要点を指摘するなど、画像理解力の高さも示していました。
まるでGoogleへの挑戦状のように、Google I/Oの前日に当ててきた今回の発表。Googleはどんな答えを出してくるんでしょうか?
05/14 07:30
GIZMODO