GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載

GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載 - 画像


Googleが2024年4月9日から11日にかけてラスベガスで開催している「Google Cloud Next '24」において、高性能AIモデル「Gemini 1.5 Pro」のパブリックプレビューを開始したと発表しました
Gemini 1.5 Pro Now Available in 180+ Countries; With Native Audio Understanding, System Instructions, JSON Mode and More - Google for Developers
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載 - 画像


Gemini 1.5 Proは2024年2月15日に発表されたモデルで、最大で1時間のムービーや70万語のテキストを扱えるとうたわれています。デモンストレーションの様子は下記の記事で確認可能です。
GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - GIGAZINE

GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載 - 画像


これまでGemini 1.5 Proは限られた人のみが使用できる「限定テスト」が行われていましたが、2024年4月9日に180カ国以上でパブリックプレビューの開始が発表され、Gemini API経由で誰でも使用できるようになりました。
パブリックプレビューでは発表時のGemini 1.5 Proの機能に加えて、音声を理解する機能やファイルの処理を容易にする新たなファイルAPIが搭載されたほか、開発者がモデルの出力をより詳細に制御できるようにするシステム命令やJSONモードなどの新機能も搭載されています。

GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載 - 画像


また、パブリックプレビューの開始と同時にGemini APIを通して次世代のテキスト埋め込みモデルもリリースされるとのこと。下図の「gecko」が新たなテキスト埋め込みモデルで、MTEBベンチマークで同等のディメンションを持つ既存のモデルを上回るより強力な検索パフォーマンスを実現しています。

GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載 - 画像


さらにエンタープライズ向けにGeminiがGoogle Cloud Platformのさまざまなサービスで活用できるようになったほか、画像生成AIの「Imagen 2」においてプロンプトから数秒程度の短いムービーを作成できる新機能「Text-to-live image」のプレビューを開始したとのこと。
Imagen 2.0 on Vertex AI: Text-to-live image - YouTube

記事作成時点では「Text-to-live image」は「承認されたユーザーのみが利用できる」となっており、一般ユーザーへのリリースは行われていませんでした。
◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください!Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください!
• Discord | "GoogleのAI「Gemini」使ってる?どんな時に使ってる?" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1227554362579222528

ジャンルで探す