OpenAIがスカーレット・ヨハンソンのように聞こえると批判され話題となったChatGPTのアドバンスト音声モードを有料会員向けに提供開始
OpenAIがChatGPTの有料版であるChatGPT Plus向けに、「Advanced Voice Mode」(アドバンスト音声モード)と呼ばれる新機能を提供すると発表しました。アドバンスト音声モードはユーザーがChatGPTと音声で自然に会話しながら、さまざまなやり取りが可能になるという機能です。
OpenAI releases ChatGPT's hyper-realistic voice to some paying users | TechCrunch
https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/
OpenAI Debuts Advanced Voice AI for Subscribers
https://www.pymnts.com/artificial-intelligence-2/2024/openai-debuts-advanced-voice-ai-for-subscribers/
OpenAI opens limited access to ChatGPT Advanced Voice Mode | VentureBeat
https://venturebeat.com/ai/openai-opens-limited-access-to-chatgpt-advanced-voice-mode-on-mobile/
OpenAI rolls out highly anticipated advanced Voice Mode, but there's a catch | ZDNET
https://www.zdnet.com/article/openai-rolls-out-new-advanced-voice-mode-heres-how-you-can-access/
ChatGPT's Advanced Voice Mode Is Here for a Select Few
https://www.howtogeek.com/openai-launches-chatgpt-advanced-voice-mode-alpha/
OpenAI rolls out advanced Voice Mode and no, it won't sound like ScarJo
https://www.engadget.com/openai-rolls-out-advanced-voice-mode-and-no-it-wont-sound-like-scarjo-200426358.html
2024年7月31日、OpenAIが「ChatGPT Plusユーザーの一部グループ向けに、Advanced Voice Mode(アドバンスト音声モード)の展開を開始しています。アドバンスト音声モードでは、より自然なリアルタイム会話が可能になり、いつでも中断でき、ユーザーの感情を感知して反応してくれます」と述べ、有料会員向けにアドバンスト音声モードの提供を開始したことを発表しました。なお、アドバンスト音声モードは2024年秋までにはすべてのChatGPT Plusユーザーに展開されることとなる見込みです。
We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK— OpenAI (@OpenAI) July 30, 2024
今回発表された「アドバンスト音声モード」は、OpenAIが2024年5月に発表したGPT-4oの音声会話機能を指しています。これまでのChatGPTにも音声会話機能は搭載されていましたが、「音声をテキストに変換するモデル」「入力テキストを元に返答テキストを生成するモデル」「返答テキストを音声に変換するモデル」という複数のモデルを用いて実現されていたため、人間同士のような自然な会話を実現することはできませんでした。しかし、GPT-4oは単一のモデルで「音声や画像、映像などの入力を受け取ってから返答する」という処理を実行できるため、非常にスムーズな会話が可能となっています。
ただし、GPT-4oで追加された新しい音声機能については、「Sky」と呼ばれる音声がハリウッド女優のスカーレット・ヨハンソン氏の声に似ているということが問題となりました。OpenAIはヨハンソン氏の声を使っていないと否定していましたが、その後、問題の音声である「Sky」を削除。さらに、安全対策を改善するために音声機能のリリースを延期すると発表していました。
スカーレット・ヨハンソンがGPT-4oの新音声が自分と似ていることについて「ショックを受け、怒りを覚えた」と意見表明 - GIGAZINE
OpenAIはChatGPT Plusユーザーに提供するアドバンスト音声モードについて、ユーザーの使用状況を注意深く監視していると言及。さらに、発表前のタイミングで「45言語を話す100人以上の外部組織と共に、GPT-4oの音声機能をテストした」とも説明していました。なお、一部のユーザーグループはChatGPTアプリ経由でアドバンスト音声モードに関する通知を受け取り、その後、使用方法の説明が記載されたメールが届くこととなるそうです。
2024年1月にはAIスタートアップ・ElevenLabsの音声複製技術を使用したジョー・バイデン大統領のなりすまし音声が選挙活動で利用されたとして、大きな問題となりました。このような事態を避けるべく、OpenAIはディープフェイクをめぐる論争を極力避けようと努力しています。
AIで生成されたバイデン大統領の「偽音声」電話が多数の有権者にかけられている - GIGAZINE
07/31 11:35
GIGAZINE