OpenAIがわずか15秒の音声からクローン音声を生成できるAIモデル「Voice Engine」をリリース

OpenAIがわずか15秒の音声からクローン音声を生成できるAIモデル「Voice Engine」をリリース - 画像


OpenAIがわずか15秒の音声サンプルから合成音声を作成できるAIモデル「Voice Engine」への限定的なアクセスを提供開始しました。Voice Engineは、合成音声を作成する際に使用した音声サンプルと同じ言語だけでなく、さまざまな言語で入力したテキストを音声読み上げすることができるというテキスト音声生成ツールです。
Navigating the Challenges and Opportunities of Synthetic Voices
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices


OpenAI built a voice cloning tool, but you can’t use it… yet | TechCrunch
https://techcrunch.com/2024/03/29/openai-custom-voice-engine-preview/
OpenAI details Voice Engine speech generation AI - SiliconANGLE
https://siliconangle.com/2024/03/29/openai-details-voice-engine-speech-generation-ai/
OpenAI’s voice cloning AI model only needs a 15-second sample to work - The Verge
https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model
最初にVoice Engineに入力する15秒の音声サンプルの事例が以下。

この音声サンプルをベースにVoice Engineが作成した合成音声に、さまざまなテキストを音読させたのが以下。
「Some of the most amazing habitats on Earth are found in the rainforest. A rainforest is a place with a lot of precipitation and it has many kinds of animals trees and other plants. Tropical rainforests are usually not too far from the equator and are warm all year.(地球上で最も驚くべき生息地のいくつかは熱帯雨林にあります。熱帯雨林は降水量が多く、さまざまな種類の動物や木々、その他の植物が生息する場所です。熱帯雨林は通常、赤道からそれほど遠くなく、一年中暖かいです。」

「This story has been told and retold for thousands of years. What is the central message that it is teaching?(この物語は何千年もの間、語り継がれてきました。この物語が伝える中心的なメッセージは何でしょうか?)」

「Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function.(塩はまた、私たちの水分補給を確実にします。これは私たちの体が適切に機能するのに十分な水が体内にあることを意味します。)」

「Let's make the parts the same by adding one to three!(パーツを1~3個増やして同じにしてみましょう!)」

「Have you ever wondered why a soccer ball soars through the air the way it does or how a skateboarder manages to stay on their board while flipping it? It's all about the science of how objects move called physics. First the push you give off the ground is the force that gets you going. Then as you speed up gravity another natural force pulls you down the hill. Finally when you brake the force of friction between the bike's brake pads and the tires slows you down.(サッカーボールがなぜこのように空中を飛ぶのか、あるいはスケートボーダーがどのようにしてボード上に留まるのかを疑問に思ったことはありますか?これらはすべて、物理学と呼ばれる、物体がどのように動くかについての科学に関するものです。まず、地面を押す力が、あなたを前進させる力となります。次に、重力が加速すると、別の自然の力があなたを丘から下に引っ張ります。最後に、ブレーキをかけると、自転車のブレーキパッドとタイヤの間の摩擦力によって速度が低下します。)」

OpenAIによると、同社は2022年後半から音声AIモデルの開発をスタートしており、このテクノロジーはすでにテキスト読み上げAPIやChatGPTの読み上げ機能などのプリセット音声の強化に使用されているそうです。
海外テクノロジーメディアであるTechCrunchとのインタビューの中で、OpenAIのVoice Engine製品チームのメンバーであるJeff Harris氏は、Voice Engineについて「ライセンスされたデータと、公開されているデータの組み合わせでトレーニングしている」と明かしています。
記事作成時点でVoice Engineへのアクセス権限を取得しているのは、教育テクノロジー企業のAge of Learning、AI動画作成ツールのHeyGen、ヘルスケアソフトウェアメーカーのDimagi、AIコミュニケーションアプリ開発のLivox、ヘルスケアシステム開発のLifespanなどの一部の企業のみであるとされており、OpenAIはTechCrunchに対して「Voice Engineにアクセスできるのは約10人の開発者のみ」と説明しています。
OpenAIはVoice Engineへのアクセスが一部の企業に限られている理由について、「合成音声が悪用される可能性があるため、広範なリリースに向けて慎重かつ十分な情報に基づいたアプローチをとっています」と述べました。
なお、2024年1月にAIで作成した「ジョー・バイデン大統領の偽音声」を用いたスパム電話が有権者にかけられるという事件が発生したため、アメリカ政府はAI音声技術の非倫理的な使用を抑制するための取り組みを進めており、連邦通信委員会(FCC)はAI音声を用いたロボコール(自動音声通話)は違法であると宣言しました。
FCCが「ロボコールのためのAI音声利用は違法」と宣言 - GIGAZINE


OpenAIによると、Voice Engineではアクセス権を有するパートナー企業に対して、「同意なしに個人や組織になりすますためにVoice Engineを使用しない」というポリシーに同意することを求めているそうです。また、OpenAIはパートナー企業に対して元の話者の「明示的インフォームドコンセント」を得ることも求めており、個々のユーザーが独自の音声を作成する方法を構築するのではなく、その音声がAIによって生成されたものであることをユーザーに開示する必要があるとのことです。
なお、OpenAIはAI音声ツールの利用により発生するリスクを軽減するために、「銀行口座にアクセスするための音声認識システムの段階的廃止」や「AIにおける人々の声の使用を保護するためのポリシーの策定」「AIディープフェイクに関する教育の強化」「AI音声の追跡システムの開発」などを提言しています。

ジャンルで探す