日本語を含む30以上の言語で男性と女性の声でテキストを読み上げることができる「Play 3.0 mini」
30以上の言語に対応し、複数の声やアクセントで文章を読み上げることができる音声も出る「Play 3.0 mini」が登場しました。日本語にも対応していて、「音声の自然さ」が売りになっているとのことです。
Introducing Play 3.0 Mini - A Lightweight, Reliable And Cost-efficient Multilingual Text-to-Speech Model
https://play.ht/news/introducing-play-3-0-mini/
「Play 3.0 mini」は以下のページから、メールアドレスかGoogleアカウントを登録することで、無料で試用することができます。
PlayAI Text-to-Speech API Playground
https://play.ht/playground/
日本語で試したいので、アクセスしたら「LANGUAGE」を「Japanese」に変更。
「VOICE」から好きな声を選びます。
入力ボックスに文章を入れ、「Generate Speech」をクリックすれば音声が生成されます。
いくつかの声で文章を読み上げさせてみました。確かに自然なアクセントで読み上げてはいますが、音声が途切れていたり、一部の単語をしっかり発音していない点が気になります。なお、生成速度の平均待ち時間は189ミリ秒とのことです。
男声/女声で文章を読み上げさせることが可能な「Play 3.0 mini」を試してみた - YouTube
「Play 3.0 mini」は日本語、ヒンディー語、アラビア語、スペイン語、イタリア語、ドイツ語、フランス語など30以上の言語に対応していて、上記試用サイトの他にもAPIを通じて利用できます。APIを使ってアプリケーションを構築すれば、ユーザーの声に応答する会話型のモデルを作り上げることも可能です。
Introducing Play 3.0 mini - a new compact Text to Speech model for realtime Voice AI - YouTube
なお、API利用は一部無料ですが基本的には料金がかかります。
開発元のPlayHTによると、会話型大規模言語モデルに見られるように音声大規模言語モデルにも「幻覚」が見られ、ほとんどのText-to-Speechモデルは英数字などを誤読しやすいとのこと。Play 3.0 miniはその点を調整していて、電話番号やパスポート番号、日付など、重要な情報が誤読されると困るようなユースケースに対応しているとのことです。
PlayHTは「Play3.0miniは最速かつ最も会話的な音声モデルでありながら、信頼性と音質を大幅に改善しました。今後数カ月の間にリリースを予定している効率的な多言語AI音声合成モデルの第一弾であり、私たちの目標はモデルを小型化し、コスト効率をよくすることで、ユーザーのデバイスで実行できるようにすることです」と述べました、
10/16 06:00
GIGAZINE