リアルタイムで機密情報を隠しながら音声の文字起こしができるオープンソースAIモデル「WhisperNER」


近年では「Whisper」などの文字起こしAIが数多く生まれています。しかし、これらの文字起こしAIに対して一部の企業は「機密情報が流出する」とのリスクを懸念し警戒感を強めています。そんな中、イスラエルのAIスタートアップ「aiOla」が開発した文字起こしAIの「WhisperNER」では、機密情報を自動的に識別して隠すことが可能です。
[2409.08107] WhisperNER: Unified Open Named Entity and Speech Recognition
https://arxiv.org/abs/2409.08107
GitHub - aiola-lab/whisper-ner: Official implementation of "WhisperNER: Unified Open Named Entity and Speech Recognition"
https://github.com/aiola-lab/whisper-ner
aiOla unveils open source AI transcription that masks sensitive info | VentureBeat
https://venturebeat.com/ai/aiola-unveils-open-source-ai-audio-transcription-model-that-obscures-sensitive-info-in-realtime/
aiOlaによると、WhisperNERはOpenAIのオープンソースAIモデルである「Whisper」をベースに構築された文字起こしAIで、プライバシー確保とデータ保護規制の順守に取り組んでいるとのこと。WhisperNERでは、オーディオファイルを処理すると同時に固有表現抽出(NER)を適用して、出力されたトランスクリプション内の名前や電話番号、住所などの機密情報にタグを付けたりマスクしたりすることが可能です。
また、自動音声認識(AER)ツールとNERツールを別々に使用する必要がないWhisperNERは、データ侵害に対する脆弱(ぜいじゃく)性が軽減されていることも特徴の1つとされています。aiOlaの研究担当バイスプレジデントのジル・ヘッツ氏は「私たちはWhisperNERを、AIのプライバシーを向上させるためのオープンソースツールとして設計しました。これにより、ユーザーは追加のソフトウェアを必要とせずに機密データをマスキングできます」と述べています。
WhisperNERのデモはHuggingFacce上で公開されており、誰でも利用可能です。
Whisper-NER (v1) - a Hugging Face Space by aiola
https://huggingface.co/spaces/aiola/whisper-ner-v1


以下は「Hey, my name is John Doe. I live at 100 Maplewood Lane. Phone number is 05066321.(やあ、私の名前はジョン・ドゥです。。メープルウッド通り100番地に住んでいます。電話番号は05066321です)」という音声を読み込ませたデモです。「Entity Labels」の欄に隠したい項目である「address(住所)」「name(名前)」「phone-number(電話番号)」を入力して「Submit」をクリック。


すると「Transcription and Entities」欄に適切に機密情報がマスク処理された「Hey, my name is "name". I live at "address". Phone number is "phone-number".」という文字起こしが出力されました。


WhisperNERは機密情報以外も隠すことが可能。以下のデモでは「I plan on watching the Juve vs Arsenal game tonight.I hope Yildiz will score.(今夜ユベントス対アーセナルの試合を観戦する予定です。イルディスがゴールを決めてくれることを願っています)」という音声を入力し、「football-club, football-player, referee」にマスク処理するよう要求しました。


出力された文字起こしが以下。「I plan on watching the football-club game tonight. I hope football-player will score.」という文章が出力され、指定した固有名詞が適切に隠されていることが分かります。


なお、aiOlaによるとWhisperNERは英語データのみで学習・評価されたとのことで、記事作成時点では日本語の音声を文字起こしすることはできませんでした。
WhisperNERのソースコードは以下のGitHubページからダウンロード可能です。
GitHub - aiola-lab/whisper-ner: Official implementation of "WhisperNER: Unified Open Named Entity and Speech Recognition"
https://github.com/aiola-lab/whisper-ner

ジャンルで探す