中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - 画像


中国の大手IT企業であるアリババが、720億のパラメーター数を誇るTransformerベースの大規模言語モデル「Qwen-72B」と、日本語の音声入力にも対応したQwenのマルチモーダルバージョンの「Qwen-Audio」をオープンソース化したことを発表しました。
Qwen/README_JA.md at main · QwenLM/Qwen · GitHub
https://github.com/QwenLM/Qwen/blob/main/README_JA.md
Qwen/Qwen-72B-Chat · Hugging Face
https://huggingface.co/Qwen/Qwen-72B-Chat
GitHub - QwenLM/Qwen-Audio: The official repo of Qwen-Audio (通义千问-Audio) chat & pretrained large audio language model proposed by Alibaba Cloud.
https://github.com/QwenLM/Qwen-Audio
アリババグループの最先端研究機関・アリババDAMOアカデミーで神経言語プログラミング(NPL)を研究しているBinyuan Hui氏は、SNSへの投稿で「私たちの誠実なオープンソース作品、Qwen-72BとQwen-1.8Bを紹介できることを誇りに思います!」と発表しました。
We are proud to present our sincere open-source works: Qwen-72B and Qwen-1.8B! Including Base, Chat and Quantized versions!
???? Qwen-72B has been trained on high-quality data consisting of 3T tokens, boasting a larger parameter scale and more training data to achieve a… pic.twitter.com/VUAMbh83At— Binyuan Hui (@huybery) November 30, 2023
Qwen-72Bは3兆以上のトークンで学習した大規模言語モデルで、MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBHなど自然言語理解や数的処理、コーディングなどに関する一連のベンチマークでは全てのタスクで同サイズのモデルであるMetaのLLaMA2-70Bを上回ったとのこと。また、10タスク中7タスクでOpenAIのGPT-3.5を超える成績をたたき出しました。
さっそく試したユーザーからは、日本語の処理も軽快に行えるとの報告が出ています。
Qwen-72Bの推論スピードをStablelm-base-70Bと比較しました
Qwenは、vocab size 15.2万
StablelmはLlama2系で、3.2万
Qwenは日本語でも推論早かった???? pic.twitter.com/ft97X3UHmS— AI????サトシ⏩ (@AiXsatoshi) November 30, 2023
ただし、要求するメモリ容量が大きいためローカルで動かすのは少し厳しいとの意見もあります。
bf16/fp16 で Qwen-72B-Chat を実行するには、少なくとも 144GB GPU メモリが必要です (例: 2xA100-80G または 5xV100-32G) int4 で実行するには、少なくとも 48GB GPU メモリが必要です (例: 1xA100-80G または 2xV100-32G)。
無理なんだけど... https://t.co/8hrpCG47Sv— ようさん (@ayousanz) November 30, 2023
Qwenには、Qwen-72Bの他にパラメータサイズが異なる「Qwen-1.8B」「Qwen-7B」「Qwen-14B」もあります。また、中国語でのユーザー登録が必要ですが、Qwen-72Bをブラウザで動かすことができるデモも用意されています。
通义千问-72B-对话-Demo · 创空间
https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - 画像


Hui氏はまた、音声入力に対応したモデル「Qwen-Audio」もオープンソース化されていると発表しました。
???? Thanks to all the enthusiasm, let's add some fuel to the fire! We've further open-sourced ???? Qwen-Audio, including Base and Chat, as well as the demo!
???? Base: https://t.co/J8ACjUO4xE
???? Chat: https://t.co/p0RzfAvYxG
???? Demo: https://t.co/F1b30iHy5c https://t.co/B2sf4xsc7I— Binyuan Hui (@huybery) November 30, 2023
Qwen-AudioはQwen-7BとOpenAIの音声エンコーダーであるWhisper-large-v2を組み合わせたもので、既存の最先端(State of the Art:SoTA)モデルを全てのタスクで上回っているとのこと。
Making audio a first-class citizen in LLMs: Qwen Audio ????
Using a Multi-Task Training Framework, Qwen Audio - Combines OpenAI's Whisper large v2 (Audio encoder) with Qwen 7B LM to train on over 30 audio tasks jointly.
Tasks ranging from Speech Recognition to Music Captioning… pic.twitter.com/7gzKAV6rfv— Vaibhav (VB) Srivastav (@reach_vb) November 30, 2023
Qwen-AudioのデモはHugging Faceでユーザー登録をしなくても触ることができます。

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - 画像


まずは日本語のテキストを入力して質問してみました。

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - 画像


すると、以下のような回答が出力されました。

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - 画像


音声にも対応しているとのことなので、音声ファイルをアップロードしてみました。使用したのは、以前の記事で作成した動画の冒頭部分です。

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - 画像


「Submit」をクリックして送信します。

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - 画像


音声ファイルの内容は「地球上に金はどれくらい存在していますか?」というもの。なぜか歌詞と認識されてしまって会話はできませんでしたが、精度は高い模様です。

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - 画像


イーロン・マスク氏の問題発言である「Go fuck yourself」も聞き取れました。

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - 画像


Qwen-Audio-Chatは、中国語、英語、日本語、韓国語、ドイツ語、スペイン語、イタリア語での音声理解をサポートしているとのことです。

ジャンルで探す