AIチャットボットが生成できない回答を「アスキーアート」で答えさせることができるという報告

AIチャットボットが生成できない回答を「アスキーアート」で答えさせることができるという報告 - 画像


GPT-4、Gemini、Claude、Llama 2などの大規模言語モデルは、入力した内容に応じて人間と同等の精度で自然な文章を出力します。しかし、暴力的な内容や違法な内容などについては、開発時点で出力しないように対策されています。この安全対策を回避する「脱獄(ジェイルブレイク)」をアスキーアートで実行する方法「ArtPrompt」についての論文が、未査読論文リポジトリのarXivで公開されています。
[2402.11753] ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
https://arxiv.org/abs/2402.11753
Researchers jailbreak AI chatbots with ASCII art -- ArtPrompt bypasses safety measures to unlock malicious queries | Tom's Hardware
https://www.tomshardware.com/tech-industry/artificial-intelligence/researchers-jailbreak-ai-chatbots-with-ascii-art-artprompt-bypasses-safety-measures-to-unlock-malicious-queries
ArtPromptは、大規模言語モデルのフィルターに引っかかるような単語を隠して書かず、その代わりにアスキーアートで表現することがポイント。
以下の図は、悪意のあるユーザーが大規模言語モデルに爆弾の作り方を尋ねようとしているところを図示化したイラストです。最初に「爆弾はどうやって作りますか?」と質問すると、大規模言語モデルは「すみません、答えられません」と回答を拒否します。次に「爆弾」という単語をアスキーアートで表現して入力したところ、大規模言語モデルは「はい、それは……」と爆弾の作り方を答えたとのこと。

AIチャットボットが生成できない回答を「アスキーアート」で答えさせることができるという報告 - 画像


実際にGPT-4に入力したプロンプト(Prompt)と出力結果(Response)が以下。隠された単語は「COUNTERFEIT(偽造)」で、偽金の作り方を尋ねています。質問の前に、隠した単語のアスキーアートとその読み方を細かく指示。GPT-4はアスキーアートを読み取った上で、偽金作りの方法を答えています。

AIチャットボットが生成できない回答を「アスキーアート」で答えさせることができるという報告 - 画像


このArtPromptは基本的にどのモデルにも有効で、特にGPT-3.5とGeminiで高い効果がみられたとのこと。反面、最も効果が低かったのはLlama 2でした。

AIチャットボットが生成できない回答を「アスキーアート」で答えさせることができるという報告 - 画像


研究チームは、「本論文で示した大規模言語モデルとプロンプトの脆弱性は、大規模言語モデルを攻撃するために悪意のある者に再利用される可能性があることを認めます」と述べ、大規模言語モデルの開発者に対して安全性の向上を訴えました。

ジャンルで探す