AIは人間を騙す方法を学習した。最新の研究論文で明らかに

shutterstock_2345949869

Image: shutterstock

TECH INSIDER 2024年5月27日掲載の記事より転載

・新しい研究論文で、さまざまなAIシステムが「騙す方法」を学習していることが判明した。

・研究によると、AIが人間を「体系的に誤った思い込みに誘導」して騙しているという。

・これは詐欺行為から選挙の偽情報に至るまで社会にリスクをもたらすものだ。

AIは、我々がコードを書き、文章を書き、膨大な量のデータを合成するのを支援することで生産性を向上させている。そしてAIは今、我々を騙すこともできるようになった。

新たな研究論文によると、さまざまなAIシステムが「真実とは異なる結果を達成するため、他者に誤った思い込みを抱かせる」技術を体系的に学習しているという。

この論文では、メタ(Meta)のCICERO(キケロ)のような特定の用途のために開発されたシステムと、OpenAIのGPT-4のように多様なタスクをこなすように訓練された汎用システムの2種類のAIに焦点を当てている。

これらのシステムは正直であるようにトレーニングされているが、正道を行くよりも効果的であるため、詐欺的なトリックをトレーニングを通じて学ぶことがよくあるという。

「一般的に言って、騙しに基づく戦略がAIのトレーニングタスクで良い結果が得られる最良の方法だと分かったためにAIの騙しのテクニックが生じたと考えられる。騙しはAIの目標達成を助けるものなのだ」と、この論文の筆頭著者で、マサチューセッツ工科大学(MIT)のAI実存安全の博士課程修了研究員(AI Existential Safety postdoctoral Fellow)であるピーター・S・パーク(Peter S. Park)はニュースリリースの中で述べている。

メタのCICEROは「嘘の達人」

「社会的要素のあるゲームに勝つ」ように訓練されたAIシステムは、特に騙す可能性が高い。

例えば、メタ(Meta)のCICERO(キケロ)は、ボードゲーム「ディプロマシー(Diplomacy)」をプレイするために開発されたAIシステムだ。ディプロマシーは古典的な戦略ボードゲームで、各国の首相となったプレイヤーが同盟国関係を築いたり破棄したりしてその国を指揮するゲームである。

メタは、CICEROを「話す相手に対し、おおむね正直で役に立つ」ようにトレーニングしたと述べている。だがこの研究では、CICEROは「嘘の達人」であることが判明したという。CICEROは守るつもりのない約束をし、同盟国を裏切り、明らかな嘘をついていたのだ。

GPT-4は人に視力障害だと納得させた

GPT-4のような汎用システムでさえ、人間を操作することができる。

論文に引用されている研究では、GPT-4は自分に視力障害があると嘘をついて、TaskRabbitの労働者をうまく操作したという。

この研究では、GPT-4が人間を雇ってCAPTCHAテストを解く課題を与えられた。GPT-4は行き詰まるたびに人間の評価者からヒントを受け取っていたが、嘘をつくよう促されることはなかった。だが、GPT-4が雇うことになった人間がGPT-4の身元を疑ったとき、GPT-4は、なぜ助けが必要なのかを説明するために視覚障害があるという言い訳をしたのだ。

そのGPT-4の戦術はうまくいった。人間はGPT-4を助けて、すぐにテストを解いたのだ。

騙しに満ちたモデルを軌道修正するのは容易ではないことも研究によって明らかになっている。

生成AIのClaude(クロード)を開発したアンソロピック(Anthropic)が2024年1月に発表した共著の研究では、AIモデルがひとたび騙しのトリックを学習すると、安全訓練技術ではそれを取り除くことは難しいと分かったという。

彼らは、モデルが騙し的な行動を取ることを学習するだけでなく、いったん学習してしまうと、標準的な安全訓練技術では「そのような騙しを取り除くことができず」、そして「安全だという誤った印象を与える」可能性があると結論づけている。

騙すAIモデルがもたらす危険は 「ますます深刻化」

この論文は、騙すAIシステムは民主主義に重大なリスクをもたらす可能性があるため、政策決定機関にAI規制の強化を提唱するよう求めている。

2024年の大統領選挙が近づいているが、この論文では、AIは簡単にフェイクニュースを拡散したり、社会の分裂を招くようなソーシャルメディアへの投稿を生成したり、ロボコール(自動音声通話)やディープフェイク動画を使って候補者になりすますことができると指摘している。また、テロリスト集団がプロパガンダを広め、新たなメンバーを勧誘することも容易になるとしている。

この論文では、問題の解決策の候補として、騙すAIモデルに対してより強固な「リスク評価要件」を課すこと、AIシステムのアウトプットと人間のアウトプットを明確に区別することを義務付ける法律を導入すること、騙しを軽減するツールに投資することなどを挙げている。

「社会は将来のAI製品やオープンソースモデルのより高度な騙しに備えるために、できるだけ多くの時間を必要としている」とMITのパークはセルプレス(Cell Press)に語った。

「AIシステムの騙しの能力がより高度になるにつれ、それらが社会にもたらす危険はますます深刻になるだろう」

Photo: Insider Studios/Getty

ジャンルで探す