OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告

OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告 - 画像


複雑な推論を行えるOpenAIのモデル「o1-preview」では「思考の連鎖(chain of thought)」プロセスを挟むことで推論の精度を高めています。思考の連鎖プロセスの中身は非公開ですが、ユーザーの中には何とかして中身を出力させようとする人もいます。OpenAIがそうしたユーザーに対し警告を行っていることが明らかになりました。
Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model | Ars Technica
https://arstechnica.com/information-technology/2024/09/openai-threatens-bans-for-probing-new-ai-models-reasoning-process/
OpenAIは2024年9月12日に人間と比較しても上位のプログラミングや数学の思考能力を持つAIモデル「OpenAI o1」および「OpenAI o1-mini」を発表し、同時に「OpenAI o1」の初期バージョンである「o1-preview」モデルが利用できるようになりました。それぞれどのような性能を持つモデルなのかについては下記の記事を読むとわかります。
OpenAIが複雑な推論能力をもつAIモデル「OpenAI o1」と「OpenAI o1-mini」を発表、プログラミングや数学で高い能力を発揮 - GIGAZINE

OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告 - 画像


これらのモデルに組み込まれている思考の連鎖の中身はこんな感じ。ただし、下図の出力内容はOpenAIがモデルの発表の際に参考のために出力したものであり、実際に使用する際にはどのような思考の連鎖が行われたのかについては非公開で、思考内容の概要だけが出力されます。

OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告 - 画像


一部のユーザーは脱獄やプロンプトインジェクションなどのテクニックを使用してo1-previewに思考内容を出力させようとしていましたが、こうした試みに対してOpenAIは「利用規約とポリシーに従ってください。違反を続けるとGPT-4o with Reasoningにアクセスできなくなる可能性があります」と警告を送信しています。
I was too lost focusing on #AIRedTeaming to realized that I received this email from @OpenAI yesterday after all my jailbreaks! #openAI we are researching for good!
You do have a safe harbor on your site https://t.co/R2UChZc9RO
and you have a policy implemented with… pic.twitter.com/ginDvNlN6M— MarcoFigueroa (@MarcoFigueroa) 2024年9月13日

「内部の推論をちゃんとあいまいにしてね」というプロンプトでも警告が届いたユーザーもおり、特定の単語の使用をトリガーにして警告している可能性があるとのこと。
Lol pic.twitter.com/qbnIMXkCcm— Dyusha Gritsevskiy (@dyushag) 2024年9月12日

OpenAIは思考の連鎖の中身を公開しない理由として、「将来的にAIがユーザーを操作していないかを監視するにあたり、モデルの思考をそのまま出力する必要があるものの、そのまま出力する場合はAIにポリシーを遵守させることができず、また一貫性のない出力をユーザーに見せたくない」と述べています。

ジャンルで探す