ChatGPTや大規模言語モデル(LLM)から隠された情報や一部機能を盗み出す攻撃手法が登場

ChatGPTや大規模言語モデル(LLM)から隠された情報や一部機能を盗み出す攻撃手法が登場 - 画像


OpenAIのチャットAIであるChatGPTや、Googleの開発する大規模言語モデル(LLM)のPaLM-2などから、機密情報や一部機能を盗み出すことができる「モデル窃盗攻撃(model-stealing attack)」を、AI研究者が発表しました。
[2403.06634] Stealing Part of a Production Language Model
https://arxiv.org/abs/2403.06634


Google announces Stealing Part of a Production Language Model
We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the… pic.twitter.com/bgBCTYywWN— AK (@_akhaliq) March 12, 2024

「モデル窃盗攻撃」と呼ばれるAIやLLMの「本来は隠された状態になっている機密情報」を盗み出す手法を考案したのは、Google DeepMindのニコラス・カルリーニ氏らからなる研究チーム。他にもチューリッヒ工科大学やワシントン大学、Google Research、コーネル大学、OpenAIの開発者が研究に携わっています。
研究チームが「モデル窃盗攻撃」の存在を初めて発見したのは2020年のことですが、2023年10月に実際に稼働している言語モデルで使用されているAPI上でこの攻撃手法が有効であると判明するまで、モデル窃盗攻撃を用いた攻撃が実現可能であるとは考えられていなかったそうです。
研究チームは2023年11月にモデル窃盗攻撃の概念実証を実施し、同年12月にこの攻撃手法に対して脆弱(ぜいじゃく)であることが確認されている複数のサービスに対して情報を開示し、各サービスが脆弱性を修正できる猶予を確保しています。また、モデル窃盗攻撃に対して脆弱ではないいくつかの人気の高いサービスに対しても、攻撃の詳細を共有したそうです。
この通知を受け、Googleは脆弱性に対応するためのアップデートを実施。OpenAIは2024年3月3日に攻撃に対するアップデートを実施したため、現地時間の2024年3月11日にモデル窃盗攻撃に関する論文が公開されるに至った模様。

ChatGPTや大規模言語モデル(LLM)から隠された情報や一部機能を盗み出す攻撃手法が登場 - 画像


研究チームはいくつかのホワイトボックスモデルに対してモデル窃盗攻撃を仕掛け、モデル窃盗攻撃が実際に機能することを検証。その後、OpenAIのLLMであるGPT-3の中でも最も高速なモデルであるAdaや、単純なタスクを迅速かつ低コストで実施できるモデルのBabbageなどに対してモデル窃盗攻撃を実施し、各モデルから最終層全体を盗み出すことに成功しています。なお、当然ですが研究チームは攻撃実施前に、OpenAIに攻撃を実施する旨を通達し、了承を得ています。
さらに、「GPT-3.5-turbo-instruct」と「GPT-3.5-turbo-chat」に対してもモデル窃盗攻撃が有効であることを研究チームは確認しています。ただし、研究チームは責任ある開示協定の一環として、これらのAIモデルのサイズに関する情報は明らかにしていません。ただし、各モデルから盗み出した隠れ層のサイズをOpenAIに確認し、盗み出した情報が正確なものであったことが確認されています。
これまでAI専門家の中でモデル窃盗攻撃は実用的なものではないと考えられていたそうですが、今回の論文によりモデル窃盗攻撃を用いてAIモデルから一部の機能を盗み出したり、モデルの一部を盗み出したりすることが可能であることが明らかになりました。しかし、モデルを盗んでも独自のモデルをトレーニングするよりもコスト効率が高いというわけではなく、モデルをほぼ完全に復元するようなモデル窃盗攻撃を行うことも難しいと研究チームは指摘しています。

ChatGPTや大規模言語モデル(LLM)から隠された情報や一部機能を盗み出す攻撃手法が登場 - 画像


研究チームはモデル窃盗攻撃が成功した理由について、「少数のモデルプロバイダーが、ロジットバイアスパラメーターを利用可能にしたため」と指摘しており、この種のAPIを提供していないモデルプロバイダーとしては「Anthropic」の名前が挙げられています。API設計におけるほんの小さな決定により、AIモデルに対する攻撃が可能になってしまうという今回の事例から、「セキュリティを念頭に置いたAPI設計が必要です」と研究チームは指摘しました。
研究チームはモデル窃盗攻撃よりも実用的なAIモデルをターゲットとした攻撃手法が今後登場することになるだろうと指摘しています。

ジャンルで探す