Preferred Networks

Vol.57 オープンモデルは本当に安全か?

◆オープンモデルの安全性に関する議論とリスク

オープンモデルに関しての安全性を議論している論文で、有名な人たち、例えばBengioとか、Kolterとか、(PFNのテクニカルアドバイザーの)Yarin Galとか、そういう人たちが書いています。

最近も議論になっている「オープンモデルが安全か」という話ですが、まずモデルにはオープンモデルとクローズドモデルがあります。

オープンモデルも、正確にはオープンウェイトモデルで、学習データとか、学習に使ったソースコードとかは全部開示されないで、ウェイトと推論の時に動かすコードだけが出ているようなものがオープンモデルとしてたくさん出ていて、みんな使っています。

例えば商用のChatGPTとかはクローズドモデルで、クラウドの裏で動いていて誰もそれを触ることができない。

オープンモデルは検証が自由にどこまでもでき、安心して使える、クローズドモデルよりもちゃんと分かる、という意味で良いということがあります。

一方で、この論文では色々なリスクがあると言っていて、特に「誰でも改変できて、悪意を持って改変されたモデルが大量に流通しうるという問題」が、まず喫緊で迫っているとしています。

あとはオープンモデルの場合は、一度公開したら取り下げ不可能なので、「1回公開して致命的なものがあったとしても、すぐ広まっちゃうので制御不可能だ」ということが懸念としてあると言っています。

◆悪意のある改変技術の進展と耐性の課題

特に、改変するのも、ものすごい研究が進んでいて、公開されたモデルの例えば安全性のフィルターを外すとか、そのモデルにバックドアで何かを入れるようなことは結構できるという研究がたくさん出ているし、既にそういうモデルが世の中に出てきています。

そういったところで、改変をさせないように、改変耐性を持つような訓練も提唱されているのですが、ほとんど使われてないし、多分実用的ではまだない、というような話があります。

◆モデルの追跡不可能性と安全評価ベンチマークの必要性

あとは、そのモデルがどういう出自か、そもそもオリジナルのものかというのは、例えばハッシュ値とかで検証できると思うのですが、それをちょっと改良したバージョンみたいなものが世の中の無数の開発者が出している中では、「そのモデルがどういう形で作られたか」「誰が作っているか」「途中で悪意がある人・組織が何か変なことを入れていないか」というのを追跡することは今できていない。

そういったところでは、今後はオープンモデルは安全評価ベンチマークをさらに強化し、特に改変耐性、何か悪意のある人が「このモデルを悪い使い方ができるようにしよう」ということに対して耐性がどれくらいあるか、試験をしたりすることが必要です。

◆事前学習データの重要性とフィルタリングの課題

今のLLMは結局はほとんどが、事前学習の時に得られた知識とか能力を、事後学習で引き出しているということが分かってきているので、じゃあ「事前学習の時にどういうデータを入れているか」がますます重要になります。

さらに、事前学習の時に間違って何か入れちゃったとか、最悪、個人情報に関係するようなデータが入っていた時に、それを除外、アンラーニングするのがめちゃくちゃ難しいというのも分かってきています。

なので、事前学習のデータを、能力を高くするためだけでなく、安全性の観点でちゃんとデータフィルターをやらなきゃいけないね、ということがあります。

◆バックドア検知と開発元の透明性の提唱

そうは言っても、もうバックドアも仕掛けることは可能になってきていますから「バックドアをモデルに仕込まれているかいないかを検知する手法の研究をやっていきましょう」というようなことを提唱しています。

なので、この論文は、モデル自体はもうオープンになっていて、これ以上どうしようもないので、その安全性研究のオープン化と、各モデルの開発元が、安全性を評価するところを透明性を持って開示するべきだ、というようなことを言っています。

よく議論としてあるのは、オープンモデル自体に何か仕掛けられているんじゃないかとか、そういった話もあるのですけど、現実的なところで言うと、こういう改変を誰かがして、本物そっくりのモデルとして提供して、知らずに使っちゃって、みたいな方が結構出てくるだろうな、と思います。

PFNは新しい仲間を
募集しています

未掲載事例、プロダクト・ソリューション、研究開発についてお気軽にお問い合わせください