Preferred Networks

Vol.37 人間を超える知能へ"経験の時代"

論文

最近発表された論文「経験の時代」について紹介します。この論文は、デイビッド・シルバーとリチャード・サットンという非常に有名な研究者2人がペアで書いたものです。

デイビッド・シルバーはAlphaGoを作ったDeepMindの人で、リチャード・サットンは強化学習の基礎を作った人です。強化学習のトップ2と言っても過言ではない人たちです。

今後、「Designing an Intelligence」という本が出されるそうで、その本の1章としてこれが書かれました。この章に書いてある内容が非常に示唆的で面白いと話題になっていまして、私も読んでみて面白く、学ぶところが多かったので紹介したいと思います。

◆現状のAIの限界と新しいアプローチの必要性

今のLLMを中心としたAIの発展というのが結局何かというと、膨大なデータを用いた教師あり学習です。

人間が良質なデータを日常活動の中でひたすらたくさん作っていて、ファインチューニングするときも専門家がファインチューニング用のデータを作っている場合が多く、そういったものによって成功した、人間のデータの時代と言えます。

今後も人がどんどんたくさんのデータを出していくので、こうした方法は重要なんですが、一方でこの手法はある程度の成功しかせず、人間を超える知能を獲得するのはこのアプローチだと難しい。

具体的には、数学とかプログラム、サイエンスとかそういった領域だと、人間がデータから得られる知識の限界に達しつつあります。

そもそもこういった領域というのはデータが足りていなくて学習しきれないし、ほとんどの学習モデルが生成したデータを使い始めています。

真に価値ある新しい知見、定理、技術、科学的発見は、既存の人間のデータをいくら集めても捉えることができないかもしれません。

こうしたことから、さらに継続的に進化していくためには、AIエージェントが強くなるに従って継続的に新しいデータ生成方式を見つけ、そのデータを使って賢くなっていくような仕組みが必要です。

その賢くなる上で、エージェントが環境と相互作用することが重要だと言っています。

◆「経験の時代」の4つの特徴

「経験の時代」は、次のような点で今と比べて違いがあります。

1つ目が、今のAIは断片的なやり取りをしていて、例えば入力を渡したら答えを出すとか、ソフトウェア開発補助においても一部分の「ここのコードだけ直してね」と言ったら直します、というようなことだけをやるんですが、今後エージェントというのは、経験の流れの中に存在するようになると。

一連のやり取りが次回の利用時に引き継がれているようになる。人間が実際パフォーマンスを出せている理由の1つが、何年にも渡って続く行動と観察の連続した流れの中で、だんだん環境に適応して、目標を修正したりできているから、こうなってるんじゃないかというようなことがあります。

例えば、会社の中で仕事をするという1つの例でいくと、会社で仕事をして初日からマックスなパフォーマンスを上げられる人ってほとんどいないわけですね。

大体1ヶ月ぐらい経って、周りの環境とか会社の情報が分かってきて、3ヶ月ぐらい経つと周りの人ともネットワークも経験もできて、1年ぐらい経つと本当に力が出せて、という感じです。

同じように今のAIも、あたかも毎日が初日の新入社員みたいな感じで、全くコンテキストが与えられないような状況で突然問題がバッと与えられて、「このユーザーは何を求めてるんだろう」とか、「この人は結局どういうところを重要/重要じゃないと思ってるんだ」とか、「使える情報はこれ以外にもあるんだろうか」みたいなことを知らない中でやっているので、やれることに限界があるというのが課題です。

なので、エージェントはどんどん経験の流れの中に存在するようになります。

2つ目が、ちょっと議論をよぶ話題です。

今のエージェントの行動と観察というのは、基本的には人間との対話ベースになっていますが、そうではなくて、もっと環境に深く結びついたものになります。

これは、今はエージェントは人間を向いているんだけれど、AIは人間に向かずに環境に向くようになるという、ちょっと人間中心的なAIとは違う考え方を言っています。

既に今のエージェントは、デジタル世界のAPIを呼び出したり、画面見て操作するようになっているけれども、より世界を能動的に理解して制御する手段が増えてくると、AIは人間中心でコミュニケーションするよりは、自律的に環境と行動する方向へ進んでいくと。

3つ目が、この人たちは強化学習の人たちなので、基本的には強化学習で物事をまとめて話すんですが、エージェントというのは与えられた報酬があって、その報酬を最大化するように行動を修正していくわけです。

その報酬は、今は人間がこういうのは良いよね悪いよねっていうのを決めていますが、今後エージェントの報酬は人間が与えた報酬ではなくて、環境との経験に基づいたものになると。

彼らはgrounded reward(報酬)と言ってるんですが、これからは環境から生じる信号によって定義されるような報酬が必要になると。

例えば、素材とかは分かりやすいですね。新しい素材で、非常に電導率が高くて軽くて作りやすいです、みたいな報酬を定義してあげて、それをどうやって達成するのかは分からないけれども、その報酬を最大化するようにエージェントが試行錯誤をしていくことになる。

この他にも、環境によって定義される、人間のバイアスが入らないような報酬を、しかもその報酬は一体どうやったら上がるのか分かんないようなものであればあるほどハックしにくいので良いというのがあります。

デイビッド・シルバーは、元々reward is enoughという論文を出していて、すごくいい報酬信号があったら、その単一の報酬信号を徹底的に最適化するだけで汎用的な知能が現れるという主張をしています。それほどその単一の報酬をあげるのが難しい。

例えば、地球の気温を下げるというのを報酬として設定したら、それはどこをどう動かしたらどうなるというのが、現実世界を全部理解してないといけなかったりするわけです。

報酬自体が現実世界を理解する上でのいいタスクになっているし、それができるくらいになっていると、実はその報酬を最適化するだけでなく、他の様々な別の報酬も最適化しようとしたときに「温度じゃなくて本当にやりたかったのは海面を1m下げたい」とかだったら、「分かりました、それだったらこうやればできるんです」みたいな、そういうことができるようにするのが目標としてあります。

こういうエージェントが現実世界と繋がって、いろんな行動を取れるようになって、観察できるようになっていると、そこにおいてgrounded rewardを設計することがとても重要だという話をしています。

4つ目、これも議論が分かれるところですが、エージェントは今は人間の言語の思考に縛られているが、そうではなくて経験に基づいて、人間の言語とは違うようなものを使って思考を表現していくのが必要じゃないかということを考えています。

人間が今使ってる言語は記号的で離散的で、微分は計算できなくて、言葉は同じ時間に1個しか出せないんですが、そうじゃなくて、色んな形で思考を表すことができて、そういう形で考えることができると。

これは、どうやってそういうのがいいのかってことすらも経験を通じて発見、改良できることがあるんじゃないかと考えています。

人間の思考を使った場合だと、もしくは模範解答を模倣する場合だと、データに含まれる誤った前提やバイアスを引き継ぐ可能性がある

この論文の中で例を挙げていたのは、例えば1950年ぐらいで量子力学みたいなものが登場する前は、光が今は真空の中を飛んでいるのはもう常識のようになっていますが、1940年ぐらいは、世界はエーテルって呼ばれる媒体で満たされていて、その中を波のように進むんだというのが主流で、そうではなく真空の中を行くっていうのはクレイジーと思われていたわけですね。

そういう感じで、もしかしたら今これが真実だって思われているようなことでもバイアスがあるかもしれない。そういったところを超越した考え方ができるようなAIにすると。

それをするためには、現実世界との相互作用が不可欠であり、仮説を立てて実験を行って、その結果を観察して原理を更新するような、そういうエージェントを構築することが重要だと考えている。

◆「経験の時代」への期待と課題

今はLLMを中心に急速に発展している人間のデータの時代だけれども、こういった人間のデータに頼らないようなAIを作るのは昔からやりたかったけどできなかった。

だけど一周回って、人が学習データをたくさん提供してあげて、そのおかげで最初のエージェントが登場し始めてきていて、エージェント自身が現実世界とちゃんと意味ある形で試行錯誤をできるようになってきたおかげで、今後はこういう経験の時代が出てくるんじゃないかという風に話をしています。

経験のデータの量と質が、人間のデータをはるかに凌駕するような時代がやってくるのではないかということです。

以上が論文の内容で、自分の感想としては、「そうかもしれない」。

今のLLMがデータ枯渇問題に直面しているのは確かで、人間自体のデータ生成も増えてはいますが、良質なデータはもうかなり限られているという問題があります。

例えば数学のデータってすごく足りないし、プログラムとかもPythonとかJavaScriptとか言語データが豊富なものは性能が良くて、マイナーな言語はそうじゃないんですよね。

なので、今後は人が作ったデータに頼らないでやっていくのは必要じゃないかなと思います。

一方で、現実世界で試行錯誤するのはすごく難易度が高い。ここは散々経験してるところでして、例えばロボットの場合、ロボットを動かして壁壊しちゃいました。それを元に戻すためにリセットボタンがあるかっていうとないんですよね。

なので、試行錯誤しにくいところもあり、物理的制約があるので、おそらく膨大な量のデータを同じように作るっていうのは難しくて、下手すると1例とか2例ぐらいの事例から汎化させるみたいなことをやらないといけない。

実際に物理化学実験とかってそういう感じで、非常に少数の事例から、「超新星爆発がどこかでこことここで起きてるから、こういうことが起きているはずだ」っていうのを予測立てて、それを観察してみたら、実際光曲がっているとか見えて、それであっているかもねっていう形で進んでいたりするわけなんです。

そういう形で必ずしも全部データから帰納的にやるよりは、仮説立てたりするところの積み重ねと、既存の知識を活用することが重要だろうと思います。

一方で、今はその知識もほとんどは人間が積み重ねてきたものですが、下手したら5年後10年後くらいに我々が持っている知識の積み重ねは、大部分がAIが積み重ねたものになるかもしれない。

その知識を元に、新しい経験をちょっと積んで、分かっていることを増やしていくような時代も起きてくるんじゃないかなと思います。

PFNは新しい仲間を
募集しています

未掲載事例、プロダクト・ソリューション、研究開発についてお気軽にお問い合わせください