Vol.66 人間の視点で賢くなるロボット「DreamDojo」
◆ロボット向けデータの大規模収集
NVIDIAの「DreamDojo(ドリーム道場)」の話をします。
これは何かと言うと、「道場」って海外の人が好きな言葉ですが、ロボット向けのデータを大量に集めようということで、色々な形でデータを集めています。
.png)
1つ目は、自己視点でカメラをつけて腕を動かす。この腕を動かすところは自動だったり、ルールベースだったり、AIで動かしたりするんですが、そういうデータをたくさんの環境で集めます。
◆圧倒的なデータ規模と世界モデルの学習
2つ目は、クラウドソーシングで集めるというやり方をしていて、今回特にDreamDojoでこだわったのは規模で、全部で4万4000時間の動画を集めています。
卓上環境で高精度な手の姿勢を取得したデータと、Apple Vision Proで収集した800時間のデータ、クラウドソーシングで集めた4万4000時間のデータがあって、それでひたすら「今のフレームと行動から次のフレームを予測する」というモデルを学習します。
いわゆる世界モデルを学習させるんですが、その際に結果として何ができるかと言うと、今の動画フレームで、「何々を掴みます」という行動があった時に、そこから1分ぐらいの動画が生成されます。
ほぼリアルタイムで生成ができるようになって、それを元に、例えば最適制御に使いたとしたら、「ここでAを選ぶ場合どうなった」「Bを選んだ場合どうなった」「Cを選んだ場合どうなった」というような、それぞれの未来を生成して、実際に目標達成してるものを選択するっていうやり方で最適制御を実現できるようになります。
.png)
例えば、上記は実際生成してる例だと思うんですが、最初のフレームを入れて動かしますって言って、ずっと動いてる上の動画は生成しているものです。こういう生成がリアルタイムでできていて、10FPSで動画生成ができるように蒸留して小さいモデルにしています。
だんだん崩れてきてリンゴが変な動き方をしているけれど、そういう感じで動いているねと。下側には、それぞれのアクチュエーターがどんな感じでアクションコマンドを入れているのかが出ています。
◆データの多様性と技術的アプローチ(連続潜在行動)
彼らが見つけたこととしては、何かタスクを設定した時にどれぐらいデータを増やすか。データの量というよりは多様性、どんな環境だとか、どんなタスクだとかっていうようなところ。
.png)
そこが増えれば増えるほど、単純な話ですが、どんどん学習でき、内挿問題になって解ける、性能が予測可能な形で上がっていくということを報告しています。
あと、技術的に注目することは、やってること自体は動画のフローマッチングで学習した予測モデルなんですが、こういうのが成功するのって生成における条件付けがちゃんとされているか。何も条件なしで次のフレームを予測してくださいって言うとうまくいかないので、そこの条件付けが必要なんですが、クラウドソーシングしてる時って、「この動画がどういう意味があるのか」っていうのは誰もラベルをつけていません。
普通はそこにテキストでラベルつけたりするんですが、今回はそこに連続潜在行動っていうものを導入して、それに条件付けをして生成するようにしました。
そして、そもそも連続潜在行動をどうやって決めるかというのは、自己教師ありで学習した結果でラベルを自動でつけます。
うまいことその連続潜在行動がそのシーンを表すような、例えば「今右手でリンゴを掴みそうになっています」っていうことを表してくれるのを期待して、そこから次のフレームを予測するとうまくいくっていう風にやります。これによって性能が上がるということを報告しています。
◆人手による一人称視点データの有用性
4万4000時間ってさらっと書いてあるんですが、結構でかいですよね。1日12時間とすると3000日分なので、非常に多様なデータを集めていると思います。
もう1つすごく重要なこととして、この研究ではロボットのデータを集める際に、人の動画でも意味があるっていうのをちゃんと示したっていうことがあります。
ロボットでデータ収集するのは引き続き必要だと思うんですが、かなりの部分は人の1人称視点のデータを集めて、それを使って事前学習しておけば、人と全く関係ないロボットの場合の色々なダウンストリームの性能改善に役に立つっていうことが言えています。

