Preferred Networks

Vol.69 GeneralistによるフィジカルAIの最前線

◆「ジェネラリスト」の概要と衝撃のデモ動画

ジェネラリスト(Generalist)という会社がやっている、フィジカルAIの活動を紹介したいと思います。

これを紹介する理由は、今フィジカルAIでいろんな会社がデモを出していますが、「かなりのブレイクスルーに見える」ので、紹介します。

ちなみにジェネラリストはできたての会社です。元々Google DeepMindでロボット研究をやっていて大変有名な研究者の方が立ち上げた、サンフランシスコとボストンに本拠地がある会社です。

まだどのような事業をするのかは分からずステルスでやっていて、時々デモ動画を出しています。

ロボット基盤モデルだと、よくPhysical Intelligenceが出している「πシリーズ」があるんですが、ジェネラリストのデモ動画を見る限り、さらにできているように見えます。

◆人間並みの「実時間」「頑健性」を見せるタスク遂行能力

まず「何ができているか」というところから紹介すると、ご覧の通りいろんなタスクをグリッパーを使ってできています。

注目点としては、これが全部実時間であること。よくロボットのデモ動画は10倍速とか5倍速みたいな感じで出ていますが、これは全部実時間で、このスピードで普通に作業ができています。

次に、頑健性。時々邪魔したり、服とかも適当な状態で置かれていても作業ができています。お財布にお金を入れるような複雑なタスクもできるし、コンタクトがあるようなタスクもできています。

コンタクトと言ってもレベルがあって、「変形させる」とか「すりつぶす」だとか、めちゃくちゃ力制御しないといけないようなタスクはまだ難しいと思うんですが、ダンボールを組み立てるとか、服を触って作業するとか、初めてこんなレベルのものができているので、これはすごいと思います。

◆人が直接装着する「直感的なデータ収集アプローチ」

これをどうやって実現してるかという話なんですが、去年に発表した「GEN-0」で「言語モデルで言われてるようなスケーリング則が物理向けAIの世界でも成り立つ」っていうようなことを言っています。つまりスケールさせていくほど、様々な能力が発言するということです。

特にデータの集め方が特に特徴的で、データを集めること自体は人が集めています。ハンドとアームもどきみたいなものを人が装着して、カメラをつけて、いろんな作業を人がやるところを撮ります。

現在の多くのアプローチは、例えばALOHAとかは、遠隔操作で人が遠くから操作しているものが多いのですが、ジェネラリストの場合は人が直接ガチャッとはめて、手の先がハサミみたいな感じでグリッパーが付いています。それで、人がせっせと何千時間も作業していろんなタスクの動画と作業時のログデータを撮っています。

◆フルスクラッチ学習とスケーリング則の実証

集めたデータセットを元に学習をさせていきます。

学習のさせ方は公開されてないんですが、書いてあるところだと、もうかなりのデータが集まっているので、集めたデータだけでフルスクラッチで学習することができると言っています。

これを使って、上記にある通り、インプットがあって、アウトプットとして、アクションや、その状態(今ハサミの角度がどうなっているとかのセンサーで取れる情報)から将来のアクションを予測するような問題をひたすら、少なくともこのロボットが扱えるような物理世界における、そういう物理法則をよく知っているモデルを作ります。

そうするとスケーリング則が発動し、事前学習のデータセットのサイズとか、それに応じてモデルサイズを大きくしたものを使うと次の行動予測のエラーが予測可能な形で下がっていくということで、「これで基盤モデルみたいなものが作れるでしょう」と。

あと、彼らが主張していて、多分今1番強みなのが「データの量」。πシリーズとかHelixとか他のロボット基盤モデルと比べてデータが多くこのGEN-0は50万時間。1000人が1日5時間集めたデータを100日、それくらいのスケールをせっせといろんな作業をさせて集めています。

◆単一モデルではなく「複数モデルのシステム」としての解決策

ジェネラリストはブログしか出していないので、ブログを読むしかないんですが、そのブログですごく主張しているのが「その場での即興性」です。

「その場で何があっても大体対応できる」くらいのものが事前学習されているので、「何があっても大丈夫」だと。これぐらいのことができれば、見た目だけでなく、本当にインパクトが出る可能性があると思います。

ジェネラリストは、基本的には1つのモデルで何か解決するという考え方はしていない。Claude Codeとか今のLLMにおけるエージェントシステムと同じように、複数のモデルを組み合わせて、システムとしてさっきのようなことを実現するというところに力を入れています。

1つの万能なAIモデルが全部解決するのはちょっと非現実的で、マスターとなるAIモデルがいて、それがサブエージェントを適切な引数で呼び出して、その結果を監視して、外にデータベースみたいなものがちゃんと状態を管理していて、とか。そんな感じで組み合わせて実現することが必要とされています。

PFNは新しい仲間を
募集しています

未掲載事例、プロダクト・ソリューション、研究開発についてお気軽にお問い合わせください