Preferred Networks

Vol.68 Claudeを用いた理論物理学論文の共同執筆

◆物理学者によるAIとの論文共同執筆プロジェクト

コーディングをサポートするエージェントとして、「バイブコーディング(Vibe Coding)」ってよく言われて、雰囲気でコーディングしていくというのがありますけれども、物理学者の方が、同じように今の雰囲気で研究をしてちゃんとした論文を書き上げたっていうのがあります。

この物理学者の方は有名な教科書を書いているマシュー・シュワルツ(Matthew Schwartz)さんっていう方です。普通だったら大学院生に対して「じゃあこういう研究テーマやってみようか」って話して、色々やり取りしながら1本論文を書き上げるということをしているんですけども、その代わりに「Claudeを指導して論文を書き上げられるか」っていう試みを行いました。

◆AI活用による驚異的な執筆スピードと人間の役割

その結果、通常だと大体1年かかるような論文執筆を2週間で、技術的に厳密かつ影響力のある高エネルギー理論物理の論文を完成することができたと。

ただ、よくある「AIサイエンティスト」のような自動で書きますよっていうものじゃなくて、この論文完成には人もちゃんとコミットして協力をしています。

この作成にあたっては110回以上のドラフト作成、3,600万トークンの処理、40時間以上に及ぶローカルCPU計算をさせて、人も2週間ぐらいずっと張り付いて、時々その結果を見てちゃんとフィードバックを返したり、間違ってたら「間違ってるよ」って教えて完成をさせたということになります。

感想としては、「まだAIは完全なエンドツーエンドの科学研究を行える段階ではないけれども、適切に設計することによって、2週間ぐらいで今の論文が書けた」ということになります。

書いてある内容は少なくとも私よく分からないので、これが合ってるかどうか分かんないんですけれども、進め方としては、まず研究のテーマっていうのは自分でよく考えて、その人がちゃんと与えて。その上で、それをどう解けるのかっていうのを調べていったと。

◆厳格なルールの下での研究計画の立案と実行

その場合に厳格なルールとして、「人は一切ファイルを直接編集しちゃいけない」という縛りと、「計算結果もそのまま使わない」と。

ただ、Claude Codeを中心に使ったけれども、GeminiだとかGPTだとか、他のAIの結果はそのまま貼り付けて使うっていうのはできるようにしたのが今回になります。

まずですね、研究プランを作らせます。さっきの大きなテーマから、じゃあそれを実際どう実行するかという研究プランを作ります。

プロジェクト・オーバービューで、各テーマを実現するにあたっては「こんなことしなきゃいけない」っていうのをずらずらと書いて、タスクで言えば大きいのが16個ぐらいあって、それらを順番に実行する。

それぞれのタスクは、例えば「今ある結果を拡張します」とかそういうことが書いてあって、その研究計画を人もちゃんとチェックして作り上げた後に、各タスクを順番に実行をしていくと。

例えば「タスク1.1」っていうのがあったとしたら、そのタスク1を実行するにあたってこんな感じでずらっと、多分Claude Codeがほぼメインでやってると思うんですけども、論文のドラフトみたいなものを作ったと。

これに対して人が読んでチェックして、「ここが違うよ」っていうのを修正しながら、OKってなったらじゃあ次のタスクに進むっていうことをしていきました。

◆AIの著者資格と「第一著者」としてのClaude

この段階では「まだまだ結果がとんでもない間違いも多く含まれているのにびっくりした」って書いてあったんですけども、そういったところを修正して、一方で、人と比べて「とにかく粘り強く、夜も寝ることなく、そのタスクの実行をするように取り組む」っていうところは、「これはもう今までなかったことだね」と言っています。

結果としてこの論文ができて、arXiv(アーカイブ)に投稿して、これから査読でアクセプトされるかどうかという段階です。

この方のポジションとしては、大学院生に指導して論文を書く時もほぼ同じで、「自分が一切手を出さずに大学院生が全部考えて、手を動かして、ただ内容が違っていたら修正する」と。

書き上げた論文に関しては、もし間違いがあったりしたら自分が全責任を負うけれども、メインで書いた人はその大学院生です、という扱いを普通だったらする。

それと同じように、この論文についても「メインオーサーはClaude Codeで、自分はラストオーサーとしてこの論文の責任を取るけれども、実際書いたのはClaudeなのでメインオーサーになるべきだ」という風に考えていると。

ただ、今のarXivは人間じゃない人がオーサーになることを許していないので、今回は自分が名前を書いてるだけになっているということです。

◆AIが得意なこと・苦手なことと今後の展望

最後に得意分野と苦手なことが纏まっていますけれども、まず得意分野は「絶え間ない反復作業」とか「基礎知識を持っていてコードも書くのが上手」っていうのがあります。

苦手なことは、まず「誠実な検証機能がない」。これは私もよく経験してますけれども、本当は確認してないのに「ちゃんと確認しました。絶対間違いないです」って10回ぐらい言ってから普通に間違えてて、間違いを指摘すると、自分が間違ったと思わないで、「あなたが何か指摘したとこ間違ってましたね」みたいに責任転嫁をするみたいなことはあったりします。あとは「目的を見失いがち」といったところもあると思います。

とはいえ、全体としてはすごい短い時間で書けたし、本当は大学院生1人のエフォートが必要だったのがAIでできているので、そういったところでは、この理論物理の分野においては、そういう研究を一緒にできるようになっているのかなと思います。

PFNは新しい仲間を
募集しています

未掲載事例、プロダクト・ソリューション、研究開発についてお気軽にお問い合わせください