Preferred Networks

Vol.34 2035年までのAI計算資源の予測(3/3)

◆推論需要の予測

前回までは学習の話をしていたんですが、推論はどうなるのかという話をします。

推論需要が今どうなっているかというと、参考になるのがOpenRouterというサービスです。

OpenRouterは、いろんなLLMをAPIで提供しているプロバイダーを束ねて、ユーザーが何かコーディングの裏側で動かすものを使いたいときにOpenRouterに繋げると、OpenRouterが適切に一番安定していたり安いところに振ってくれる、といったハブとなっているサイトです。

そのOpenRouterがLLMがどれくらい使われているのかという情報を提供していて、それが参考になります。

2024年9月10日時点だと1日あたりのOpenRouterでの利用が350億トークンでした。それが2025年3月10日には1.3兆トークンになっています。半年で約9倍、1年間で約80倍のペースで伸びています。

この1日あたり1.3兆トークンというのがどれぐらいのオーダーかというと、例えばDeepSeekが先日公開したDeepSeek APIがどれぐらい使われているかという情報だと、1日0.68兆トークン使われているということでした。大体同じぐらいのオーダーなので、1日あたり1兆トークンくらいが使われているという感覚は大きく外れていないかなと思います。また、すごく伸びているということになります。

この1兆トークンぐらいをDeepSeekの場合だと約2000GPUで運用しています。ただ先ほどの学習は20万GPUとかだったので、それと比べると100分の1ぐらいの規模ってことですね。

OpenAIは多分もっと使われているし、何も情報を公開していないのでわからないんですけれど、週のアクティブユーザー数が4億人で、2か月で3割増していてGPUが足りないというような話をしています。

こうしたところで実際に推論の需要は今伸びています。

◆LLM推論の詳細

推論を細かく言うと、今のLLMの推論というのは大きくPrefillとGenerateに分かれます。

Prefillは、ユーザーが、例えば論文のPDFとかをアップロードして、それを数秒で読み込む部分がPrefillで、これは学習と同じように計算とメモリの両方がヘビーに使われるパラレルに処理をするようなタスクになっています。

Generateが実際の生成の方で、今の自己回帰モデルだと一個ずつ生成していくので、これがメモリ転送のボトルネックになりやすいタスクです。

この2つを分けて処理しているようなインフラも出てきています。どちらも需要が伸び続けると考えられていて、まずPrefillに関しては、今はまだPDF1枚とかですが、近い将来、会社のデータ全部入れようとか、動画あげようとか、そういう感じで増えると思います。

生成(Generate)も、推論スケーリング則とかリーズニングみたいな話で、例えば行動補助みたいなものを裏側でやったり、ディープリサーチも裏側で人間が見ていないところでたくさん生成していることになります。なので両方需要が伸びると思います

◆推論と学習の違い

一方、学習と違って推論の場合にはデータセンターに集約する必要がなくて、基本的には利用に近い場所が好まれる。これはレイテンシとか通信費とかもありますし、究極的にはオンプレミスや手元で計算する場合も増えると考えられます。

この推論が学習と比べてどれぐらいの計算需要があるかってわからないですが、ざっくり、例えばChatGPT Proが月額3万円で年額36万円。これが1000万人で3.6兆円なので、1億人が仕事で使いますみたいな感じになったら36兆円ぐらいになると。

計算費用がだいたい5割だとしたら18兆円ぐらいになります。一方で今のAWSの年間売上が15兆円くらいなので、それぐらいのポテンシャルが計算としてあるという感じです。

また、月あたり1.5万円の計算資源ってどれくらいかというと、大体1億人の利用の時には200万台のオーダーになります。

◆プログラム開発支援市場からみる推論需要

これはちょっとふわっとしている話なんですが、例えば、具体的な需要で既にサービスとして形になっているプログラマーをAIがサポートしている例です。

今のLLM需要の半分はソフトウェア開発支援になっています。1時間8ドルでプログラム開発作業をやって、コードを読んで書いてテストを行ったりセキュリティチェックしたりだとかいろんな形でやります。

これ1時間あたり8ドルぐらいの金額だったら、生産性が上がるので使いたいですね、というレベルにだんだん達してきています。

AIが全部の作業を変えるとかは不可視性ありますが、ソフトウェア開発支援の一つだけが立ち上がったとしても、その市場規模というのは数兆円から数十兆円ぐらいはあり得る。なぜなら世界のプログラマーは今大体2600万人いて、そのうち日本人は144万人です。

全ての人がもしこれをフルで1日8時間で25日/月使うと年間300万円ぐらいで、それで80兆円。全体のうち10%の人だけ使う、もしくは全ての人が10%だけ使うとなったら8兆円ぐらいの市場になります。

先ほどChatGPTの場合は36兆という市場の話をしましたが、それと同じぐらいの市場がソフトウェア開発支援だけで推論のところでも出てくると思います。

ということで、推論の方でもこれぐらいの需要がこれから出てくるという予想をしています。

PFNは新しい仲間を
募集しています

未掲載事例、プロダクト・ソリューション、研究開発についてお気軽にお問い合わせください