Preferred Networks

Vol.13 世界最大規模の高品質データセットの構築とそれを用いた大規模言語モデルの開発

今回、GENIAC2サイクル目にPFNとPFEで共同提案したものが採択されました。

前回はPLaMo-100Bを成果としてリリースできましたけれども、今回のGENIAC2サイクル目では世界最大規模の高品質データセットを構築するというのと、それを使った大規模言語モデルを開発するというのが目標になっております。

◆ 「GENIAC 1サイクル目」の成果サマリ

GENIAC1サイクル目の時に行ったのは、何もないところからデータ構築をして、事前学習してして事後学習して、あと画像と音声のマルチモーダル対応も作りまして、「国際的競争力のあるLLMを日本でゼロから構築できるような技術基盤を確立した」というのが成果になります。

この技術成果をもとに、PFNとしてPLaMoのβ版のトライアル利用を開始し、今年中に商用リリース予定になっています。日本語処理性能は重視しており、Jasterと呼ばれる日本語性能ベンチマークでもGPT-4oなどを上回る性能となっております。

この成果を応用し1BパラメータモデルからなるPLaMo Liteという小さいモデルも高い性能を達成し、これがスマートフォン、車などで使っていただけるように、いろいろお話を進めております。

また、プリファードAIという名前のもとで、LLMを活用した5つの製品を順次提供できるように準備を進めています。

◆国家プロジェクト「GENIAC 2サイクル目」での活動内容

今回で一番大きい目玉は、まずデータを作ろうというお話です。GENIAC第一サイクルで改めて感じたのがデータが重要だということです。

私たちが今作って売っているマトランティスもデータで大きく差別化できていて、もちろん手法の差別化もありますけれども、なによりデータが継続的にどんどん良くなっています。同じような状況をLLM開発でも作っていきたいというのがあります。

LLMを活用して、データ生成もするし、大部分は既存のデータを変換する形でLLMが学習しやすいような、もしくはそのままでは学習できないようなデータを学習できるようなデータにします。こうしたことで世界最大規模の高品質なデータセット、100B(1000億)トークンのデータセットを構築します。

◆具体的なモデルと目標

この規模がどれくらいかというと、日本語の高品質なデータセットの代表格であるウィキペディアの50倍の規模です。特に日本語や各ドメイン特化の情報は(世の中に)なかなかデータセットがないので、そういったところでデータを作ります。

このデータを使った上で、作るモデルとしては大きいモデルじゃなくて、むしろ小さくしていきます。最終的に目標として作るのは30BのモデルでかつMoE(Mixture of Expert)で30B-8A、つまり使う時には8Bのパラメータしか使わないようなようなモデルです。

且つ、トランスフォーマーはコンテキスト長が長くなると必要なメモリ量、計算量が大きくなりますが、今回は状態空間モデルと呼ばれる、コンテキスト長が長くなったとしてもメモリを固定しか使わない、というようなモデルを大部分で使います。MoEや状態空間モデルはどちらも海外で徐々に使われ始めていますが、国内では両方を本格的に採用しているモデルはまだないと思います。

これによって、モデルサイズとしては小さくなっているにもかかわらず、日本語処理性能はPLaMo-100Bと比べてもさらに改善、10分の1以下の推論コストで提供できるものを目指していきます。また、推論コストが安くなるだけでなく、消費電力にも優れエッジ向けにも使えるというものになります。

グラフで表しますと、どれくらいデータの質が重要かということで、横軸にモデルパラメータ数が書いてあり、0から100Bまであります。基本的には学習のスケーリング則にのっとり、学習規模(=モデルパラメータ数 * 学習データ数)を大きくした方が性能が良いです。縦軸はJasterですが他のベンチマークでも大体同じような感じになっています。

一方で、データの質が変わるとそれだけで簡単にデータの投入計算規模の10倍ぐらいは改善されます。例えば、PLaMo-13Bという2023年10月にリリースしたモデルがありますが、そこから1年くらい経ったモデル、PLaMo-1Bはモデルサイズとしては10分の1ですが、PLaMo-13Bよりも圧倒的に優れた性能を達成します。データの質の違いでこれだけ大きな違いが出せるのです。

今回の目標は、更にここから、高品質なデータを構築し、事前学習、事後学習についてもやれることをやることで、性能を改善しつつ、小さいモデル30B-8Aでこれぐらい(グラフ黄丸)を目指すというのをやります。

今回の半年間の開発中でも積極的に新しい技術を取り入れて、世界的にも競争力のあるモデルを作りたいと思っています。

PFNは新しい仲間を
募集しています

未掲載事例、プロダクト・ソリューション、研究開発についてお気軽にお問い合わせください