Preferred Networks

Vol.52 番外編 なぜPLaMo翻訳は自然なのか?

LLMベースの新しい翻訳「PLaMo翻訳」について、その特徴と従来のものとの違いを解説します。

◆文脈を理解する「自然な翻訳」の具体例

先日、PLaMo 2のテクニカルレポートを出したので、これを使ってPLaMo翻訳で翻訳してみます。

そうすると、こうなると。

特徴としては、既存の翻訳と比べると、例えば元の "Access Paper" が「論文へのアクセス」のように、自然な文章になっている点が1つ挙げられます。全体として自然に読みやすくするというのが、今回のモデルの面白いところです。

他の例では、東京の文脈で「三田」とあれば「みた」と翻訳され、大阪の文脈で「三田」とあれば「さんだ」と正しく訳されます。これは、他の翻訳では失敗するケースで、知識から文脈を理解できているからできる、というのがあるかと思います。

他にも、コードを翻訳する際、これまでのモデルだとインデントが壊れたり、if や else といった予約語まで翻訳されてしまったりしましたが、これに対してPLaMo翻訳は、LLMが情報が残るように考えてくれるので、コメントだけを翻訳し、文字列の中は下手にいじらず、コードが動く形のまま翻訳することができます。

◆LLMベース翻訳の優位性と課題

PLaMo翻訳モデルの特徴は、LLMベースの翻訳モデルになっている点です。

現時点で最も使用されているような、従来型の翻訳サービスはLLMベースではなく、主に翻訳のペアデータを学習しています。

それに対してLLMベースのモデルは、大量のWebデータを学習していて、単文だけでなく、より長文に対応できるのが特徴です。その結果、従来の直訳調になりがちだったところが、柔軟な意訳ができるようになり、長い範囲を見れるため表記揺れも起きにくくなっています。

翻訳モデルの進化では、一貫して改善されていることと難しくなっていることがあります。極端な話でいうと辞書を使った翻訳はある意味での誤りは100%起きませんでしたが、進化するにつれ翻訳の制御が難しくなり予期しない誤訳も増えました。

一方で、一貫して改善されている側面は「自然さ」です。特にLLMは翻訳とは無関係にたくさんの長文を学んでいるため、「長い文章とはどういうものか」を理解し、それに沿った形でこれまで以上に自然に翻訳できるようになっています。

以前、学会で発表した論文では、LLMの翻訳精度の上げ方にフォーカスしました。実験結果としては、ベースモデルより性能は上がっており、gpt-4oに迫るメトリックもありました。

実感としてはもっと上がっている感じはありますが、今のメトリックでは「自然さ」を評価するのが難しかったり、テキストデータ自体が短い文章が多かったりする点が評価しづらいというのはありました。特にPLaMo翻訳モデルは意訳もするので、評価が下がりやすい面もありますが、今後さらに改善していきたいと思っています。

◆PLaMoを翻訳基盤モデルとして採用した理由

LLMが翻訳に良い点をもう少し話すと、従来のモデルが短文でアラインされた並列コーパスを使うのに対し、LLMは長文を含むWebコーパスを主に学習します。その結果、自然な文章を書ける一方で、事前学習に大きなコストがかかるという困り事もあります。

しかし、面白いメリットとして、翻訳のための追加学習(ファインチューニング)はかなり小規模で済みます。例えば「英単語の前後に日本語があって、間にスペースを入れたい/入れたくない」といった細かい文体制御をしたい場合に、必要なデータが少なくて済むという利点があります。

また、翻訳基盤モデルとしてなぜPLaMoを使っているのか、という点ですが、例えば翻訳特化モデルを8B(80億パラメータ)サイズで作りたいと思った時、Llamaのようなモデルだと日本語データは数%以下しか含まれていないため、8Bサイズでは日本語の知識がかなり薄くなってしまいます。

それに対してPLaMoは、ざっくり半分ぐらいが日本語の知識だと考えてもらえるので、8Bサイズでも十分な日本語知識が残ります。そのため、英和・和英翻訳に関してはPLaMoが有利であり、翻訳モデルを作る上では日本語に強いモデルが大事になってくるかと思います。

◆PLaMo翻訳の現在地とこれから

このPLaMo翻訳ですが、2025年5月のトライアル提供から非常に多くの方に使って頂けており、今の利用者さんの声を眺めてみると、我々がSNSなどで拡散していることもあり、割と機械学習関連の方々が主に使っているフェーズかなと思います。

エンジニアや研究者の方々も気づいて使い始めてくれていて、用途としては、論文の翻訳や、面白いところではGitHubのIssueの翻訳などに使っている方もいらっしゃるようです。

今後はもっと色々な方にPLaMo翻訳を知ってもらって「お、いいね」と感じてもらいたいです。そして、実際に日々の英語を読むシーンで当たり前に使ってもらえるように、どうやって皆さんに届けられるか、頑張っていきたいと思っています。

PFNは新しい仲間を
募集しています

未掲載事例、プロダクト・ソリューション、研究開発についてお気軽にお問い合わせください