2026.04.03

自律稼働デバイス向けの視覚言語モデル PLaMo-VLを公開

日本語VQA、Visual Groundingの両ベンチマークで同規模オープンモデルを上回る性能を達成した8Bモデルに加え、さらに小型で手軽に試せる２Bモデルも同時公開

株式会社Preferred Networks（本社：東京都千代田区、代表取締役社長：岡野原大輔、以下、PFN）は、GENIAC^*1第3期において、自律稼働デバイス向けに高精度かつ軽量なVision-Language Model（VLM、視覚言語モデル）PLaMo™ｰVLを開発し、本日PLaMo 2.1-8B-VLおよびPLaMo 2.1-2B-VLのモデルウェイト^*2および技術情報ブログを公開しました。これらのモデルは、PFNが開発する生成AI基盤モデルPLaMo 2.1-8BおよびPLaMo 2.1-2Bをもとに、画像理解能力を統合したマルチモーダル基盤モデルとして、ドローン、ロボット、監視カメラ、自動車などのエッジデバイス上での動作を想定して設計されています。なお、PLaMo 2.1-8B-VLは、日本語VQA、Visual Groundingの両ベンチマークで同規模の既存オープンモデルを上回る性能を達成しています。

近年、ドローン、ロボット、監視カメラ、自動車などの自律稼働デバイスにAIを搭載し、物理世界の状況を理解して判断・行動するPhysical AIの活用が急速に進んでいます。一方で、これまでのクラウド型AIは大量のセンサデータの送信による通信負荷やリアルタイム性の低下、クラウド送信に伴う機密情報のセキュリティリスクなどが指摘されてきました。PFNのPLaMo-VLは、これらの課題を解決するために、エッジデバイスの限られた計算資源でも高精度に動作することを目指して開発されています。

Physical AIの産業応用においては、AIが単に画像を認識するだけでなく、「何が起きているか」を正しく判断し、その根拠を人に説明できることが不可欠です。VQA（Visual Question Answering）は、画像に基づいて状況を言語で理解・判断する能力を担い、点検や作業判断などの意思決定を支えます。一方、Visual Groundingは、その判断が画像中のどの対象に基づくのかを位置情報として示し、結果の妥当性を検証可能にします。PLaMo-VLではこの2つの性能を強化することで「どこで何が起きているか」を明確に把握し、ロボットによる作業支援や設備点検、物流管理、交通監視といった安全性や運用信頼性が求められる産業現場での実用化を目指しています。

GENIAC第3期でPFNが実施した企業との実証実験では、工場における作業タスク分類および発電プラント設備の異常検出をPLaMo 2.1-8B-VLを利用して取り組みました。作業タスク分類では、作業者の姿勢や周辺環境だけでなく、使用している工具に着目し、Visual Groundingによって工具の位置と種類を特定した上で、VQAによって作業内容を推定することで、判別が難しい複雑な作業工程も高精度に理解することが可能となりました（図1）。

また、ドローン画像からの異常検出では、正常時と現在の画像を比較して、位置・画角のずれや照明変化による見かけの差分ではなく、異常に結びつく意味のある変化を抽出します。さらに、異常の位置を示すバウンディングボックスとその種類を示すラベルを生成し、現場での確認や対応に活用できる形で提示しました（図2）。

（図1）使用工具を手掛かりに、工場内の作業タスクをゼロショット^*3で認識
　正解：エアブロー　/　PLaMo 2.1-8B-VL推論結果：エアブロー
　実証実験データ収集協力：ファナック株式会社

（図2）正常時の参照画像（右）に対して、異常検出対象画像（左）ではタオルと工具を検出
　正解ラベル：タオル　/　PLaMo 2.1-8B-VL推論結果：タオル　
　正解ラベル：工具　/　PLaMo 2.1-8B-VL推論結果：工具
　実証実験データ収集協力：KDDI株式会社

いずれの実験においても、PLaMo 2.1-8B-VLはQwen3-VL-235B-A22B-Instructなどのオープンモデルを上回るベンチマーク評価が得られており、これらの技術により既知工程に対する作業漏れや手順逸脱の検出、設備点検や監視業務における見落としの低減等での活用が期待できます。

これらの成果が評価され、PFNはGENIAC第3期においてGENIACモデル賞を受賞しました。

PLaMo-VLの技術開発とベンチマーク評価の詳細はブログをご覧ください：

https://tech.preferred.jp/ja/blog/plamo21_8b_vl_part2/

PFNは今後、PLaMoｰVLの実用化に向け、産業現場の特定用途を対象とした実証実験を行いながら現場データの追加学習によって性能を高め、実運用環境で得られたフィードバックをモデル開発に反映していきます。それにより、さらに実用性の高いモデルを開発し、産業現場でのPhysical AIの実用化を目指します。

*1：経済産業省および国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が推進する生成AI基盤モデル開発プロジェクト「GENIAC（Generative AI Accelerator Challenge）」の第3期（2025年8月～2026年2月）で開発

*2：モデルがデータを学習し、予測を行う際に使用されるパラメータ

*3：評価対象現場のデータを学習に用いず、対象現場への追加学習も行わない設定を指す

●国産生成AI基盤モデルPLaMo™について　https://plamo.preferredai.jp/

PLaMo（プラモ）は、PFNがフルスクラッチで開発する国産生成AI基盤モデルです。Reasoningモデルに進化した商用版フラッグシップモデルPLaMo Prime、自動車や製造設備などのエッジデバイス向けに軽量化された小規模言語モデルPLaMo Lite、日本の金融知識を追加学習した金融特化型PLaMo、日本語の翻訳に特化したPLaMo翻訳など、用途に合わせて提供しています。PLaMo Primeはクラウド型API、Amazon Bedrock Marketplace、オンプレミスなどの提供形態に加え、Snowflakeでの提供が開始されました。国産AI構築プラットフォームmiibo、法人向け生成AIサービスTachyon 生成AI、700以上の自治体が導入するQommonsAIなどのサービスに標準搭載されています。

自律稼働デバイス向けの視覚言語モデル PLaMo-VLを公開

PFNは新しい仲間を
募集しています

PFNは新しい仲間を
募集しています

未掲載事例、プロダクト・ソリューション、研究開発についてお気軽にお問い合わせください

未掲載事例、プロダクト・ソリューション、研究開発についてお気軽にお問い合わせください

PFNは新しい仲間を募集しています

PFNは新しい仲間を募集しています

PFNは新しい仲間を
募集しています

PFNは新しい仲間を
募集しています