AI半導体

AIの計算処理に最適化した
独自設計のチップでAIの学習・
推論をより高速かつ高効率に

AIの開発や活用は現在、汎用GPUに大きく依存していますが、生成AIの急速な拡大により性能・コスト・消費電力・流通などがボトルネックとなっています。AIが社会実装され進化を続けるには、AIの計算処理に最適化された専用の半導体（チップ）の開発が不可欠です。PFNは創業間もない2016年からこの需要を見据え、AIの学習・推論を高速かつ高効率に処理するAI専用プロセッサー「MN-Core™」シリーズを神戸大学と共同で開発しています。MN-Coreシリーズは、汎用GPUと全く異なる設計思想にもとづき、AIに必要な計算処理に機能を限定することで、高い処理性能を発揮することができます。

お問い合わせ

生成AI推論向けプロセッサーMN-Core L1000

MN-Core Lシリーズの第1弾として開発中のMN-Core L1000は、生成AIの利用（推論処理）に特化したプロセッサーです。データを保存するメモリ（記憶装置）と演算器（ロジック）を従来のプロセッサーのように横に並べるのではなく垂直方向に積載する三次元積層構造にすることで、従来のハイエンドGPUに搭載されているHBM (high bandwidth memory)と比べてメモリ帯域幅（転送できるデータ量）を多く確保します。また、近年AIプロセッサーで利用が広がるSRAM（static random access memory）に比べて大容量かつ安価なDRAMを採用し、メモリの大容量化と高速化を安価に実現します。これにより、生成AI利用時（推論）の1秒あたりのトークン数を増やすことが可能になり、GPUなどの既存プロセッサーの最大10倍の高速処理を実現します。

製品サイトへ

AI学習・高性能計算（HPC）向けプロセッサーMN-Core 2（第2世代）

MN-Core第2世代となるMN-Core 2は、第一世代のMN-Coreの電力あたり性能を維持しつつ、チップサイズを1/5以下に小型化し、設置面積あたりの計算能力を向上させたことで量産コストの低下を実現しました。

	MN-Core 2	MN-Core 2（電力効率）
FP64	12 TFlops	37.24 GFlops/W
FP32	49 TFlops	148.9 GFLops/W
TF32	98 TFlops	297.9 GFlops/W
TF16	393 TFlops	1,192 GFlops/W

MN-Core 2搭載製品

MN-Server 2

MN-Core 2ボードを8枚搭載するラックマウント型5Uサーバー。

型番：MNS2V1
搭載AIアクセラレーター（数）：MN-Core 2（8基）
AIアクセラレーター総理論演算性能：TF16 3.1PF
標準販売価格：2000万円(税抜)

MN-Core 2 製品ハードウェアカタログ(PDF)

MN-Core 2 Devkit

MN-Core 2ボードを1枚搭載するデスクトップマシン。オフィス環境でも手軽に置くことが出来、MN-Core 2によるAIアクセラレーションを手軽に体感することが出来ます。

搭載AIアクセラレーター/数：MN-Core 2 / 1枚
AIアクセラレーター総理論演算性能：TF16 393TF

MN-Core 2 製品ハードウェアカタログ(PDF)

	商品概要	型番	標準販売価格
MN-Core 2 Devkit	MN-Core 2 Devkit 本体のみ	MNC2DV1	200万円(税抜)
MN-Core 2 Devkit 基本セット	MN-Core 2 Devkitに搬送、設置、初期セットアップ費用を込みとしたセット	MNC2DV1bk	250万円(税抜)

※MN-Core 2 Devkit 基本セットの設置場所は日本国内に限ります

AI学習・高性能計算（HPC）向けプロセッサーMN-Core（第１世代）

MN-Core第１世代は4ダイ1パッケージで構成されており、ダイにつき512個、計2048個の行列演算ブロックが集積されています。TSMC 12nmプロセスで製造されたMN-Core第１世代プロセッサーは、同一プロセスを採用する他のアクセラレーターに対して非常に高いピーク性能及び、電力当たり性能を実現します。

PFNではMN-Coreの第1世代プロセッサーを全体で160基使用し、それらを専用のインタコネクトを介して相互接続した計算基盤であるMN-3を2020年に構築し、運用しています。MN-3は世界のスーパコンピュータ電力効率ランキングであるGreen500において、2020年、2021年に世界1位を3回獲得し、その極めて高い省電力性能を実証しています。

消費電力 (W、予測値)	500
ピーク性能 (TFLOPS)	32.8 (倍精度) / 131 (単精度) / 524 (半精度)
電力性能 (TFLOPS / W、予測値)	0.066 (倍精度) / 0.26 (単精度) / 1.0 (半精度)

MN-Coreシリーズの
利用事例

高い省電力性と高いピーク性能を両立するMN-Coreシリーズを用いることで、様々な実際のAIワークロードにおいてGPUに対しての高速化を実証しています。

AIを用いた三次元モデル復元

PFN 3D Scanにおけるモデルの再構成処理を10倍程度高速化、数千のオブジェクトのスキャンに活用（MN-Core第1世代）

画像認識モデルの自動最適化

自律搬送ロボット「カチャカ」向け画像認識モデル探索において、精度と処理速度を両立するモデル候補を従来比約７倍の速度で発見（MN-Core第1世代）

AIベース材料探索の高速化

汎用原子レベルシミュレーターMatlantis™のコア技術であるPFP(Preferred Potential)にMN-Coreを活用し、新素材の物性シミュレーションを5倍以上高速化（MN-Core第1世代）

PFNのクラウドサービスPFCP™を通じたMN-Core 2（第2世代）の計算力をMatlantisで試験的に利用、低原子数領域の原子レベルシミュレーションにおいてGPUに対して高速化を確認

PFCPを使った低原子数のシミュレーション画面

GPUとの比較（縦軸がシミュレーションにかかった時間、横軸が原子数）

資料ダウンロード

MN-Coreシリーズ開発
ロードマップ

PFNはAIの計算資源としての半導体の需要増をいち早く予測し、2016年にAIプロセッサーMN-Coreシリーズ第1世代の開発を開始。現在では開発・製品化を進めています。

MN-Coreシリーズの設計思想

MN-Coreシリーズでは、通常はハードウェアに搭載される制御などの機能をソフトウェアが担うことで、ハードウェアの演算器面積を最大化しました。これにより、高い演算性能と電力効率を実現しています。

MN-Coreは極めて高密度にハードウェア実装された行列演算器（MAU: Matrix Arithmetic Unit）を持ちます。条件分岐のない完全なSIMD（single instruction, multiple data: 単一命令・複数データ）動作をするシンプルなアーキテクチャを採用することによって、半導体の面積に対して演算器の占める割合を最大化します。MAU（matrix arithmetic unit: 行列演算器）と4つのPEを合わせた行列演算器ブロック（MAB: Matrix Arithmetic Block）は階層的に配置され、階層間でスキャッター、ギャザー、放送、縮約といった複数のモードを持たせることで、柔軟なプログラミングを可能にしています。

既存のAIワークロードにに大きな改変を加えることなく、スリムかつパワフルに設計されたMN-Coreシリーズプロセッサーの性能を引き出すために、PFNではMN-Coreシリーズ向けコンパイラを独自に開発しています。 MN-Coreシリーズ向けコンパイラはPyTorchやJAXなどの高位言語で定義された計算グラフから最適な命令生成、データ配置、命令供給などを行います。計算グラフレベルの操作から、低レベル命令生成までを最適かつ効率的に行うために、MN-Core向けコンパイラは問題を抽象度に応じて分割し、コンポーネント単位でアルゴリズムの改善が可能な設計を行っています。

PFNは新しい仲間を
募集しています

採用情報

PFNは新しい仲間を
募集しています

採用情報

ソリューション・製品や研究開発について
お気軽にお問い合わせください

お問い合わせ

ソリューション・製品や研究開発について
お気軽にお問い合わせください

お問い合わせ

AI半導体

AIの計算処理に最適化した
独自設計のチップでAIの学習・
推論をより高速かつ高効率に

生成AI推論向けプロセッサーMN-Core L1000