発表資料

Report
エクサスケール計算と
その要素技術としてのメモリアーキテクチャ
東京大学 情報理工学系研究科 石井康雄
本日の発表内容

2018年のスーパーコンピュータ


アプリケーションとアーキテクチャ


メモリ性能と演算性能のバランスに関して
要素技術としてのメモリアーキテクチャ

2
予測性能とアーキテクチャを紹介
DRAMの制御に関する研究
2012/03/16
エクサスケール計算に向けて
アーキテクチャ検討
2011/10からのアップデート
3
2012/03/16
エクサマシンの検討の前提(2011/10)

稼働時期: 2018年ごろ

目標: Linpackで1EFLOPS


「京」の100倍の実効性能を目指す
Linpackは定量的議論の土台として活用

電力: 20MW~30MW

総床面積: 50m x 50m (ラックで1000本)

価格: ~500億円
4
2012/03/16
エクサマシンの検討の前提(2012/03)

稼働時期: 2018年ごろ

目標: サイエンスロードマップの達成


2020年のロードマップから達成すべき目標を定義
おおよそ「京」の100倍の実効性能を目指す

電力: 20MW~30MW

総床面積: 50m x 50m (ラックで1000本)

価格: ~500億円
5
2012/03/16
2018年のPCクラスタ性能予想(2011/10)
電力20MWでの最大構成例
プロセッサ性能
 システム性能



演算: 3.0 TFLOPS
メモリ: 96 GB, 300 GB/s




B/F = 0.01

電力: 200W
価格: 25万円

プロセッサ+メモリ / ノード
(1プロセッサ, 150W)
6


ネットワーク: 25 GB/s


B/F = 0.1

8プロセッサ+ネットワーク / カード
(8プロセッサ, 1.5KW)
演算: 300 PFLOPS (10万CPU)
メモリ: 9.6 PB, 30.0 PB/s
Bisection BW: 5.0 PB/s
ラック数: 400
電力: 20MW (1EFで80MW)
価格: 250億円 (1EFで1000億円)
8カード/シャーシ, 4シャーシ/ラック
(256プロセッサ, 50KW)
400ラック / システム
(10万プロセッサ, 20MW)
2012/03/16
2018年のPCクラスタ性能予想(2012/03)
電力20MWでの最大構成例
プロセッサ性能
 システム性能



演算: 3.0 TFLOPS
メモリ: 96300 GB, 300 GB/s




B/F = 0.01

電力: 200W
価格: 25万円

プロセッサ+メモリ / ノード
(1プロセッサ, 150W)
7


ネットワーク: 2532 GB/s


B/F = 0.1

8プロセッサ+ネットワーク / カード
(8プロセッサ, 1.5KW)
演算: 300 PFLOPS (10万CPU)
メモリ: 9.630.0 PB, 30.0 PB/s
Bisection BW: 5.02.0 PB/s
ラック数: 400
電力: 20MW (1EFで80MW)
価格: 250億円 (1EFで1000億円)
8カード/シャーシ, 4シャーシ/ラック
(256プロセッサ, 50KW)
400ラック / システム
(10万プロセッサ, 20MW)
2012/03/16
エクサスケール計算に向けて
アプリケーションとアーキテクチャ
メモリと演算のバランスの観点から
8
2012/03/16
メモリシステムとスーパーコンピュータ
メモリシステムは主要課題の1つ
 多様なメモリシステムが存在する



大容量・高帯域、小容量・低帯域
メモリ性能と演算性能・電力・コストがトレードオフ
NEC SX-9
9
Fujitsu FX10
GRAPE-DR
2012/03/16
アプリケーションとメモリシステム
SX-9
高
メモリ帯域
気象・地震
FX10
x86
第一原理計算
GDR
N体問題
低
小

メモリ容量
大
メモリシステムはアプリにあわせて設計される


10
アプリケーションが多様な特性を持つ
容量・帯域・アクセスパターン(連続・ストライド)
2012/03/16
エクサの検討でのシステムの分類

メモリのバランス別に4つのシステムを検討
容量・帯域重視
汎用型
演算重視 メモリ容量削減
演算器・コア
キャッシュ
メモリI/F
メモリ容量・帯域 バランスをとって メモリを減らして
演算器を増やす
を増やしメモリ重 多目的に利用
視アプリを高速化
NEC SX-9
11
PCクラスタ・京・
BG/Q など
GRAPE-DR
ClearSpeed
オンチップメモリ
(約100MB/chip)を
主記憶に利用
DRAM
該当計算機なし
2012/03/16
システム性能予測(演算・メモリに関して)
演算性能
(PFlops)
メモリ帯域
(PB/sec)
汎用型
容量・帯域
演算重視
200~400
50~100
1000~2000
20~40
50~100
5~10
容量削減
京(参考)
500~1000
10
250~500
5

メモリ容量
(PB)
20~40 B/F = 0.1
50~100 B/F = 1.0
5~10 B/F = 0.005
0.1~0.2 B/F = 0.5
1.2 B/F = 0.5
各構成でのシステム性能を予測

12
20MW・2500m2の制約下での予測
2012/03/16
アプリケーションの要求性能との相関
10,000倍の差
1.0E+1
容量・帯域
要求メモリ帯域(B/F)
容量削減
1.0E+0
汎用型
1.0E-1
1.0E-2
1.0E-3
演算重視
1,000倍の差
1.0E-4
1.0E-3
1.0E-2
1.0E-1
1.0E+0
1.0E+1
1.0E+2
1.0E+3
要求メモリ容量(PB)

各アプリケーション毎に向いている計算機が
存在していることがわかる
13
2012/03/16
何故、バランスが変化したか

Weak Scaling(より細かいメッシュでの計算)


メモリ容量: 増加する
1ステップあたりの計算時間: 変わらない


Nノードで計算する場合、各ノードのメモリ帯域は同じ
Strong Scaling (より長い時間の計算)


メモリ容量: 変化なし
1ステップあたりの計算時間: 短縮する

14
各計算ノードは同じデータ量を短時間で読み書き
2012/03/16
Strong Scalingのボトルネックと対策

メモリ帯域 ← 本日紹介の例


集合演算(集約演算・同期など)


専用HWで10倍以上の高速化の可能性
通信レイテンシ



巨大なオンチップメモリの採用
強スケールのために<1usの通信が必要なアプリ
通信方式の工夫で1/10までは短縮可能
改善可能な点が多く、研究開発が必要
15
2012/03/16
エクサスケール計算に関してまとめ

2018年の計算機構成を検討



アプリ毎のメモリ帯域・メモリ容量に関して調査
調査結果に基づいて4つのアーキテクチャを検討
各アーキテクチャとアプリをマッピング

従来と異なる特性を示すアプリ


「やりたい計算」が具体的ならば計算機は工夫が
出来る可能性が高まる

16
スケーリングから最適な構成が変化することもある
2012年度には要素技術研究の予算がつく見込み
2012/03/16
エクサに向けたアーキテクチャ研究
メモリシステム
17
2012/03/16
将来のスパコンに向けたメモリシステムの課題

課題



性能: 演算性能に対するメモリ帯域の低下
電力: DRAM/キャッシュの電力が全体の約30%
解決方法 ← 私の研究課題



18
データプリフェッチによるレイテンシ隠蔽
キャッシュ置換の改善による効率化
DRAM制御の改善による性能向上と電力削減
2012/03/16
Dynamic Random Access Memory

スパコンの主記憶はDRAMで構成される

性能・電力・スケーラビリティの多くに関与

特徴


19
Data
Addr
プロセッサ
DRAM
#0 Data 0
#1
Data 1
#2
Data 2
#3
Data 3
#4
Data 4
#5
Data 5
#6
Data 6
#7
Data 7
単純な機能(指定した場所のデータの読み書き)
高速化のための複雑な制御
2012/03/16
DDR3メモリのアーキテクチャ

メモリの記憶素子は行列の構造をとる


行アクセスと列アクセスの2段階アクセス
行・列のペア(Bank)を持ち独立に動作する
DRAM cells
Row buffer
プロセッサはRow
bufferのデータにの
みアクセス可能
Addr
プロセッサ
Data
Bank #0
DRAM chip
20
2012/03/16
DDR3のメモリアクセス(Read)の例

3フェーズでのリード処理



Activate(ACT) → Read(RD) → Precharge(PRE)
複数バンクを切り替えながらメモリアクセス
ACT/RD/PREの各操作が電力を消費

コマンドの回数を減らすことで電力削減が可能
ACT→RD
アドレス
ACT ACT ACT
RD→PRE
RD
コマンド競合で次のコマンドが遅延
PRE→ACT
RD PRE
RD ACT PRE
隙間が残る
RD→DATA
データ
DATA
21
RD ACT PRE
DATA
DATA
DATA
2012/03/16
DRAM-Aware Prefetching

3フェーズでのリード処理


ACT→RDの後に積極的にプリフェッチを出力
効果



データパスの利用率改善による性能向上
ACT/PREの回数削減による電力改善
データプリフェッチによる性能改善
すぐにPREしない
アドレス
ACT ACT ACT
データ
RD
プリフェッチを出力
RD PRE
DATA
22
RD PRE
DATA
RD ACT PRE
DATA
RD
DATA
2012/03/16
メモリスケジューリングの効果
帯域の改善などで性能が13%向上
 電力は3.1%の削減



1.2
データ転送が増加したためRD/WRが25%増加
ACT/PREの回数は28%削減
Performance
1.2
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
Baseline
23
Proposed
Background
Baseline
RD/WR
ACT/PRE
Proposed
2012/03/16
要素技術研究の成果

特に性能競争の激しい分野


テーマ




JILP Computer Architecture Competitions (JWAC)
メモリ(キャッシュ置換・プリフェッチ)
パイプライン制御(分岐予測)
DRAM制御 ← 今年開催予定
過去優勝者


24
Andre Seznec (Alpha architect)
Gao Honliang (Intel x86 architect)
2012/03/16
まとめ

エクサスケールシステムの検討


ターゲットアプリケーションの解析



2011年10月から継続検討
検討のベースとする4つのアーキテクチャを提示
スケーリングと最適アーキテクチャの変化
要素技術としてメモリアーキテクチャの研究

25
低下するB/Fの性能への影響をDRAM制御の改善
で最小限に抑える
2012/03/16
ご清聴ありがとうございました

明日、ポスター発表も行います

本発表はメモリにフォーカスしていますが、
ネットワーク・ストレージの話もWelcomeです
26
2012/03/16

similar documents