以前、OpenFOAMのPimpleFoamの小規模並列計算のベンチマークを取りました。CPUはRyzen 1950Xです。結果、300万Cellを超えると並列効率が横ばいになりました。詳しくはこちら。

https://science-life.xyz/openfoam-pimplefoam-benchmark-471

今回は、OpenFOAMのPimpleFoamの小規模並列計算(MAX8並列)のベンチマークについて検討してみました。備忘録がてらまとめています。何かの参考になれば幸いです。こんな方にオススメの記事です。家庭用PCで流体解析してみたい方 OpenFOAMについて少し知識のある方モ...

今回はメモリを追加し並列効率が改善するか調査しました。

変更点

PCケースを改造して、クーラー位置を見直しメモリを追加しました。詳しくはこちら。

趣味が本業、仕事が副業。

自作ワークステーションのメンテと水冷クーラーの位置変更

https://science-life.xyz/workstation-cooler-pccase-1960

我が家のワークステーション。導入から1年くらい経ちました。結構埃が目立ってきた＆年末ということで大掃除することに。掃除ついでに・並列効率があがるかもという期待を込めRAMの追加・バックアップ用のHDD追加・RAMと干渉している水冷クーラーの配置変更をやって...

これにより、メモリを16GB(8GB×2枚)⇒32GB(8GB×4枚)に増設しました。

ベンチマークモデル

セル数は294万Cellのみ検討。あとは前回と同様です。

ソルバー：PimpleFoam
乱流モデル：LES Smagorinsky
メッシャー：SnappyHexMesh
セル数: 294万
End time: 3秒
並列数：1,2,4,8

結果

計算時間を比較してみます。

並列数	計算時間(秒)
並列数	RAM：16GB	RAM：32GB
1	24372	22357
2	15110	14031
4	11783	8426
8	11302	7634

グラフにすると以下の通り。
16GBの場合は2並列以降で計算時間の短縮が緩やかになっていますが、32GBとすると、4並列以降も計算時間が短縮されています。それでは並列効率を見ていきます。

並列効率＝nCPUでの計算時間/1CPUでの計算時間

メモリ追加前後で比較します。左側がRAM16GB、右側が32GBの結果。

メモリ追加によって4並列以降の並列効率が改善しています。メモリを追加してよかった！

CPUの構成とメモリモード

Ryzen1950Xではその構成上、2つのメモリモードを使用することができます。メモリモードを知らなかったのでまずそこから勉強を兼ねて調べてみました。

※AMDのプレゼン資料がめちゃ参考になりました。あと、以下のサイト。

www.4gamer.net

Ryzen Threadripperレビュー前編。現時点で世界最高のマルチスレッド性能を引っさ...

https://www.4gamer.net/games/300/G030061/20170810001/

　2017年8月10日，ついに「RyzenThreadripper」が発売の日を迎えた。4Gamerではそれに合わせ，16C32T仕様の「1950X」と12C24T仕様の「1920X」を短時間ながらテストできたので，まずはゲームや一般アプリで実力を探ってみたい。結論から先に言うと，1950Xは，現時点で...

AMDのプレゼン資料を参照するとRyzen1950Xの中身は8コアが１まとまり(2チャンネル)になっており、それが2つ計4チャンネルで16コアの構成で、これをMulti Chip Module：MCMというらしい。

各チャンネルには4つのメモリ(4DMMS)が割り当てられており、4チャンネルで合計8枚のメモリを認識できます。

UMAモードは、4チャンネルのメモリコントローラを並列動作させることで広いメモリ帯域幅を実現するが、メモリアクセスのコストが大きく、レイテンシが大きくなるようです。

一方のNUMAモードは、アプリケーションをCPUに近いメモリへ割り当てるため、UMAと比べるとレイテンシの減少が望めます。しかし、4チャンネルの分散アクセスをしなくなるため、メモリ帯域幅はUMAに比べて小さくなってしまいます。

ここまで調べた限りでは、UMAよりNUMAの方がいいんでは？と感じます。調べてみるとUMAよりNUMAを推しているソースが多かったです。

さて、今回のベンチマークはどっちのメモリモードで行ったのか？

BIOSでメモリモードを調べたところ、デフォルト設定の”AUTO”になっていました。

Ryzen masterを確認したところ、AUTOとすると分散(UMA)になっていました。これは予想外。試しにローカル(NUMA)に変更して、8並列の計算を行ったところ。

計算時間は10876秒。

まさかの結果で遅くなりました。NUMAよりUMAの方が計算速度が速いことがわかりました。

UMAとNUMAの使い分けですが、

PC Watch

【レビュー】パワーユーザー待望の16コア/32スレッド環境を実現する「Ryzen Threa...

https://pc.watch.impress.co.jp/docs/topic/review/1075372.html

　8月10日、AMDはハイエンドCPU「Ryzen Threadripper」を発売した。今回、発売に先立って、16コア32スレッドの「Ryzen Threadripper 1950X」と、12コア24スレッドの「Ryzen Threadripper 1920X」をテストする機会が得られたので、AMDの最新鋭ハイエンドCPUの実力をベ...

によれば、

Distributedモードはメモリ帯域幅を必要とするクリエイター向けアプリケーションに適し、Localモードはゲームに適している

らしいです。つまりOpenFOAMは前者にあたるようです。シミュレーションはメモリ帯域がボトルネックになることが多いそうです。

クアッドチャンネルモード

参考

nandemo767.blog.fc2.com

クアッドチャネル？帯域？メモリの仕組みと選び方【まとめ】 - おすすめBTOパソコン

http://nandemo767.blog.fc2.com/blog-entry-143.html

パソコン初心者でも早わかり！かんたんメモリー講座クアッドチャネル,デュアルチャネル,帯域などメモリーについて解説した記事です。そもそもメモリーって何なの？メモリーが多いと良いと聞くけど何で？おすすめの容量は？そんな疑問をさくっと解決できるような記事...

Ryzen1950Xは4枚のメモリーカードを1枚として駆動させるモードがあるようで、これがクアッドチャンネルモードいい、メモリ帯域を4倍にすることができます。

本ワークステーションはDOMINATOR PLATINUM 8GB(DDR4-3000MHz)×4枚です。データ転送速度は24.0GB/sです。

つまり、現状ではクアッドチャンネルモードでは96GB/sになっているはずです(理論上)。2枚で運用していたの時は48GB/sでした。メモリモードは同じなので、このデータ転送速度が効いているのは間違いなさそうです。

しかしながら、Ryzen1950Xの対応するメモリはDDR4-2666(4ch)らしく、CPUのデータ転送速度は、クアッドチャンネルモードで85.332GB/sです。つまり、余剰分の約11GB/sは無駄になっているようです・・・。

失敗しました。次は適切なものを選びます。勉強になりました。

以上の検討から、メモリを追加したことで並列効率が改善した理由はクアッドチャンネルモードでメモリのデータ転送速度(メモリ帯域)が大きくなったことが理由でしょう。

まとめ

メモリを2枚⇒4枚にすると並列効率が改善した。
メモリモードはUMAでOKでメモリ帯域が重要。
これ以上メモリを追加しても変化しないはず。

以上