単体の演算器の性能なんてクロック周波数が速くなっている現代だと数クロックの差なんてわからないだろう。
メモリーは社外の汎用品GDDRを使う以上、帯域やレイテンシは変わらない。
違いが出てくるとすると、どうやってメモリ間を隠蔽しているかというのが想像出来る。
データ待っている期間を出来るだけ少なくする、といった感じだ。
演算器を並列に多数動かすと配線抵抗などで電源がドロップする。
電源配線のノウハウをNVIDIAが持っていて一日の長がある
チューニングで性能上がっているのなら何処がボトルネックになりそうな所をあげているのか。
PyTorchだけで見ると、コード量は少ないので、移植しようと思えば出来るように見える。
Permalink | 記事への反応(1) | 10:13
ツイートシェア
フツーに3でしょ。Cuda かけるやつはPythonなんてすぐできるだろうけど、逆はない。