はてなキーワード: PCIEとは
NVIDIAと、インテル・IBMはどうして差がついたのか、疑問に思う。
AIはニューラルネットワークを模倣していると言われ、ニューロモーフィックというチップを、IBMは作り、その後、メンバーが移籍してインテルも作った。
現在、ニューラルネットワークとは違うものになったが、勝っているのはNVIDIAになっている。
先日、1.58bitのBitNetが話題になったが、LLMではないが昔BinaryConnectで0.68bitまで下げる案を出したのもIBMのメンバーだ。
ハッカーニュースでBitNetについてIBMだった人がコメントしている。IBMはそれなりに早かったはずだ。
https://news.ycombinator.com/item?id=39544500
普通のGPUの会社だと、ゲーム用のGPUボードだけを作っていたと思うが、NVIDIAは色々と手を出している。
データ プロセシング ユニット (DPU)、InfiniBand、NVIDIA MetroXなど、
HPC向けで、インテルやAMD、IBMの方が得意だろうという分野まで手を出した。
RTX 4090はゲームするにはバカ高いがAI向けには性能不足で、単価が高いAI向けボードを売るという差別化も出来ている。
ファブレス企業だから、というだけでは説明不足で、TSMCにNVIDIA向けのカスタムプロセスを作らせることが出来ている点が差別化要因の1つだろう。
TSMCから出てくるデザインルールの通りにしか作らないと、どこの会社も似たりよったり性能になってしまう。
物理限界を他社(TSMC)に投げてしまうというのも、経営としては効いているのだろう。
そして物理限界のチップサイズを攻める。電力も物理限界を攻める。
日本の会社だと、電力のバカ食いで怒られるが、そこも攻めている。
インテルはGPUカードに参入したが、AI向けだけに限定した方が良かったのではないだろうか。
中国GPUメーカーがコケているのに対して、動いているだけでも流石インテルなのだが、競争力のあるGPUとは言えず、参入した意味とは?になってしまっている。
量産ではない先端プロセスは持っているし、特殊なチップも作れている。
CPUについてはPower関係の資産もあり、AI向けもユニークなのが作れているのに、ぱっとしなくなった。
RISC-Vが上手くいくのであれば、OpenPowerも上手くいくと思うのだが、そういう話も聞かない。
そもそも米中関係で、オープンソースのCPU/GPUが禁輸されそうな感じもしている。
結局、量子コンピュータについてもまだまだ先になりそうな雰囲気だ。
数年前は、TSP(Tensor Streaming Processor)と呼んでいたが、LPU(language processing unit)と名前を変えた?
数年前のチップをそのまま使い続けているか分からないが、同じならアーキテクチャは4年前のユーチューブを見るか、アスキーあたりの記事にある。
https://youtu.be/UNG70W8mKbA?si=9VFeopAiPAdn08i_
要は、コインパイラで変換が必要。なので提供されているLLMモデルが限られている。
PCIeボードが400万くらいらしいが、SRAMの容量が小さすぎて1ボードでは動かない。
DRAMのレイテンシがSRAMではないので早いのだ、という意見も見られてたが、
1チップのSRAM容量が小さすぎるので、チップチップ間、ボードボード間の通信レイテンシは必ずあるはず。
(数ヶ月前から性能上がっているのは、このあたりのチューニングのはず)
DRAMのレイテンシというが、これも今どきはレイテンシ気にしないように隠蔽するはず。
チームが小さすぎてハード作れなかった可能性もあるが・・・。DMACでチューニングしているか?
ボードにでかいDRAMが載せられるのであれば、そちらの方がボードボード間の通信時間より減るのでは?
GF使ったのは、おそらくAMD設計者が居たからでは。デザインルールどこ破れば性能でるかある程度わかってたとか。1GHzくらいなのは知見なしでやってるとそれくらいで上限くるのはそうだと思う。
チップの世代を更新するかはわからないが、兎にも角にも電力下げて、チップ大量に載せて、チップチップ間の通信時間を下げられるか。
そのマザボなら一般的なPCIe M.2を挿せるから空いてるならM.2で良さそうだな
ただPCIeのバージョンとレーン数が低い(PCIe2.0のx2レーン)んで、最新のPCIe4.0対応の高いM.2を買ってもフル性能は発揮できん(低い方に性能上限が合わされる)ということだけ注意
だいぶ前に買ったBTOのPCを少しずつ部品更新してる自作初心者だけど、このまえマザーを交換したときに前と同じ形でいいやと思ってATXのマザーボードにしたんだけど、拡張なんてグラボぐらいしかないからもっとコンパクトなボードにすればよかった。
こうなったら何かしら拡張をしてやろうという気持ちなので何かあったら教えてほしい。
スペックは12Gcorei5、メモリ16、グラボ2070SPぐらいだけど足りないなら足りないで考えてみるから、こんなのもあるよくらいでいい。
ポートはPCIe?の8とかが何個か開いてるけど、この辺もこの際勉強したいから適当に投げていただいて付けられるかどうか考えます。予算も同じ。
今のところの使用用途はブラウジング、WordとExcel、まれにちょっとだけ映像編集(雑に字幕つけるぐらい)、ゲーム(重いのはあんまりやらない、最近遊んだので重そうなのは隻狼とか?)程度。
しょーもないのでも何でもいいので、教えて!
StableDiffusion系はbf18,fp16,8-bit adamなどで8GB程度でも動くようになったが、追加学習をしようとすると足りない。
日々HuggingFaceに投稿される言語系AIや音声、言語と画像・動画を組み合わせといったのになると、24GBでは足りない。
80GBで足りないのも出てきている。、
GPUは8枚まで並列に出来るので、80GBx8枚=320GBといったのになっている。
結局チューニングしないとそれほど役に立たず、お高めのパソコンで個々人でチューニング出来るとありがたいのだ。
CXL(Compute Express Link)というメモリ拡張用のバス規格が数年前にでき、製品も出始めている。
今までだとCPUからGPU側のメモリにコピーだったのが、アクセラレータから参照も出来るようになるらしいのだが、今の所サーバー向けらしい。
まぁ手段はなんでもいいんだが、VRAMの容量が増えればいい。
個人的にInstinct MI300に注目しているのは、今後のコンピュータ構成はこうなるだろうな、というのを実現していることだ。
Ryzen Threadripperだとコア数が多いもののハード的なボトルネックがそこかしこにあるので使いにくいわけだが、
Instinct MI300は良さそうに見える。
現状のPCIeだと帯域が遅く、CPU側のDRAMから、GPUのVRAMにコピーするのはそれなりに時間がかかる。
ゲームだと局所性のあるデータを繰り返し使うのでキャッシュで逃れられるし、シーンの切り替えなどでデータ転送するといったことが出来る。
だがAI向けになるとVRAM容量以上(80GBとか)のデータに全てアクセスするので、メモリ転送レイテンシを隠蔽するだけのバッファとしての効果しか意味がなく、メモリ帯域が効いてくる。
Instinct MI300にHBM3が使われていて帯域は広い。レイテンシは大きいと思われるので、そこは気になるが。