はてなキーワード: PCIeとは
AIが盛り上がって数年経つが、個人が買えるような価格帯で、良いAI向けのハードが出てこない。
RTX 3090のVRAM24GBを大事に使っているが、そもそもVRAMに入らないモデルの方が多い。
複数のAIを立ち上げるなんてのは、VRAM容量が溢れるので、そもそも動かせない。
動けばNVIDIAの Nsight Systemsなどで遅い所などを探せるが、そこまでいかない。
複数のSSDを仮想メモリにするというのも、RTX 3090のNVLink BridgeでVRAMだけ拡張するなんてのも世の中に出てこない。
Appleもそろそろ出してくるかと思っていたが、M4は普通の順当進化だった。
M2 Ultraはチップtoチップを接続し2.5TB/sを謳ったが、同じチップを繋げたのでいらない機能が倍になっただけだった。
M4 Ultraで、片側のチップをGPU or NPU+帯域の広いGDDR or HBMになればいいが、あまり期待が出来ない。
GPU or NPUのコアが増えたとしても、L2/L3キャッシュの容量が少なすぎる、増やしても距離が遠ければ性能も出ないので、
AppleもAMDのように3D V-CacheでSRAMを積み、Hybrid Bondingで上下の帯域を確保してくれないだろうか
IBMはTelum IIとSpyreを出してきたがエンタープライズ向けなのでパス
Groq社がLLM用LPU、HyperAccel社がLLM用ASICを出して来たが、
Groqは1枚のPCIeカードでは全くメモリ容量が足りず役に立たなそうで、HyperAccelはサーバー前提でこちらも個人から手が出しにくい。
FPGA+HBMが載ったPCIeカードは個人向けには販売できるような価格でもなければ、そもそも販売すらされない。
ジム・ケラー率いるTenstorrentも1枚のPCIeだとメモリが足りないし、Ethernetでなんとかやりくりしようとしているが帯域に引っ張られそうに見える。
NextSilicon社がMaverick-2というIntelligent Compute Accelerator (ICA)というのも出してきたが、HPC向けで個人利用からは遠い。
中国も良いのが出てきていない。
Biren、Fuzhou Rockchip、VeriSilicon、Moore Threads、LinJoWing、Loongson、JingJia Micro、Cambricon、Vastai Technologies、Xiangdixian Computing、Enflame Technology、MetaX、Zhaoxin、Lingjiu Microelectronics、
DengLin Technology、Iluvatar CoreX、Innosilicon、Horizon Robotics、Black Sesame Technologies
Sランク:Proliant DL20 Gen9
Aランク:PowerEdge R320、PowerEdge R210 II
Cランク:FUJITSU PRIMERGY TX1320 M2
■Sランク:Proliant DL20 Gen9
小さい、安い、ウェブブラウザからBIOS画面の操作ができる。
PCIE接続のRAIDカードがついていない場合はオンボードのRAIDコントローラーで動作し、その場合、RedHat系のOSのインストールがちょっと大変。
最新のOSであるAlmaLinux9、Ubuntu24などもインストールできる。
安い。
自分が買ったときはヤフオクで3000円だった。外付けHDDケース買うより安い。
仮想基盤用のラックサーバーが欲しいとき、4コア8スレッドでは心もとないが、このマシンなら8コア16スレッドできる。
R320に適合する8コア16スレッドCPUは1500円で買えてしまう。
ウェブブラウザからBIOS画面を操作する機能もあった気がする。(うろ覚え)
小さい、安い。
Sandy Bridge世代のCPUを使うので余り物でよい。
自宅サーバーとして使うには厳しい。
体積こそR320と同じだが、CPUを二つ載せられたりちょっと豪華。
でも要らない。値段も高い。
これを買うなら小さいのを二つ買ったほうがいい。
■Cランク:FUJITSU PRIMERGY TX1320 M2
何万円もするライセンス料を払わないとウェブブラウザからBIOS画面を操作する機能を使えない。
OSのインストールは頑張る必要が時々ある。Proxmoxはインストールできなかった。
開閉がとても面倒。官公庁が大量に買ってくれるから、といい加減な気持ちで作っているのではないかと疑ってしまう。
グラボを載せられるのが利点。
■番外編
・Jamper EZbook X3 CeleronN3450
サーバーとして使っていたところバッテリーが膨張して変形した。
今は内蔵バッテリーを外して使っているが悪くない。
とても小さく、超低消費電力だ。
スリムタイプPCなのに3.5インチHDDが2つつけられる。グラボも付けられる。
NVIDIAと、インテル・IBMはどうして差がついたのか、疑問に思う。
AIはニューラルネットワークを模倣していると言われ、ニューロモーフィックというチップを、IBMは作り、その後、メンバーが移籍してインテルも作った。
現在、ニューラルネットワークとは違うものになったが、勝っているのはNVIDIAになっている。
先日、1.58bitのBitNetが話題になったが、LLMではないが昔BinaryConnectで0.68bitまで下げる案を出したのもIBMのメンバーだ。
ハッカーニュースでBitNetについてIBMだった人がコメントしている。IBMはそれなりに早かったはずだ。
https://news.ycombinator.com/item?id=39544500
普通のGPUの会社だと、ゲーム用のGPUボードだけを作っていたと思うが、NVIDIAは色々と手を出している。
データ プロセシング ユニット (DPU)、InfiniBand、NVIDIA MetroXなど、
HPC向けで、インテルやAMD、IBMの方が得意だろうという分野まで手を出した。
RTX 4090はゲームするにはバカ高いがAI向けには性能不足で、単価が高いAI向けボードを売るという差別化も出来ている。
ファブレス企業だから、というだけでは説明不足で、TSMCにNVIDIA向けのカスタムプロセスを作らせることが出来ている点が差別化要因の1つだろう。
TSMCから出てくるデザインルールの通りにしか作らないと、どこの会社も似たりよったり性能になってしまう。
物理限界を他社(TSMC)に投げてしまうというのも、経営としては効いているのだろう。
そして物理限界のチップサイズを攻める。電力も物理限界を攻める。
日本の会社だと、電力のバカ食いで怒られるが、そこも攻めている。
インテルはGPUカードに参入したが、AI向けだけに限定した方が良かったのではないだろうか。
中国GPUメーカーがコケているのに対して、動いているだけでも流石インテルなのだが、競争力のあるGPUとは言えず、参入した意味とは?になってしまっている。
量産ではない先端プロセスは持っているし、特殊なチップも作れている。
CPUについてはPower関係の資産もあり、AI向けもユニークなのが作れているのに、ぱっとしなくなった。
RISC-Vが上手くいくのであれば、OpenPowerも上手くいくと思うのだが、そういう話も聞かない。
そもそも米中関係で、オープンソースのCPU/GPUが禁輸されそうな感じもしている。
結局、量子コンピュータについてもまだまだ先になりそうな雰囲気だ。
数年前は、TSP(Tensor Streaming Processor)と呼んでいたが、LPU(language processing unit)と名前を変えた?
数年前のチップをそのまま使い続けているか分からないが、同じならアーキテクチャは4年前のユーチューブを見るか、アスキーあたりの記事にある。
https://youtu.be/UNG70W8mKbA?si=9VFeopAiPAdn08i_
要は、コインパイラで変換が必要。なので提供されているLLMモデルが限られている。
PCIeボードが400万くらいらしいが、SRAMの容量が小さすぎて1ボードでは動かない。
DRAMのレイテンシがSRAMではないので早いのだ、という意見も見られてたが、
1チップのSRAM容量が小さすぎるので、チップチップ間、ボードボード間の通信レイテンシは必ずあるはず。
(数ヶ月前から性能上がっているのは、このあたりのチューニングのはず)
DRAMのレイテンシというが、これも今どきはレイテンシ気にしないように隠蔽するはず。
チームが小さすぎてハード作れなかった可能性もあるが・・・。DMACでチューニングしているか?
ボードにでかいDRAMが載せられるのであれば、そちらの方がボードボード間の通信時間より減るのでは?
GF使ったのは、おそらくAMD設計者が居たからでは。デザインルールどこ破れば性能でるかある程度わかってたとか。1GHzくらいなのは知見なしでやってるとそれくらいで上限くるのはそうだと思う。
チップの世代を更新するかはわからないが、兎にも角にも電力下げて、チップ大量に載せて、チップチップ間の通信時間を下げられるか。
だいぶ前に買ったBTOのPCを少しずつ部品更新してる自作初心者だけど、このまえマザーを交換したときに前と同じ形でいいやと思ってATXのマザーボードにしたんだけど、拡張なんてグラボぐらいしかないからもっとコンパクトなボードにすればよかった。
こうなったら何かしら拡張をしてやろうという気持ちなので何かあったら教えてほしい。
スペックは12Gcorei5、メモリ16、グラボ2070SPぐらいだけど足りないなら足りないで考えてみるから、こんなのもあるよくらいでいい。
ポートはPCIe?の8とかが何個か開いてるけど、この辺もこの際勉強したいから適当に投げていただいて付けられるかどうか考えます。予算も同じ。
今のところの使用用途はブラウジング、WordとExcel、まれにちょっとだけ映像編集(雑に字幕つけるぐらい)、ゲーム(重いのはあんまりやらない、最近遊んだので重そうなのは隻狼とか?)程度。
しょーもないのでも何でもいいので、教えて!
StableDiffusion系はbf18,fp16,8-bit adamなどで8GB程度でも動くようになったが、追加学習をしようとすると足りない。
日々HuggingFaceに投稿される言語系AIや音声、言語と画像・動画を組み合わせといったのになると、24GBでは足りない。
80GBで足りないのも出てきている。、
GPUは8枚まで並列に出来るので、80GBx8枚=320GBといったのになっている。
結局チューニングしないとそれほど役に立たず、お高めのパソコンで個々人でチューニング出来るとありがたいのだ。
CXL(Compute Express Link)というメモリ拡張用のバス規格が数年前にでき、製品も出始めている。
今までだとCPUからGPU側のメモリにコピーだったのが、アクセラレータから参照も出来るようになるらしいのだが、今の所サーバー向けらしい。
まぁ手段はなんでもいいんだが、VRAMの容量が増えればいい。