2024-02-20

Groqについて

数年前は、TSP(Tensor Streaming Processor)と呼んでいたが、LPU(language processing unit)と名前を変えた?

数年前のチップをそのまま使い続けているかからないが、同じならアーキテクチャは4年前のユーチューブを見るか、アスキーあたりの記事にある。

https://youtu.be/UNG70W8mKbA?si=9VFeopAiPAdn08i_

要は、コインパイラで変換が必要。なので提供されているLLMモデルが限られている。


SRAMを240MB(230MB?)しかない。

PCIeボードが400万くらいらしいが、SRAMの容量が小さすぎて1ボードでは動かない。

DRAMレイテンシSRAMではないので早いのだ、という意見も見られてたが、

1チップSRAM容量が小さすぎるので、チップチップ間、ボードボード間の通信レイテンシは必ずあるはず。

(数ヶ月前から性能上がっているのは、このあたりのチューニングのはず)

DRAMレイテンシというが、これも今どきはレイテンシ気にしないように隠蔽するはず。

チームが小さすぎてハード作れなかった可能性もあるが・・・。DMACでチューニングしているか


ボードにでかいDRAMが載せられるのであれば、そちらの方がボードボード間の通信時間より減るのでは?


グローバルファウンドリ14nmで既に1ボード250Wほど。

GF使ったのは、おそらくAMD設計者が居たからでは。デザインルールどこ破れば性能でるかある程度わかってたとか。1GHzくらいなのは知見なしでやってるとそれくらいで上限くるのはそうだと思う。

チップ世代更新するかはわからないが、兎にも角にも電力下げて、チップ大量に載せて、チップチップ間の通信時間を下げられるか。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん