今までだと命令やデータはキャッシュに乗るのが前提だったが、AIだと、AIモデルがGB単位なのでキャッシュにそもそも乗らない。
いかにキャッシュヒットさせるか、DRAMとのレイテンシを隠蔽するかだったが、キャッシュに乗らないので、メモリ帯域勝負になる。
GPUが汎用性があるので使われているが、ゲームだとテクスチャをVRAMに乗せておいて、演算した結果はモニター側へ出力すればよく、
なんだかんだ帯域は足りていたが、AIだとチップチップ間の帯域が足りない。
ニューラルネットワークの接続自体をFPGA的に切り替えるのも手だと思うがモデルが大きすぎる。