2023-06-24

anond:20230624173310

より広い範囲文脈を見ているというのであれば、単にデータひっぱってくればいいだけじゃね?

それがまさしくトランスフォーマー、ってか自己注意機構

再帰接続みたいな洒落たことするのではなく、過去任意の地点と現在までに1ステップ接続作れば良いじゃんって発想

ただし文脈で重みは付けましょう、という工夫はする


あと、GPUはいわゆるBLAS演算(行列の積和演算)のアクセラレータだと思えば良い

記事への反応 -

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん