より広い範囲の文脈を見ているというのであれば、単にデータひっぱってくればいいだけじゃね?
それがまさしくトランスフォーマー、ってか自己注意機構
再帰型接続みたいな洒落たことするのではなく、過去の任意の地点と現在までに1ステップで接続作れば良いじゃんって発想
ただし文脈で重みは付けましょう、という工夫はする
あと、GPUはいわゆるBLAS演算(行列の積和演算)のアクセラレータだと思えば良い
Permalink | 記事への反応(0) | 17:49
ツイートシェア
機械学習の記事を検索して読んでいるが、色んなアーキテクチャがあるのはわかるが、各部品の必要性がよくわからない。 Transformerあたりから、なんかいきなり構造変わってさっぱり。 ...
より広い範囲の文脈を見ているというのであれば、単にデータひっぱってくればいいだけじゃね? それがまさしくトランスフォーマー、ってか自己注意機構 再帰型接続みたいな洒落...