重い腰を上げてAttentionやらTransformerやらを勉強し始めたんだけど、
色んな解説を見ても、なんでその構造意味あるんだってのが一ミリもわからん。
思いつきで構造作って名前付けただけちゃうんかって、不安がずっと無くならない。
単語の位置示したいのはわかるが、なんでsinなんだ、そして足すんだ・・・。
解説だけじゃわからんからコード調べても、個人が出来るレベルだと
結果が出てきても、モデルが悪いのか、データが悪いのか、全然わからん。
馬鹿みたいに色んな計算してるが、本当に意味あるから入れてるんか?
辛い。
RTX3090で1時間くらいで結果出るレギュレーションでやってくれないんか・・・。
Permalink | 記事への反応(0) | 21:08
ツイートシェア