2024-06-09

[] 2024-06-09

朝食: なし、昼食: はちみつパン

 

やはり休日暇つぶし必要だと思い、Kaggleでmovielensデータセットで実験を行った。

最もシンプルモデルとして、ユーザー×アイテム行列に対する類似度を算出する方法で、類似ユーザーTop n人のレートの平均値を算出し、Top mのアイテムを出す。

これでNDCG@100で0.36ぐらいなので、ベースラインとしてはまあそのぐらいだろう。

実際、SOTAモデルを見ても、NDCG@100=0.4253ぐらいしか達成していない。

https://paperswithcode.com/sota/collaborative-filtering-on-movielens-1m?metric=nDCG%40100

Kaggleでのコンペは、精神疲弊しそうだし、自信もないので参加する気はない。

こう、なんというか、それなりの精度のベースラインモデルをササッと作るぐらいで丁度いい。

 

ところで、自分の7年の業務経験スキルセットがどの程度なのかというのを視覚化してみたら、多分以下のようになると思う。

genrelevel
コーディング★★★★
アルゴリズム★★★
インフラ★★
機械学習★★★
コミュニケーション★★
ビジネス理解
データ視覚★★
統計学★★

要するに、コードを書いていたいのである

実のところ「機能要件をどう実現するか」というエンジニア思考なので、あまり統計科学的な思考は身についていない。

といっても薬学研究の発表があれば「薬の作用副作用効果なのか、病気の症状によるものなのか区別がついていない」ということを指摘できる程度の批判的思考は持っているので、

科学」と名のつくところに科学とは程遠い政治存在することは知っている。

まりエンジニアリングが好きで、科学が嫌いなのは、その政治であるエンジニアリングは、作って見せればそれで実証できるのが好きである

ビジネス科学」と言われることがあるが「科学手法を使うから科学である」というのは少し違う気がしている。

自然法則を見つけるのが科学である。カネを儲けるための最適化理論は、発見ではなく、発明である

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん