はてなキーワード: 計画法とは
3. 2の口調で1を語る
4. 無能がしゃしゃり出てくる
https://anond.hatelabo.jp/20221225173449 を書いた増田だが、これが実際にどう釣れるか書いておく。
進次郎構文を参考。自称賢い人はこういうのに性的に敏感に反応してしまう。内容自体は甘利氏の文献などを参考にしたもの。https://twitter.com/shunk031/status/1283991379517956096 のようなツイートもあるので根拠はある。
アルゴリズムってさ、
「○○っしょ」など馬鹿っぽさを感じさせる工夫を凝らしている。「プログラミングは学んだけど、ORなどを知らない」といった無教養なのに自称賢い層がターゲット。一応説明するとこれは線型計画法のこと。glpkを使ったことがあるなら一発で意味がわかる問題。
内容的にはほぼWill Kurtという人が言ってることと合致するようにしている。https://nostarch.com/learnbayes 「爬虫類人」といった見るからに陰謀論と思える用語を使っており、一見するととても知性が低いように見えるが、実際はBayes Factorの説明になっている。こいつしか釣れなかった → https://anond.hatelabo.jp/20221226024142
まだまだ釣りスキルが低いので反応が少ないが、必ず1匹ぐらいは釣れてるので、自称賢いけど実は分野について素人の気取った理系にムカついている人は試してみると良いかも (ワイは飽きたのでもうやらんけど)。
後編
行列はVBAなんかじゃ無理っぽいし、なんかプログラミング言語を覚えようと決める。
とりあえず両方試そうということで、RのためにRとRstudioをインストール。
プログラミングはなんかを製作する目標がないと挫折すると聞いていたので。
深層学習というものが流行ってると聞いて、ちょっと触りを勉強したくなる。
この本は面白かったので、深層学習を目標にプログラミングを覚えよう!
後になって、これはとんでもない間違いだったことに気づく。深層学習と機械学習の違いも判らないまま、RよりPythonを先に触ることに。
教本にしたのはこちら。
「ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装」
途中まではまあなんとか。
微分って便利だな。行列計算できるの便利だなっていうところまでいったが、クラスという概念が理解できず、途中からハテナが浮かんで読み進められず。
うん、もうちょっと易しい本を探そうと思って手に取ったのが
「独学プログラマー Python言語の基本から仕事のやり方まで」
なんとか読了。自信をつける。
実は、いまだにコマンドプロンプトとパワーシェルとbashの違いが分かってない。
つづいてPyQに2か月くらい登録してみる。
なかなかPythonが楽しくなってきたが、クラス意味が今一つ掴めないままいったん中断。
この辺で、自分は統計に興味があってもプログラミングに興味がないんじゃないかということに気づく。
なんだかんだもがきながら、PythonもRもモノにならず、日常のちょっとした計算やグラフを作ったりはExcelを使い続ける日々が続く。
あるいは、Excelで成形して、検定かけやすい形式にしてRで検定するとか。
Rに触れてなかったな、Rは完全に独学。「こんなことやりたいなぁ、ググってみるか、ほうなるほど」って感じ。
そんなさなか、放送大学で「Rで学ぶ確率統計」という講義があるのを知り、さっそく入学して受講。
なかなか面白かったし、PythonばっかりでRあんまり触ってなかったからいい刺激になった。
恥ずかしながら、負の二項分布やガンマ分布ってよう知らんかった。
しかし、講義は楽しかったがなにか書けるようになったかというとそんなことはなく、依然として基本はExcel。
まあ、実際csvじゃなく、手書きのデータとかをExcelに打ち込んだりする程度なんでPythonやRを使うまでもなかったというのもあるんだけど。
「Excelパワーピボット 7つのステップでデータ集計・分析を「自動化」する」
パワークエリを覚えたらピボット形式のExcelファイルとか、セルの結合が多用されたExcelファイルを、成形加工するのが非常に楽になった。
しかも、同じフォーマットで記録されてるデータならフォルダにぶち込んで一気にまとめ上げることも可能!
控えめにいって神!
としばらくパワークエリを礼賛してたのだけど、各ステップはPythonのpandasやRのdplyrでも出来ることに気づく。というか最初から気づけ。
こりゃ、一気に覚えちまおう、統計というより、データの前処理だなと思ってUdemyでRの動画を買ってみた。
AIエンジニアが教えるRとtidyverseによるデータの前処理講座
https://www.udemy.com/course/r-tidyverse-preprocess/
すっかりR信者になる。
それまで教本を呼んでもdplyrの便利さが今一つわからなかったのに、パワークエリで具体的にモノを作ると、dplyrに翻訳したら、すいすい。スピード10倍。
便利さにようやく気付く。
そんで、pandasに翻訳したらどうなんだろ?と思ったらもっと速いw
すごいなPython。
Rへの入信はたった数週間。再びPythonに興味。
さて、ゼロから作るディープラーニングを再開しようと思ったけれども、そもそも、機械学習をすっ飛ばして深層学習って無茶だったと反省し、まずは機械学習に。
機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)
で、この本がすごい。
5章あるんだけど、機械学習のアルゴリズムは5章だけなんだなw
それまでは何に割かれてるんだって?数式の証明とか、便利な計算法、例えばニュートン法とかラグランジュ未定乗数法とかw
こんだけ引っ張っておいて、いよいよ本番の第5章もゴリゴリ数式をスクリプトに落とし込んでいってるのに、「これは学習のためでscikit-learnっての使えばたった1行」っていう無慈悲w
いや、ほんと数学の勉強になったし、こうやってゴリゴリやるとなんのためにクラスというものが存在するのかようやくわかった。
線形代数って便利なんだなと。行列をスカラー値のように何の気なしに扱えるようになると、あの頃苦しんでいた実験計画法、タグチメソッド、今読み直したら別の印象があるんじゃないかなと思うようになったり。
この本を読む途中、「マンガでわかる統計学因子分析編」で学んだことが理解の助けになった。
なんたる僥倖。
線形回帰、リッジ回帰、SVM、PCA、k-means、クラスター分析、一気に手札が増えた。
Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析
実験計画法って、fisherの古典的なやつ、ラテン方格に割り付けて、ってやつかと思ったら、線形代数使えればもうなんでもありなのな。
これ、すごいな。
機械学習と実験計画法がここでつながるとか、控えめにいって最高だな。
まだ読了してないので、また後日。
若くないし、数学を学びなおすには遅すぎると思って尻ごみしていたが、そこを一念発起。
というか軽い気持ちで。ぶっちゃけると分散分析とやらに興味を持ったから。
統計的に有意差があったといわれてもその意味がさっぱりだった。
一応、理系の大学を出てるので、有意差という単語をちょいちょい耳にはしていたが、
「よくわかんないけどt検定とかいうやつやっとけばいいんでしょ?」
くらいの理解だった。
で、ありがちな多重比較の例で、3群以上の比較にt検定は使っちゃダメだよっていう話を聞いて、なんか自分だけ置いてけぼりが悔しくなって、Amazonをポチッとしたのが全ての始まり。
あと、あの頃はライン作業の工員だったから、脳が疲れてなかったし。
みんな数学とかプログラミング、とくにPythonの無料講座は無言ブックマークしてるから興味あるっぽいので、参考になれば。
アドバイスとかくれると嬉しい。
いきなり当たりを引いた。
軽妙な語り口で、懇切丁寧。受験の参考書の実況中継シリーズをわかりやすくした感じ。
何者だと思ったら元航空幕僚長。
手を動かさずとも数式を追えるくらいの丁寧な式変形。かゆいところへのフォロー。
前述の「実験計画と分散分析のはなし」よりも易しめの「統計のはなし」「統計解析のはなし」から始まり、「QC数学のはなし」「信頼性工学のはなし」「ORのはなし」「予測のはなし」「論理と集合のはなし」までぶっ通し。
しかし、やっぱり「実験計画と分散分析のはなし」が一番印象に残ってるのは、その後の勉強に役立っていったからだと思う。
余談だけど、最近亡くなったそうだ。ご冥福をお祈り申し上げます。
それと、
本当は、回帰分析編を買うつもりだったんだけど、マーケットプレイスから間違えてこっちが届いた。
大村さんの本はぶっちぎりでわかりやすいんだけど、あと一歩踏み込みたい。
共分散分析、平行線検定法、プロビット法、自分の住む業界で聞いたことがある単語が大村さんの本にはのってない。
そんなわけで頼ったのがこのページ。
統計学入門
http://www.snap-tck.com/room04/c01/stat/stat.html
t検定くらいならExcelでも一発でp値を出してくれる関数があるけれど、そこから一歩二歩踏み込んでいくと、自分で「あれの平方和を計算して」、「あっちの平方和を計算して」、「サンプルサイズが不揃いだから平均値で代用して自由度で補正して」、ということをExcel上でやらにゃならなかった。
1行に1レコードの形式じゃないとやり難いなぁ。そうじゃないとサンプルサイズが変わるごとに計算列が変わって困る。
と、おぼろげながらtidyデータの概念に気づく手前に来てた。
勉強ブームは2013から2014年くらいまで。そこからしばらくはなんもやってない。
そんななか、2018年ごろ、タグチメソッドの入門書と出会う。
「Excelでできるタグチメソッド解析法入門」広瀬 健一 , 上田 太一郎
これがまた面白い。
有意差があるかどうかじゃなくて、それを使ってどう改良するかか!
ついでに、その中で使ってる手法からコンジョイント分析にも興味が出る。
ははーん、人文科学の世界でも使えるんだね、分散分析と実験計画。と。
(分散分析をコンジョイント分析と呼ぶと怒られるけど、許して)
と読み進む。
この辺から、行列の計算が出てきてExcelでは限界を感じるようになる。
後編に続く
弊社は産業機械を製造している会社なのだが、最近製品の品質がまずいことになってる。
製品をお客さんの工場に納品して、お客さんのテスト稼働中に重大な不具合が出る。
ほぼ全部の試験を1からやり直しになったとかのうわさも漏れ聞く。
経営層はかなり危機感を持っているようで、実験計画法の教育を始めた。
効率的に「実験」する方法であって、実験結果を設計へフィードバックするためには有効だから、
今と同じ量の実験で、効率的に問題を見つける=同じ開発期間で品質問題の出ない製品ができる。
・・・はず。
そもそも、どんな会社どんな商品であっても、製品を設計して、試験をして、問題があったら設計を修正をして…というサイクルを繰り返して
試験の項目がたくさん増えて、発売日に全然間に合わないから実験計画法を使いましょう。というのは理解できる。
でも、試験項目が増えたのは、お客さんの工場から製品送り返されて、ちゃんと動くまで納品するなと怒られた後なのだ。
製品開発の担当者はなんで試験をしないのか。当然それにも理由がある。
ペーペー社員であっても製品開発の仕事の流れは何とか理解できる。おおまかにこんな順番である。
4.組み立てる
5.試験をする
6.完成
担当者はこんなもんですかね。みたいな感じで、試験で問題があっても大丈夫なスケジュールを立てる。
問題は管理職である。管理職がスケジュールを確認する会議に出たときに、修正が入る。期間を短くする方に。
「うーん自分が担当だったらこの三倍は時間がないと無理だな~」
この時点ですごくやな予感がする。
そのあとは設計が始まって、案の定スケジュール通りに終わらない。期間が短すぎるんだ。
管理職:「そうじゃない、元のスケジュール通りに進めるにはどこを縮めるか考えるんだ!」
むりだろそれ。
当然ながら、試験では「なにも問題は起こらなかった」という結果でないと間に合わない。
あるいはモジュール毎に行う試験は省略する。全体でうまく動けばいいよね?
結果は一番最初に書いた通り。
何も問題なく完成したはずの装置は、出荷前の最終試験や、お客さんの工場でやる受け入れ試験
だけしか通っていないので、お客さんが用途に合わせて使おうとすると「なんか変」とかいう話になる。
ちなみに、この管理職が問題なのだとは思うのだけど、別の製品の会議で見る、ほかの管理職でも
同じようなことを言ってるので、会社の文化なのかもしれない。あるいはそういうことばかり言ってる人が
というわけで、皆さんも根拠のないスケジュールを立てちゃだめだぞ。
えっ?お前はどうしてるんだって?
ペーペー社員は最初の会議で「どう頑張ろうとこのスケジュールでは時間が足りないので時間をください」といったので
担当をはずされたのだ。