はてなキーワード: 統計処理とは
正直、笑えないニュースだと思っている。
まず最初に言っておくと、この自由研究をした小学生が責められる必要は全くない。自由研究としては素晴らしいものだと思う。今後も観察やデータ分析の重要性に目を向けていってほしい。
あと、小学生に対して大人げないツッコミをしている諸兄はちょっと自制しような?お前らの大半も小学生時代に統計処理なんて理解してなかっただろ。
じゃあ、なんでこれが笑えないかというと、日本におけるデータサイエンスやEBPM (Evidence-based Policy Making) の様を端的に表してしまっているように思えて仕方がないからである。
以下、NHKの記事を引用する。もちろん小学生に文句を言いたいわけではないので名前は伏せる。
**さんは、自宅近くの幹線道路の交差点で交通事故が起きたことから問題意識を持ち、夏休みのことし7月27日に朝と昼と夕方のそれぞれ1時間、この交差点を観察し、信号無視をした人を調べました。
その結果、▼子どもは14人中0人だった一方で、▼大人は833人中78人、▼お年寄りは104人中12人と、子どもよりも大人のほうが信号を無視する傾向がみられたということです。
交差点に警察官がいた朝の時間帯に限ると信号を無視する人はほとんどいませんでしたが、警察官がいなかった2日後に改めて観察してみると、この時間帯でも信号無視が相次いだということです。
この自由研究が交通安全の啓発につながったとして、秋の全国交通安全運動初日の21日、神戸市の葺合警察署から**さんに感謝状が贈られました。
ということとマッチしてしまってるんだよ。もちろん、小学生の意図とは別だとは思うけど。
もし、小学生が「警察官が居ても居なくても横断抑止に効果がない」という結果を出しちゃうと、仮にそれが事実を反映したもの、統計的に有意だったとしても、自由研究として評価されることはないだろうね。
これが自由研究だけなら良いんだけど、残念ながらいわゆる研究というかデータサイエンスの分野やEBPMでもよくある話なんだよな。もはや周知の事実か。
政府、自治体などの政策や立案を正当化するためにデータを集めて都合よく評価するみたいな事例が死ぬほど多い。パラメータやデータを調整して如何に主張に辻褄を合わせるか。
証拠の捏造と違って一応辻褄は合っているからウソかって言うと難しいところだし、政府や自治体に査読なんて無く、「○○大学の研究によれば」と公表されてしまう。
御用学者とまでは言わないけど、結果的に政策に都合の良い結果を出した方が評価されがち。
EBPMの逆、「policy-based evidence making」や「policy-based evidence gathering」と批判されてんだわ。
最近の有名どころだと三菱総研のコロナ感染者数予測が叩かれてたな。まさにこれよ。
https://www.digital.go.jp/posts/kMccIpBR
論点は
「デジタル庁ともあろうものが役員人事の情報をPDFだけで公開するのはどうしたものか」
これまで紙文書として管理していたものをWordやExcelにPDFにして管理することで
無駄なプリンターでの印刷や紙媒体の保存などから脱却する、というのはデジタル化ではなくて単にペーパーレス化
デジタル化というのはそれらの文書管理されていた情報を構造化されたデータに統一し
検索可能にしたり統計処理可能にしたりすることで業務効率化や解析による知見の発見を目指すもの
単に人事情報をPDF化したり、それをHTML化したりしてもまったくデジタル化ではない
「大手企業とか政府とかならPDFやHTMLになる前にシステムに投入してるんでしょ?」
と思う人が多いかもしれないが、実体としては大手企業や政府ほどそういうシステム導入がされておらず
実質的に共有フォルダに置かれたPDFファイルで管理されていたりする
これには定期的な人事異動が関連していて、システムを導入するとシステム操作の習熟という引き継ぎが発生してしまうために業務効率が悪い
それよりも一般常識化しつつある共有フォルダに設置されたPDFやPPTを閲覧してもらったり編集して貰う方が誰でもできるし効率的、という現実があるためだったりする
こういった状況の大手企業や政府に対してデジタル化を推進してもらうために取るべき方策は下記の通り
この3つを全て進めていかないとデジタル化はただのペーパーレス化になる
よくあるのは2つ目だけが行われ、慣例的に文書管理されているPDFファイルを共有フォルダではなくシステム投入するだけのデジタル化だ
結局データ解析できないからそのPDFをOCRしようとかいう謎のムーブメントを見せたりするが
PDFに書かれている内容が構造化されていないので当然ながらデータ化できず、解析もできない
よくある領収書とか請求書とかは解析ができたりするがそういうのはそもそも電子的にやりとりされていてやる必要が無く
社員による立て替え払いの時だけ発生していたのがデジタル化されてお茶を濁される
「内部でPDF管理しているんだから公開するときはそのファイルをリンクすればいいよね」
という安易な考え方に基づいてるのがPDFファイルのWeb公開
つまり1つ目の業務単位での見直しができていないし、2つ目のデータ構造化も行われていないだろうということが予想できる
また3つ目の利用者メリットのことを考えてみても、この役員人事の情報をPDFで貰わないと困る一般人など存在しない
どうしても印刷したい人とか、どうしても自分で管理している共有フォルダに置きたい人、なんかはいるのかもしれないが
それにしてもHTML表示されているものを保存するなり印刷すればよい
それよりもスマホで見ているのにA4縦の形式で表示される方がよっぽど不利益が大きい
デジタル化することで構造的なデータにさえなれば、表示する媒体に合わせてレイアウトを変えることは難しくない(大変ではあるが)
また、もしかしたら別の省庁や地方自治体とかがPDF保存している、というのは2つ目の統一的なシステム化ができていないことを意味する
などという意見もあったりするが、そもそもPDFであれば改変できないというわけではないし
今時なら画面キャプチャしてOCRをかければほぼ同じものが出来てしまうのでほぼ無意味である
それよりもTLS化されているURLで改変されていないことを保証することの方が何倍も役に立つ
結局のところPDFでこの手の情報を公開することには何のメリットもないが、ペーパーレス化のレベルで止まってしまうとPDFのメリットばかりを主張しがちになってしまう
発足したばかりの組織が上記の3つをいきなり解決できるわけがない
この慣例的に行われているPDFファイル公開をやめる・やめさせるのは大変に骨が折れる
単純に「やめなさい」と下達的に言うだけなら簡単だが
そうなると結局はPDF管理とHTML編集の2倍の工数がかかって実務者の反発しか生まない
更にはPDFとHTMLの二重管理になってしまって不整合が発生する、なんていうのも想像できる
業務を見直し、システムを入れ、利用者・作業者にメリットを与える、という3つを同時に進めないと上手くいかない
大きな組織でこれをやるのは非常に骨が折れるだろうが頑張って欲しい
GoogleがWaveNetを出してから、合成音声も機械学習を使うようになった。
2021年では日本でも機械学習を使ったソフトウェアがいくつか販売される。
はてな的にはAIきりたんのNEUTRINOが話題となった。1/29に発表されたCevio AIの記事を見た人も中にはいるだろう。
人の歌声と区別できないとニュースタイトルでは付いているが、個人的はまだまだ違和感がある。
人間のボーカルを録音してピッチ修正をしている人だと、Melodyneでピッチ合わせすぎると機械っぽい音声になるから、わざと修正しないといったことを行うわけだが、
歌声合成ソフトでは「しゃくり」といった、わざと外して人間っぽさを出す。
実際にソフト開発側もわかっていて、マニュアルで修正する手段を用意しているので、それに引きずられてしまうのだが、
声は複数の周波数を重ねてできたものであり、各周波数ごとに分解すると、基本周波数の2倍、3倍といった周波数の音が出ているのがわかる。
実際の人の声を分析すると、時間方向に微妙な揺らぎが存在するのがわかる。
また口を閉じた状態から声を出そうとすると、口が開くまでの音の変化など、ちゃんとした周波数が出ていない箇所がある。
機械音声の場合、ゆらぎがなく、〇〇周波数がピタッと出ており±15Hz揺らぐといったことがない。
ゆらぎについても、人間の声の場合、±50Hzから±15Hzへ変化するといったことが起こっているように見える。
見えると言っているのは、自分が声のデータを処理しているとなっているように見えているからであり、
これについて言及した文献を探せていない。
さきほど声には倍音があるといったが、倍音の数も人間の声では変化するが、機械音声ではずっと同じ数のままだ。
「あ~」のように伸ばした音の場合、ピッチ調整で波打つようなのを手書きしたことがあるDAW経験者はいるだろうが、
人の声を調べると倍音の数が徐々に変わっていたりする。
現行のソフトでピッチ補正で波を手書きしても、元から上手く伸ばした声にならないといった苦労をした人がいると思うが、
この辺りが機械学習で解決しているかというと、あまりなっていないように感じている。
思っていたよりクオリティが低いのだ。
なぜか。
一つの仮説だが、RNNやTransformerといった、ニューラルネットの構成ばかりに気にしていて、
何かしらかの演算で前処理を行ってからニューラルネットに入力するわけだが、
前処理段階で捉えられていない特徴量があるのではないだろうか。
また統計処理を行う際に、計算精度によって丸め込まれてしまっているのではないだろうか。
プログラミングであれば徐々に自動化をする箇所を増やせるが、音声合成ソフトは自動化が出来ない。
何年経ったとしても、良くならないのだ。
この辺り、修正前と修正後のデータがあるのだから、学習していってより便利になればいいのだが、そうはならない。
スマートスピーカーが出たり、日常的に音声を聞いているわけだが、音声を合成しようとしたときに使えるデータは案外少ない。
ちゃんとしたスタジオで録音したり、無響音室での録音した音声はない。
日をまたぐと体調も変わってくる。
同じ条件でデータを揃えるといった場合、音声はデータが少ないんだろうなと思うのだ。
自分で合成音声をやってみるとわかるが、学習に計算リソースがかなりかかる。
あんなあ
「統計学」を使って男女差を解析するのは「統計学」とは言わんのやで
統計学の講義をとったとするやろ?期末試験に出てくるのは、男女差か?女の子がピンク色を好む傾向があるようでーす、か?ちゃうやろ
試験に出るのは統計処理の方法やろ。検定はどれを使いますかー、とかそんなんやろ。
授業で例として男女差なんかを使うのかもしれんが、それは統計学ちゃうで
日本人とアメリカ人とか、試薬Aと試薬Bとか、マウスのオスとメスを授業で扱ったら
経済学でも、心理学でも、医学でも、工学でも、生物学でも化学でも統計学は使うで。
統計学は科学の基本や。データを集める。データを統計処理する。データから考察する。科学は再現性が命やから、主観でズレが出ないように数字を使う。
経済学の統計じゃ、消費行動の男女差を扱うかも知れへんし、医学の統計じゃ、大腸ガン罹患率の男女差を扱うかも知れへんけど、それは統計学じゃないんや?わかるか?
こんな、手に負えない馬鹿はワイは初めて見たわ……
君は統計学の何を習ったんや……
CPUをVHDL,Verilog,System-Verilogで書いたりした時もあった。
USB,HDMI,電池の充電制御,WiFi,自動車など色々やったが、コンピュータが遠くなっていく感じがある。
FPGAでCPUを書いてOSを起動させたとして、自分の普段の仕事環境が良くなるわけではない。
ソフトウェアでは次々と開発環境が良くなっていくし、自分で使いやすいようにカスタマイズもできる。
でもハードはそうではない。MS Officeは動くがメモリが4GBでカクカク。
作ったハードも自分達が使うわけじゃない。例えば100Gイーサ開発してもその恩恵は得られず1Gbpsが関の山だったりする。
Python,Go,R,C++,Rubyくらいになると書けるがどう動いてるかわからなくなってブラックボックス化する。
社会的には正しいのだが、自分が関わったハードと自分が書いたC/C++のコードを上位から呼び出すのはわかるが、
ハードが変わったらブラックボックスになる。ロジアナやオシロで見てわかるレベルであればいいが。
PandasのTime seriesが時間を扱えるのかと思っていると、ピコ秒が扱えない。
これは1例に過ぎないが、Amazonや本屋で新刊が出ると買って勉強し、ライブラリの公式ドキュメントも読んでいくが、仕事に直結しない。
クラウド使ってディープラーニングのやり方は沢山情報はあるが、CPU内蔵GPUでメモリ4GB+FPGAでやる情報なんてない。
4日前、母(50代)が高熱、空咳、倦怠感、頭痛などを訴えたので病院を受診しました。同居の家族が数日前にインフルエンザだったので、インフルエンザだと疑わずインフルエンザの検査を受けました。その結果陰性。インフルエンザじゃないならコロナが疑わしいような症状だったにもかかわらず、コロナの検査をしてくれませんでした。抗生物質出されて終わり。本日最後の薬も飲み終わりましたが、熱も続いてるし、息苦しさまで訴えています。「肺か器官かわからないが痛い」と。誰構わず検査をしてほしい、検査数増やせと言ってる訳じゃないです。必要そうな人がいたら検査してくれるようにしてくれませんか?芸能人やスポーツ選手は軽症でも検査してくれるのに、なぜ検査してくれないんですか?この国では有名人と一般人の命の重さは違うんですね。本当に残念です。もしも亡くなったら普通の肺炎として統計処理されるのでしょうか。不信感しかありません。