人文学であれ、社会科学であれ、エビデンスに基づいた研究が求められているが、人文学及び社会科学は、自然科学のように客観的な証拠に基づき「真実」を明らかにするのではなく、説得的な論拠により「真実らしさ」を明らかにすることを目指すものである。
説得的な論拠を構築するためには、1大量のデータを統計処理したり、少数事例について厚い記述を行うケース分析などの観察結果法、2数理モデルや概念モデルを用いる演繹論理法があるが、実際には、1と2の適切な組合せ、すなわち、少数のデータ、多少のケース、それらを繋ぐ論理により、総体として意味のある全体像を描き出すことになる。
社会科学においては、一見科学的に見える方法でも、結局は、その証拠の信頼性は、どれだけ多くの人がそれを真実らしいと考えてよいと納得するかに依存している。
人々の主観に依拠せざるをえない社会科学においては、一見科学的に見える方法により集められたエビデンスをもってしても、現実の社会現象の理解には不十分であることが多く、多くの研究者が、現実の解釈、現実への適用という「結論」の段階で「ジャンプ」することは避けられない。
研究方法の精密度に限界のある社会科学においては、一定の「ジャンプ」は必要である。ただし、「ジャンプ」後の立言は、あくまで個人の解釈であることを明言する必要がある。なお、科学的に見える精密な方法を用いる研究者ほど、最後の「ジャンプ」が大きい傾向があるように思われる。

出典：文部科学省　人文学及び社会科学の特性について

Permalink | 記事への反応(0) | 13:52

2022-11-13

■anond:20221113163516

よし、今から恵美須町いってマイクロ SDカード買ってくる（なんの連絡だよ）

じゃねえわ（誤爆）……アレだ二分化してるというか「Kintone」でガワとデータ入れるハコ作るだけでOKなのか、統計処理ゴリゴリに掛けるか、どっちかしかない感じ

Permalink | 記事への反応(0) | 16:47

2022-10-05

■anond:20221005133555

ルナルナっぽく、うんこした日を記録するアプリが求められる。

統計処理して次のうんこがいつ頃でるか予測してくれる。

Permalink | 記事への反応(1) | 13:37

2022-09-04

■anond:20220904094730

わざとずらしてるんだと思うよ。だって統一教会みたいな連中は口先と心理把握で人を騙して金をせびる組織なんだから。

心理のプロ。ただし心理なんて科学的立証をしようと思えば振れをなくすために統計処理しないとならんから、手間隙かかる。観察だけですんでいるという意味で詐欺組織は本職の心理学の学者よりも強い側面はあると思うな。

一つ一つ騙してるやつを「あなた騙そうとしてますよね」と皆の前で論破し続ければいい。向こうもたまたま騙しに引っかかるうやつが引っかかればいいぐらいに思ってないから無限ループではあるだろう。無限ループを続けるしかない。

なんとかこの事件をきっかけに縛る法整備までいかないとね。

Permalink | 記事への反応(0) | 11:07

2022-07-17

■anond:20220717110205

いや？外形的に金の動きと他人への勧誘を抑えるしかできないだろ。加えて、カルト宗教なしでも救われるように金銭的公助と、精神医療につなげること。

科学が馴染むような振れがすくなかったり、統計処理できる案件じゃないんだから。

キリスト教は聖書が正しいか（プロテスタント）、聖職者が正しいか（カトリック）にすら解を出せずに大戦争となった。最もその戦争に従事した兵士がデカルトで、明証分析総合枚挙からなりと、合理的批判に耐えられた知識は正しいと科学を作ったが。

でもデカルトでもプロテスタントかカトリックかどちらかには答えを出せてない。

Permalink | 記事への反応(0) | 11:10

2022-06-04

■anond:20220604092520

理論や科学で断定できないことが多いからじゃない？

科学って、振れが多い案件は、条件を整えて数を増やして統計処理でもしないと何も言えない。

けど人間の心って条件整えられないもののほうが多いから。そして、女は男よ理もだいぶ人間の心を見ている。

Permalink | 記事への反応(1) | 09:50

2022-03-15

■anond:20220315223326

医者が頭良ければ、確かにその理屈は成り立つ。

ほんとに頭がよければな。

お金がなければ人は死ぬことも理解できないような馬鹿が、統計処理の特化のウイルス、ワクチン、薬等の理解が優れてると考えれんわ。

ほんとコロナで医者に対してはうんざりした。

Permalink | 記事への反応(2) | 22:35

2022-01-18

■

統計処理はパソコンでやるもの

手計算、筆記試験でやるものじゃない

Permalink | 記事への反応(0) | 19:52

2021-11-11

■anond:20211111114400

統計処理してポジティブ・ネガティブぐらい今時自動で判定できるでしょ

政治って人気商売なんだから鵜呑みにしなくてもいいけど参考にはするんじゃないの？

Permalink | 記事への反応(0) | 11:47

2021-09-22

■「子供より大人のほうが信号無視」のニュースについて思うこと

正直、笑えないニュースだと思っている。

まず最初に言っておくと、この自由研究をした小学生が責められる必要は全くない。自由研究としては素晴らしいものだと思う。今後も観察やデータ分析の重要性に目を向けていってほしい。

あと、小学生に対して大人げないツッコミをしている諸兄はちょっと自制しような？お前らの大半も小学生時代に統計処理なんて理解してなかっただろ。

じゃあ、なんでこれが笑えないかというと、日本におけるデータサイエンスやEBPM (Evidence-based Policy Making) の様を端的に表してしまっているように思えて仕方がないからである。

以下、NHKの記事を引用する。もちろん小学生に文句を言いたいわけではないので名前は伏せる。

＊＊さんは、自宅近くの幹線道路の交差点で交通事故が起きたことから問題意識を持ち、夏休みのことし７月２７日に朝と昼と夕方のそれぞれ１時間、この交差点を観察し、信号無視をした人を調べました。
その結果、▼子どもは１４人中０人だった一方で、▼大人は８３３人中７８人、▼お年寄りは１０４人中１２人と、子どもよりも大人のほうが信号を無視する傾向がみられたということです。

交差点に警察官がいた朝の時間帯に限ると信号を無視する人はほとんどいませんでしたが、警察官がいなかった２日後に改めて観察してみると、この時間帯でも信号無視が相次いだということです。
この自由研究が交通安全の啓発につながったとして、秋の全国交通安全運動初日の２１日、神戸市の葺合警察署から＊＊さんに感謝状が贈られました。

これって自由研究の方向性が警察が主張したい話、つまり

大人はルール違反しまくって子供に負けてるぞ、しっかりしろ
警察官が抑止力になっているんだ

ということとマッチしてしまってるんだよ。もちろん、小学生の意図とは別だとは思うけど。

もし、小学生が「警察官が居ても居なくても横断抑止に効果がない」という結果を出しちゃうと、仮にそれが事実を反映したもの、統計的に有意だったとしても、自由研究として評価されることはないだろうね。

これが自由研究だけなら良いんだけど、残念ながらいわゆる研究というかデータサイエンスの分野やEBPMでもよくある話なんだよな。もはや周知の事実か。

政府、自治体などの政策や立案を正当化するためにデータを集めて都合よく評価するみたいな事例が死ぬほど多い。パラメータやデータを調整して如何に主張に辻褄を合わせるか。

証拠の捏造と違って一応辻褄は合っているからウソかって言うと難しいところだし、政府や自治体に査読なんて無く、「○○大学の研究によれば」と公表されてしまう。

御用学者とまでは言わないけど、結果的に政策に都合の良い結果を出した方が評価されがち。

EBPMの逆、「policy-based evidence making」や「policy-based evidence gathering」と批判されてんだわ。

最近の有名どころだと三菱総研のコロナ感染者数予測が叩かれてたな。まさにこれよ。

https://www.tokyo-np.co.jp/article/110157

自由研究のほのぼのニュースを見て、こういう状況を思い出してしまったという話。

Permalink | 記事への反応(1) | 11:02

2021-09-14

■anond:20210914165009

今の AI はなー、統計処理だからなー。

Permalink | 記事への反応(0) | 17:48

2021-09-02

■PDF公開はいらない

https://www.digital.go.jp/posts/kMccIpBR

この記事のブコメがまぁまぁひどい。

論点は

「デジタル庁ともあろうものが役員人事の情報をPDFだけで公開するのはどうしたものか」

という点なんだけど、やたらPDF 擁護派が目立つ。

そもそも デジタル化（デジタライゼーション）とは

これまで紙文書として管理していたものをWordやExcelにPDFにして管理することで

無駄なプリンターでの印刷や紙媒体の保存などから脱却する、というのはデジタル化ではなくて単にペーパーレス化

デジタル化というのはそれらの文書管理されていた情報を構造化されたデータに統一し

検索可能にしたり統計処理可能にしたりすることで業務効率化や解析による知見の発見を目指すもの

単に人事情報をPDF化したり、それをHTML化したりしてもまったくデジタル化ではない

「大手企業とか政府とかならPDFやHTMLになる前にシステムに投入してるんでしょ？」

と思う人が多いかもしれないが、実体としては大手企業や政府ほどそういうシステム導入がされておらず

実質的に共有フォルダに置かれたPDF ファイルで管理されていたりする

これには定期的な人事異動が関連していて、システムを導入するとシステム操作の習熟という引き継ぎが発生してしまうために業務効率が悪い

それよりも一般常識化しつつある共有フォルダに設置されたPDFやPPTを閲覧してもらったり編集して貰う方が誰でもできるし効率的、という現実があるためだったりする

この辺がPDF 擁護派が本来主張しなければいけない部分

デジタル化の肝

こういった状況の大手企業や政府に対してデジタル化を推進してもらうために取るべき方策は下記の通り

慣例的に文書管理されているものやそもそも文書化されているものを業務単位で見直す
全社（全国）で統一的なシステムを入れることで統一的なデータ構造化を行う
データ構造化によるメリットをシステム利用者・顧客（市民）に提示する

この3つを全て進めていかないとデジタル化はただのペーパーレス化になる

よくあるのは2つ目だけが行われ、慣例的に文書管理されているPDF ファイルを共有フォルダではなくシステム投入するだけのデジタル化だ

結局データ解析できないからそのPDFをOCRしようとかいう謎のムーブメントを見せたりするが

PDFに書かれている内容が構造化されていないので当然ながらデータ化できず、解析もできない

よくある領収書とか請求書とかは解析ができたりするがそういうのはそもそも電子的にやりとりされていてやる必要が無く

社員による立て替え払いの時だけ発生していたのがデジタル化されてお茶を濁される

PDFを公開することの何がダメか

「内部でPDF 管理しているんだから公開するときはそのファイルをリンクすればいいよね」

という安易な考え方に基づいてるのがPDF ファイルのWeb公開

つまり1つ目の業務単位での見直しができていないし、2つ目のデータ構造化も行われていないだろうということが予想できる

また3つ目の利用者メリットのことを考えてみても、この役員人事の情報をPDFで貰わないと困る一般人など存在しない

どうしても印刷したい人とか、どうしても自分で管理している共有フォルダに置きたい人、なんかはいるのかもしれないが

それにしてもHTML表示されているものを保存するなり印刷すればよい

それよりもスマホで見ているのにA4縦の形式で表示される方がよっぽど不利益が大きい

デジタル化することで構造的なデータにさえなれば、表示する媒体に合わせてレイアウトを変えることは難しくない（大変ではあるが）

また、もしかしたら別の省庁や地方自治体とかがPDF保存している、というのは2つ目の統一的なシステム化ができていないことを意味する

まぁそもそもそれが本当に必要かという話にはなるだろう

「PDFであれば改変ができないので公文書には最適」

などという意見もあったりするが、そもそも PDFであれば改変できないというわけではないし

今時なら画面キャプチャしてOCRをかければほぼ同じものが出来てしまうのでほぼ無意味である

それよりもTLS化されているURLで改変されていないことを保証することの方が何倍も役に立つ

結局のところPDFでこの手の情報を公開することには何のメリットもないが、ペーパーレス化のレベルで止まってしまうとPDFのメリットばかりを主張しがちになってしまう

今回のPDF公開は何がダメか

結論から言うと別にダメではない

発足したばかりの組織が上記の3つをいきなり解決できるわけがない

これから少しずつデジタル化していくのだろう

ただ、一番大変なのは「業務見直し」である

この慣例的に行われているPDF ファイル公開をやめる・やめさせるのは大変に骨が折れる

単純に「やめなさい」と下達的に言うだけなら簡単だが

そうなると結局はPDF 管理とHTML 編集の2倍の工数がかかって実務者の反発しか生まない

更にはPDFとHTMLの二重管理になってしまって不整合が発生する、なんていうのも想像できる

業務を見直し、システムを入れ、利用者・作業者にメリットを与える、という3つを同時に進めないと上手くいかない

大きな組織でこれをやるのは非常に骨が折れるだろうが頑張って欲しい

PDF公開が無くなったときにはこれほどの大きな調整が行われたのだ、と素直に喜びたい

Permalink | 記事への反応(2) | 08:41

2021-04-16

■anond:20210416103205

たいした統計処理してるわけじゃないから文系で十分

Permalink | 記事への反応(0) | 14:18

2021-03-22

■anond:20210321175231

科学にできないからだと思うよ。

科学にするには、原則的に振れがない状態で一発確実な結果が出るか、振れがあっても条件を揃えて統計処理して、めったに起きないことが起きたから正しいと有意である必要がある。

人の心って、ケースバイケースだから、どちらも取れないからが科学にしづらい。承認欲求からベースに考え直したら案外わかることも多いだろうと思うけどね。

Permalink | 記事への反応(0) | 08:44

2021-02-16

■anond:20210216030510

昔は、簡単な統計処理ができればデータサイエンティストだったけど、

今は機械学習全盛期だから、その難易度は非常に高くなっている。

毎日投稿される増田の文章　というデータを収集し、

この増田が実際には何人の人間が書いているのか推定できれば、

データサイエンティストを名乗るのに十分な資格はあるだろう。

更に言うと、過去の増田の投稿データから新たな投稿内容を自動生成し、

自動生成した日記にトラバとブクマを２０くらい集められれば、

優秀なデータサイエンティストを名乗っても大丈夫だ。

Permalink | 記事への反応(0) | 04:15

2021-01-31

■anond:20210131214334

科学になりづらいからな。

科学は、明証ができるまで対象を小さくして、明証、分析、総合、枚挙を積み重ねて、批判に耐えうるものが正しいという考え。（デカルト）

個体差が少ない物理や数学や化学は実験したりして証明さえすればよい。

個体差が多いがサンプルが多い生物、医学、対象をしぼった心理学、経済学などは統計処理で有意性が見いだせればよい。

個体差が多いがサンプル数が少ないような学問分野は明証の時点でつまずいてしまう。心理学、経済学もそういう物はちらほらあるが、社会学、経営学あたりになってくると特異な一例を紹介しましたーみたいになってしまう。

Permalink | 記事への反応(0) | 21:56

2021-01-29

■AI使った合成音声ソフトについて

GoogleがWaveNetを出してから、合成音声も機械学習を使うようになった。

2021年では日本でも機械学習を使ったソフトウェアがいくつか販売される。

はてな的にはAIきりたんのNEUTRINOが話題となった。1/29に発表されたCevio AIの記事を見た人も中にはいるだろう。

ここでは個人的な感想を書いていきたいと思う。

個人的にはもっと クオリティが上がるものだと思っていた

人の歌声と区別できないとニュースタイトルでは付いているが、個人的はまだまだ違和感がある。

人間のボーカルを録音してピッチ修正をしている人だと、Melodyneでピッチ合わせすぎると機械っぽい音声になるから、わざと修正しないといったことを行うわけだが、

歌声合成ソフトでは「しゃくり」といった、わざと外して人間っぽさを出す。

実際にソフト開発側もわかっていて、マニュアルで修正する手段を用意しているので、それに引きずられてしまうのだが、

それ以前のところで人間ぽさが必要だと考えている。

声は複数の周波数を重ねてできたものであり、各周波数ごとに分解すると、基本周波数の2倍、3倍といった周波数の音が出ているのがわかる。

実際の人の声を分析すると、時間方向に微妙な揺らぎが存在するのがわかる。

また口を閉じた状態から声を出そうとすると、口が開くまでの音の変化など、ちゃんとした周波数が出ていない箇所がある。

機械音声の場合、ゆらぎがなく、〇〇周波数がピタッと出ており±15Hz揺らぐといったことがない。

ゆらぎについても、人間の声の場合、±50Hzから±15Hzへ変化するといったことが起こっているように見える。

見えると言っているのは、自分が声のデータを処理しているとなっているように見えているからであり、

これについて言及した文献を探せていない。

さきほど声には倍音があるといったが、倍音の数も人間の声では変化するが、機械音声ではずっと同じ数のままだ。

「あ～」のように伸ばした音の場合、ピッチ調整で波打つようなのを手書きしたことがあるDAW 経験者はいるだろうが、

人の声を調べると倍音の数が徐々に変わっていたりする。

現行のソフトでピッチ補正で波を手書きしても、元から上手く伸ばした声にならないといった苦労をした人がいると思うが、

この倍音が変化する機能がないからではないかと考える。

この辺りが機械学習で解決しているかというと、あまりなっていないように感じている。

思っていたよりクオリティが低いのだ。

なぜか。

一つの仮説だが、RNNやTransformerといった、ニューラルネットの構成ばかりに気にしていて、

音声をよくよく観測できていないのではないか。

何かしらかの演算で前処理を行ってからニューラルネットに入力するわけだが、

前処理段階で捉えられていない特徴量があるのではないだろうか。

また統計処理を行う際に、計算精度によって丸め込まれてしまっているのではないだろうか。

使い込んでいくと、より良い結果を出してくれるわけではない

プログラミングであれば徐々に自動化をする箇所を増やせるが、音声合成ソフトは自動化が出来ない。

何年経ったとしても、良くならないのだ。

この辺り、修正前と修正後のデータがあるのだから、学習していってより便利になればいいのだが、そうはならない。

データも少ないのでは

スマートスピーカーが出たり、日常的に音声を聞いているわけだが、音声を合成しようとしたときに使えるデータは案外少ない。

ちゃんとしたスタジオで録音したり、無響音室での録音した音声はない。

マイクの配置などでも変わってしまう。

ずっと声を出していると最初と最後で声も変わってくる。

日をまたぐと体調も変わってくる。

同じ条件でデータを揃えるといった場合、音声はデータが少ないんだろうなと思うのだ。

計算 リソースも足りてない

自分で合成音声をやってみるとわかるが、学習に計算リソースがかなりかかる。

日本語だと日本市場しかなく、しかも人の声のクオリティを超えているわけではないので、市場は小さい。

そのくせ機械学習には大量の計算リソースが必要となる。

Permalink | 記事への反応(2) | 21:14

2020-08-03

■anond:20200803023813

そもそも統計処理して金になるレベルのデータベースを持ってるのが地方にない。

別に仕事そのものが地方にある必要はないんじゃね？

ネット経由でいくらでも仕事落ちてるだろ。特に機械学習分野は腐るほど案件あるよ。

Permalink | 記事への反応(1) | 02:50

■anond:20200803023144

そもそも統計処理して金になるレベルのデータベースを持ってるのが地方にない。

技術持っても解決してお金になる課題が地方になく、結局Web屋さんの技術だったんじゃないかと。

Permalink | 記事への反応(1) | 02:38

2020-07-29

■anond:20200729170620

あんなあ

「統計学」を使って男女差を解析するのは「統計学」とは言わんのやで

統計学の講義をとったとするやろ？期末試験に出てくるのは、男女差か？女の子がピンク色を好む傾向があるようでーす、か？ちゃうやろ

試験に出るのは統計処理の方法やろ。検定はどれを使いますかー、とかそんなんやろ。

授業で例として男女差なんかを使うのかもしれんが、それは統計学ちゃうで

日本人とアメリカ人とか、試薬Aと試薬Bとか、マウスのオスとメスを授業で扱ったら

それが統計学になるんか？ちゃうやろ。

経済学でも、心理学でも、医学でも、工学でも、生物学でも化学でも統計学は使うで。

統計学は科学の基本や。データを集める。データを統計処理する。データから考察する。科学は再現性が命やから、主観でズレが出ないように数字を使う。

経済学の統計じゃ、消費行動の男女差を扱うかも知れへんし、医学の統計じゃ、大腸ガン罹患率の男女差を扱うかも知れへんけど、それは統計学じゃないんや？わかるか？

統計学は統計学で別の学問や。

君は統計学の学会で男女差について発表するんか？

こんな、手に負えない馬鹿はワイは初めて見たわ……

君は統計学の何を習ったんや……

Permalink | 記事への反応(0) | 17:38

2020-04-01

■疫学 データ

別に、不安な人の気持ちに寄り添うために全員PCR 検査しろなんて言うつもりは全くない。それはムダ。

だけど、いまみたいな過激な検査拒否の方針貫くと、感染についての正しい統計的知識も得られず、疫学的な対応もとりようがないと言うことになる気がするんだけど、それは取り越し苦労なのだろうか。例えば、統計的に感染や死亡が有意に少ないのであれば原因を推測してそこから打開策を探るような動きだってできるだろうけど、統計に信頼性がなければそれはできない。

今をときめくデータサイエンティストの皆様であれば、測定していない事象でもバッチリ統計処理ができちゃうのかな。それはそれであるのかもしれない。

Permalink | 記事への反応(4) | 19:06

2020-03-28

■製造業にいると、コンピュータが遠くなっていく

CPUをVHDL,Verilog,System-Verilogで書いたりした時もあった。

USB,HDMI,電池の充電制御,WiFi,自動車など色々やったが、コンピュータが遠くなっていく感じがある。

FPGAでCPUを書いてOSを起動させたとして、自分の普段の仕事環境が良くなるわけではない。

ソフトウェアでは次々と開発環境が良くなっていくし、自分で使いやすいようにカスタマイズもできる。

でもハードはそうではない。MS Officeは動くがメモリが4GBでカクカク。

作ったハードも自分達が使うわけじゃない。例えば100Gイーサ開発してもその恩恵は得られず1Gbpsが関の山だったりする。

C言語とアセンブラまではハードがどう動いているかわかるが、

Python,Go,R,C++,Rubyくらいになると書けるがどう動いてるかわからなくなってブラックボックス化する。

社会的には正しいのだが、自分が関わったハードと自分が書いたC/C++のコードを上位から呼び出すのはわかるが、

ハードが変わったらブラックボックスになる。ロジアナやオシロで見てわかるレベルであればいいが。

またソフト業界とのギャップも感じる。

PandasのTime seriesが時間を扱えるのかと思っていると、ピコ秒が扱えない。

これは1例に過ぎないが、Amazonや本屋で新刊が出ると買って勉強し、ライブラリの公式ドキュメントも読んでいくが、仕事に直結しない。

クラウド使ってディープラーニングのやり方は沢山情報はあるが、CPU内蔵GPUでメモリ4GB+FPGAでやる情報なんてない。

しかも電流量絞ってないと物理的に壊れる恐れもある。辛い。

そうそう、コロナでオーバーシュートが話題になったが、

オーバーシュートの場所を検出したり、統計処理するようなソフトもパッと出てこないので書いた。

このあたりもソフト業界とギャップを感じてしまう。オシロの機能としてあるわりに、手元のPCだと自作する羽目になる。

Permalink | 記事への反応(1) | 07:43

■ヤフコメ　 https://headlines.yahoo.co.jp/cm/main?d=20200327-00000093-asahi-sctch&topic_id=20200327-00000093-asahi

4日前、母(50代)が高熱、空咳、倦怠感、頭痛などを訴えたので病院を受診しました。同居の家族が数日前にインフルエンザだったので、インフルエンザだと疑わずインフルエンザの検査を受けました。その結果陰性。インフルエンザじゃないならコロナが疑わしいような症状だったにもかかわらず、コロナの検査をしてくれませんでした。抗生物質出されて終わり。本日最後の薬も飲み終わりましたが、熱も続いてるし、息苦しさまで訴えています。「肺か器官かわからないが痛い」と。誰構わず検査をしてほしい、検査数増やせと言ってる訳じゃないです。必要そうな人がいたら検査してくれるようにしてくれませんか？芸能人やスポーツ選手は軽症でも検査してくれるのに、なぜ検査してくれないんですか？この国では有名人と一般人の命の重さは違うんですね。本当に残念です。もしも亡くなったら普通の肺炎として統計処理されるのでしょうか。不信感しかありません。

Permalink | 記事への反応(3) | 06:42