「統計処理」を含む日記 RSS

はてなキーワード: 統計処理とは

2023-11-16

anond:20231116155919

わい素人、LLM見てから人間もそれっぽい統計処理適当乱数確率で動いてるだけなのでは、という気すらしてる

意識なんてなかった

2023-05-10

anond:20230510153536

絵師様のお気持ちを害した罪

というのは置いておいて、著作物統計処理するのが解釈によっては翻案権侵害ではないかという問題はあった

著作物依拠した別の形式データを生成しているので

合法と明言されたけど

2023-01-26

社会科学限界

研究成果の観点から学問特性

 

出典:文部科学省 人文学及び社会科学特性について

2022-11-13

anond:20221113163516

よし、今から恵美須町いってマイクロSDカード買ってくる(なんの連絡だよ)

じゃねえわ(誤爆)……アレだ二分化してるというか「Kintone」でガワとデータ入れるハコ作るだけでOKなのか、統計処理ゴリゴリに掛けるか、どっちかしかない感じ

2022-10-05

anond:20221005133555

ルナルナっぽく、うんこした日を記録するアプリが求められる。

統計処理して次のうんこがいつ頃でるか予測してくれる。

2022-09-04

anond:20220904094730

わざとずらしてるんだと思うよ。だって統一教会みたいな連中は口先と心理把握で人を騙して金をせびる組織なんだから

心理プロ。ただし心理なんて科学的立証をしようと思えば振れをなくすために統計処理しないとならんから、手間隙かかる。観察だけですんでいるという意味詐欺組織は本職の心理学の学者よりも強い側面はあると思うな。

一つ一つ騙してるやつを「あなた騙そうとしてますよね」と皆の前で論破し続ければいい。向こうもたまたま騙しに引っかかるうやつが引っかかればいいぐらいに思ってないか無限ループではあるだろう。無限ループを続けるしかない。

なんとかこの事件きっかけに縛る法整備までいかないとね。

2022-07-17

anond:20220717110205

いや?外形的に金の動きと他人への勧誘を抑えるしかできないだろ。加えて、カルト宗教なしでも救われるように金銭公助と、精神医療につなげること。

科学が馴染むような振れがすくなかったり、統計処理できる案件じゃないんだから

キリスト教聖書が正しいかプロテスタント)、聖職者が正しいかカトリック)にすら解を出せずに大戦争となった。最もその戦争従事した兵士デカルトで、明証分析総合枚挙からなりと、合理的批判に耐えられた知識は正しいと科学を作ったが。

でもデカルトでもプロテスタントカトリックかどちらかには答えを出せてない。

2022-06-04

anond:20220604092520

理論科学で断定できないことが多いからじゃない?

科学って、振れが多い案件は、条件を整えて数を増やして統計処理でもしないと何も言えない。

けど人間の心って条件整えられないもののほうが多いから。そして、女は男よ理もだいぶ人間の心を見ている。

2022-03-15

anond:20220315223326

医者が頭良ければ、確かにその理屈は成り立つ。

ほんとに頭がよければな。

お金がなければ人は死ぬことも理解できないような馬鹿が、統計処理の特化のウイルスワクチン、薬等の理解が優れてると考えれんわ。

ほんとコロナ医者に対してはうんざりした。

2021-11-11

anond:20211111114400

統計処理してポジティブネガティブぐらい今時自動で判定できるでしょ

政治って人気商売なんだから鵜呑みにしなくてもいいけど参考にはするんじゃないの?

2021-09-22

子供より大人のほうが信号無視」のニュースについて思うこと

正直、笑えないニュースだと思っている。

まず最初に言っておくと、この自由研究をした小学生が責められる必要は全くない。自由研究としては素晴らしいものだと思う。今後も観察やデータ分析重要性に目を向けていってほしい。

あと、小学生に対して大人げないツッコミをしている諸兄はちょっと自制しような?お前らの大半も小学生時代統計処理なんて理解してなかっただろ。

じゃあ、なんでこれが笑えないかというと、日本におけるデータサイエンスやEBPM (Evidence-based Policy Making) の様を端的に表してしまっているように思えて仕方がないかである

以下、NHK記事引用する。もちろん小学生文句を言いたいわけではないので名前は伏せる。

**さんは、自宅近くの幹線道路交差点交通事故が起きたこから問題意識を持ち、夏休みのことし7月27日に朝と昼と夕方のそれぞれ1時間、この交差点を観察し、信号無視をした人を調べました。

その結果、▼子どもは14人中0人だった一方で、▼大人は833人中78人、▼お年寄りは104人中12人と、子どもよりも大人のほうが信号無視する傾向がみられたということです。

交差点警察官がいた朝の時間帯に限ると信号無視する人はほとんどいませんでしたが、警察官がいなかった2日後に改めて観察してみると、この時間帯でも信号無視が相次いだということです。

この自由研究交通安全の啓発につながったとして、秋の全国交通安全運動初日の21日、神戸市の葺合警察署から**さんに感謝状が贈られました。

これって自由研究方向性警察が主張したい話、つまり

ということとマッチしてしまってるんだよ。もちろん、小学生意図とは別だとは思うけど。

もし、小学生が「警察官が居ても居なくても横断抑止に効果がない」という結果を出しちゃうと、仮にそれが事実を反映したもの統計的有意だったとしても、自由研究として評価されることはないだろうね。

これが自由研究だけなら良いんだけど、残念ながらいわゆる研究というかデータサイエンスの分野やEBPMでもよくある話なんだよな。もはや周知の事実か。

政府自治体などの政策立案正当化するためにデータを集めて都合よく評価するみたいな事例が死ぬほど多い。パラメータデータを調整して如何に主張に辻褄を合わせるか。

証拠捏造と違って一応辻褄は合っているかウソかって言うと難しいところだし、政府自治体査読なんて無く、「○○大学研究によれば」と公表されてしまう。

御用学者とまでは言わないけど、結果的政策に都合の良い結果を出した方が評価されがち。

EBPMの逆、「policy-based evidence making」や「policy-based evidence gathering」と批判されてんだわ。

最近の有名どころだと三菱総研コロナ感染者数予測が叩かれてたな。まさにこれよ。

https://www.tokyo-np.co.jp/article/110157

自由研究のほのぼのニュースを見て、こういう状況を思い出してしまったという話。

2021-09-02

PDF公開はいらない

https://www.digital.go.jp/posts/kMccIpBR

この記事ブコメがまぁまぁひどい。

論点

デジタル庁ともあろうもの役員人事の情報PDFだけで公開するのはどうしたものか」

という点なんだけど、やたらPDF擁護派が目立つ。

そもそもデジタル化(デジタライゼーション)とは

これまで紙文書として管理していたものWordExcelPDFにして管理することで

無駄プリンターでの印刷や紙媒体の保存などから脱却する、というのはデジタル化ではなくて単にペーパーレス

デジタル化というのはそれらの文書管理されていた情報構造化されたデータ統一

検索可能にしたり統計処理可能にしたりすることで業務効率化や解析による知見の発見を目指すもの

単に人事情報をPDF化したり、それをHTML化したりしてもまったくデジタル化ではない

大手企業とか政府とかならPDFHTMLになる前にシステムに投入してるんでしょ?」

と思う人が多いかもしれないが、実体としては大手企業政府ほどそういうシステム導入がされておらず

実質的に共有フォルダに置かれたPDFファイル管理されていたりする

これには定期的な人事異動が関連していて、システムを導入するとシステム操作の習熟という引き継ぎが発生してしまうために業務効率が悪い

それよりも一般常識化しつつある共有フォルダに設置されたPDFPPTを閲覧してもらったり編集して貰う方が誰でもできるし効率的、という現実があるためだったりする

この辺がPDF擁護派が本来主張しなければいけない部分

デジタル化の肝

こういった状況の大手企業政府に対してデジタル化を推進してもらうために取るべき方策は下記の通り

この3つを全て進めていかないとデジタル化はただのペーパーレス化になる

よくあるのは2つ目だけが行われ、慣例的に文書管理されているPDFファイルを共有フォルダではなくシステム投入するだけのデジタル化だ

結局データ解析できないからそのPDFOCRしようとかいう謎のムーブメントを見せたりするが

PDFに書かれている内容が構造化されていないので当然ながらデータ化できず、解析もできない

よくある領収書とか請求書とかは解析ができたりするがそういうのはそもそも電子的にやりとりされていてやる必要が無く

社員による立て替え払いの時だけ発生していたのがデジタル化されてお茶を濁される

PDFを公開することの何がダメ

「内部でPDF管理しているんだから公開するときはそのファイルリンクすればいいよね」

という安易な考え方に基づいてるのがPDFファイルWeb公開

まり1つ目の業務単位での見直しができていないし、2つ目のデータ構造化も行われていないだろうということが予想できる

また3つ目の利用者メリットのことを考えてみても、この役員人事の情報PDFで貰わないと困る一般人など存在しない

どうしても印刷したい人とか、どうしても自分管理している共有フォルダに置きたい人、なんかはいるのかもしれないが

それにしてもHTML表示されているものを保存するなり印刷すればよい

それよりもスマホで見ているのにA4縦の形式で表示される方がよっぽど不利益が大きい

デジタル化することで構造的なデータにさえなれば、表示する媒体に合わせてレイアウトを変えることは難しくない(大変ではあるが)

また、もしかしたら別の省庁や地方自治体とかがPDF保存している、というのは2つ目の統一的なシステム化ができていないことを意味する

まぁそもそもそれが本当に必要かという話にはなるだろう

PDFであれば改変ができないので公文書には最適」

などという意見もあったりするが、そもそもPDFであれば改変できないというわけではないし

今時なら画面キャプチャしてOCRをかければほぼ同じものが出来てしまうのでほぼ無意味である

それよりもTLS化されているURLで改変されていないことを保証することの方が何倍も役に立つ

結局のところPDFでこの手の情報を公開することには何のメリットもないが、ペーパーレス化のレベルで止まってしまうとPDFメリットばかりを主張しがちになってしま

今回のPDF公開は何がダメ

結論から言うと別にダメではない

発足したばかりの組織上記の3つをいきなり解決できるわけがない

これから少しずつデジタル化していくのだろう

ただ、一番大変なのは業務見直しである

この慣例的に行われているPDFファイル公開をやめる・やめさせるのは大変に骨が折れる

単純に「やめなさい」と下達的に言うだけなら簡単だが

そうなると結局はPDF管理HTML編集の2倍の工数がかかって実務者の反発しか生まない

更にはPDFHTMLの二重管理になってしまって不整合が発生する、なんていうのも想像できる

業務見直しシステムを入れ、利用者作業者メリットを与える、という3つを同時に進めないと上手くいかない

大きな組織でこれをやるのは非常に骨が折れるだろうが頑張って欲しい

PDF公開が無くなったときにはこれほどの大きな調整が行われたのだ、と素直に喜びたい

2021-03-22

anond:20210321175231

科学にできないからだと思うよ。

科学にするには、原則的に振れがない状態で一発確実な結果が出るか、振れがあっても条件を揃えて統計処理して、めったに起きないことが起きたから正しいと有意である必要がある。

人の心って、ケースバイケースだから、どちらも取れないからが科学しづらい。承認欲求からベースに考え直したら案外わかることも多いだろうと思うけどね。

2021-02-16

anond:20210216030510

昔は、簡単統計処理ができればデータサイエンティストだったけど、

今は機械学習全盛期だから、その難易度は非常に高くなっている。


毎日投稿される増田文章 というデータ収集し、

この増田が実際には何人の人間が書いているのか推定できれば、

データサイエンティストを名乗るのに十分な資格はあるだろう。

更に言うと、過去増田投稿データから新たな投稿内容を自動生成し、

自動生成した日記トラバブクマを20くらい集められれば、

優秀なデータサイエンティストを名乗っても大丈夫だ。

2021-01-31

anond:20210131214334

科学になりづらいからな。

科学は、明証ができるまで対象を小さくして、明証、分析総合枚挙を積み重ねて、批判に耐えうるものが正しいという考え。(デカルト

個体差が少ない物理数学化学実験したりして証明さえすればよい。

個体差が多いがサンプルが多い生物医学対象をしぼった心理学経済学などは統計処理有意性が見いだせればよい。

個体差が多いがサンプル数が少ないような学問分野は明証の時点でつまずいてしまう。心理学経済学もそういう物はちらほらあるが、社会学経営学あたりになってくると特異な一例を紹介しましたーみたいになってしまう。

2021-01-29

AI使った合成音声ソフトについて

GoogleがWaveNetを出してから、合成音声も機械学習を使うようになった。

2021年では日本でも機械学習を使ったソフトウェアがいくつか販売される。

はてな的にはAIきりたんのNEUTRINOが話題となった。1/29に発表されたCevio AI記事を見た人も中にはいるだろう。


ここでは個人的感想を書いていきたいと思う。


個人的にはもっとクオリティが上がるものだと思っていた

人の歌声区別できないとニュースタイトルでは付いているが、個人的はまだまだ違和感がある。

人間ボーカルを録音してピッチ修正をしている人だと、Melodyneピッチ合わせすぎると機械っぽい音声になるから、わざと修正しないといったことを行うわけだが、

歌声合成ソフトでは「しゃくり」といった、わざと外して人間っぽさを出す。

実際にソフト開発側もわかっていて、マニュアル修正する手段を用意しているので、それに引きずられてしまうのだが、

それ以前のところで人間ぽさが必要だと考えている。


声は複数周波数を重ねてできたものであり、各周波数ごとに分解すると、基本周波数の2倍、3倍といった周波数の音が出ているのがわかる。

実際の人の声を分析すると、時間方向に微妙な揺らぎが存在するのがわかる。

また口を閉じた状態から声を出そうとすると、口が開くまでの音の変化など、ちゃんとした周波数が出ていない箇所がある。

機械音声の場合、ゆらぎがなく、〇〇周波数ピタッと出ており±15Hz揺らぐといったことがない。


ゆらぎについても、人間の声の場合、±50Hzから±15Hzへ変化するといったことが起こっているように見える。

見えると言っているのは、自分が声のデータを処理しているとなっているように見えているからであり、

これについて言及した文献を探せていない。


さきほど声には倍音があるといったが、倍音の数も人間の声では変化するが、機械音声ではずっと同じ数のままだ。

「あ~」のように伸ばした音の場合ピッチ調整で波打つようなのを手書きしたことがあるDAW経験はいるだろうが、

人の声を調べると倍音の数が徐々に変わっていたりする。

現行のソフトピッチ補正で波を手書きしても、元から上手く伸ばした声にならないといった苦労をした人がいると思うが、

この倍音が変化する機能がないからではないかと考える。


この辺りが機械学習解決しているかというと、あまりなっていないように感じている。

思っていたよりクオリティが低いのだ。


なぜか。


つの仮説だが、RNNやTransformerといった、ニューラルネット構成ばかりに気にしていて、

音声をよくよく観測できていないのではないか

何かしらかの演算で前処理を行ってからニューラルネット入力するわけだが、

前処理段階で捉えられていない特徴量があるのではないだろうか。

また統計処理を行う際に、計算精度によって丸めまれしまっているのではないだろうか。



使い込んでいくと、より良い結果を出してくれるわけではない

プログラミングであれば徐々に自動化をする箇所を増やせるが、音声合成ソフト自動化が出来ない。

何年経ったとしても、良くならないのだ。

この辺り、修正前と修正後のデータがあるのだから学習していってより便利になればいいのだが、そうはならない。



データも少ないのでは

スマートスピーカーが出たり、日常的に音声を聞いているわけだが、音声を合成しようとしたときに使えるデータは案外少ない。

ちゃんとしたスタジオで録音したり、無響音室での録音した音声はない。

マイクの配置などでも変わってしまう。

ずっと声を出していると最初最後で声も変わってくる。

日をまたぐと体調も変わってくる。


同じ条件でデータを揃えるといった場合、音声はデータが少ないんだろうなと思うのだ。


計算リソースも足りてない

自分で合成音声をやってみるとわかるが、学習計算リソースがかなりかかる。

日本語だと日本市場しかなく、しかも人の声のクオリティを超えているわけではないので、市場は小さい。

そのくせ機械学習には大量の計算リソース必要となる。

2020-08-03

anond:20200803023813

そもそも統計処理して金になるレベルデータベースを持ってるのが地方にない。

別に仕事のもの地方にある必要はないんじゃね?

ネット経由でいくらでも仕事落ちてるだろ。特に機械学習分野は腐るほど案件あるよ。

anond:20200803023144

そもそも統計処理して金になるレベルデータベースを持ってるのが地方にない。

技術持っても解決してお金になる課題地方になく、結局Web屋さんの技術だったんじゃないかと。

2020-07-29

anond:20200729170620

あんなあ

統計学」を使って男女差を解析するのは「統計学」とは言わんのやで

統計学講義をとったとするやろ?期末試験に出てくるのは、男女差か?女の子ピンク色を好む傾向があるようでーす、か?ちゃうやろ

試験に出るのは統計処理方法やろ。検定はどれを使いますかー、とかそんなんやろ。

授業で例として男女差なんかを使うのかもしれんが、それは統計学ちゃう

日本人アメリカ人とか、試薬Aと試薬Bとか、マウスのオスとメスを授業で扱ったら

それが統計学になるんか?ちゃうやろ。

経済学でも、心理学でも、医学でも、工学でも、生物学でも化学でも統計学は使うで。

統計学科学の基本や。データを集める。データ統計処理する。データから考察する。科学再現性が命やから主観でズレが出ないように数字を使う。

経済学統計じゃ、消費行動の男女差を扱うかも知れへんし、医学統計じゃ、大腸ガン罹患率の男女差を扱うかも知れへんけど、それは統計学じゃないんや?わかるか?

統計学統計学で別の学問や。

君は統計学学会で男女差について発表するんか?

こんな、手に負えない馬鹿はワイは初めて見たわ……

君は統計学の何を習ったんや……

2020-04-01

疫学データ

別に不安な人の気持ちに寄り添うために全員PCR検査しろなんて言うつもりは全くない。それはムダ。

だけど、いまみたいな過激検査拒否方針貫くと、感染についての正しい統計的知識も得られず、疫学的な対応もとりようがないと言うことになる気がするんだけど、それは取り越し苦労なのだろうか。例えば、統計的感染や死亡が有意に少ないのであれば原因を推測してそこから打開策を探るような動きだってできるだろうけど、統計信頼性がなければそれはできない。

今をときめくデータサイエンティストの皆様であれば、測定していない事象でもバッチリ統計処理ができちゃうのかな。それはそれであるのかもしれない。

2020-03-28

製造業にいると、コンピュータが遠くなっていく

CPUVHDL,Verilog,System-Verilogで書いたりした時もあった。

USB,HDMI,電池の充電制御,WiFi,自動車など色々やったが、コンピュータが遠くなっていく感じがある。


FPGACPUを書いてOSを起動させたとして、自分普段仕事環境が良くなるわけではない。

ソフトウェアでは次々と開発環境が良くなっていくし、自分で使いやすいようにカスタマイズもできる。

でもハードはそうではない。MS Officeは動くがメモリが4GBでカクカク。

作ったハード自分達が使うわけじゃない。例えば100Gイーサ開発してもその恩恵は得られず1Gbpsが関の山だったりする。


C言語アセンブラまではハードがどう動いているかわかるが、

Python,Go,R,C++,Rubyくらいになると書けるがどう動いてるかわからなくなってブラックボックス化する。

社会的には正しいのだが、自分が関わったハード自分が書いたC/C++コードを上位から呼び出すのはわかるが、

ハードが変わったらブラックボックスになる。ロジアナオシロで見てわかるレベルであればいいが。


またソフト業界とのギャップも感じる。

PandasのTime seriesが時間を扱えるのかと思っていると、ピコ秒が扱えない。

これは1例に過ぎないが、Amazon本屋新刊が出ると買って勉強し、ライブラリ公式ドキュメントも読んでいくが、仕事に直結しない。

クラウド使ってディープラーニングのやり方は沢山情報はあるが、CPU内蔵GPUメモリ4GB+FPGAでやる情報なんてない。

しか電流量絞ってないと物理的に壊れる恐れもある。辛い。


うそう、コロナオーバーシュート話題になったが、

オーバーシュート場所を検出したり、統計処理するようなソフトもパッと出てこないので書いた。

このあたりもソフト業界ギャップを感じてしまう。オシロ機能としてあるわりに、手元のPCだと自作する羽目になる。

ヤフコメ https://headlines.yahoo.co.jp/cm/main?d=20200327-00000093-asahi-sctch&topic_id=20200327-00000093-asahi

4日前、母(50代)が高熱、空咳、倦怠感、頭痛などを訴えたので病院受診しました。同居の家族が数日前にインフルエンザだったので、インフルエンザだと疑わずインフルエンザ検査を受けました。その結果陰性。インフルエンザじゃないならコロナが疑わしいような症状だったにもかかわらず、コロナ検査をしてくれませんでした。抗生物質出されて終わり。本日最後の薬も飲み終わりましたが、熱も続いてるし、息苦しさまで訴えています。「肺か器官かわからないが痛い」と。誰構わず検査をしてほしい、検査数増やせと言ってる訳じゃないです。必要そうな人がいたら検査してくれるようにしてくれませんか?芸能人スポーツ選手は軽症でも検査してくれるのに、なぜ検査してくれないんですか?この国では有名人一般人の命の重さは違うんですね。本当に残念です。もしも亡くなったら普通肺炎として統計処理されるのでしょうか。不信感しかありません。

ログイン ユーザー登録
ようこそ ゲスト さん