はてなキーワード: mecabとは
または「すいません、名刺は切らしておりまして...」と言うのが板につくようになるまで。
あー、もうかれこれ10年も経過するのか、と思うと感慨深くなる。ヤクザのような(自称)プログラマーに騙されて、多重請負を転々とする羽目になったのも昔の話だ。語尾に「かなーと。」をつけるテック系に誘い込もうとするインフルエンサー達にノコノコついていく若者たちの末路はどうなるのかというのを、オジサンが教えなくてはいけない時期にきていると思い、書き込むことにした。
さて、冒頭に挙げた人物を「A氏」とする。もちろん実在するし、なんなら本まで出版している。今ではツイッターやユーチューバーとして発信している。全く売れてないし、内容も洋書をパクってきたものなので、まったく価値はないがね。
A氏との出会いは、とある SNS だった。ちょっと、嘘を書くが、「どうかな、いちどうちに来ない?」というので、ためしに行ってみると「マーチの文系学生にコーチする、反社会団体に所属してそうなお兄さん」がそこにはいた。
うわぁ、と思ってポカーンとしていたら、「せっかくなので、彼らが作っている課題をやってみて」という。ふむ、と思って、すぐに仕上げた。まぁ、当時の自分は【経歴がクソ】ということを除けば HTML/CSS を使ってブログをやっていたし、Java/Ruby/PHP/JavaScript/Objective-C をひと通り書けたし、Linux の初歩や SQL を勉強していたし、AWS にてサービスを運用するぐらいには気力があったので、当然ではある。
どんなもんだーい、と思ってコードを得意げにみせると、彼の表情は厳しい。A氏は「なにこれ?」というのだ。確かに【わざと】再帰を使って記述したが、シンプルに仕上げたつもりだ。それで「なにって、再帰ですよ?」とかえすと、A氏の表情はみるみるうちに厳しくなっていった。
「ちょっと、バックヤードにおいでや」というので、共同スペースの給湯室に行く。そこで「なんで履歴書を持ってこないの?」からはじまって、散々ディスられて「1日棒に振ったなぁー」という表情していたら、ますます怒らせたらしく、「キミは態度も顔も悪いねー」と言われ、さすがの俺もブチギレる。
もう時間の無駄だから帰ろうとしたら、「ポートフォリオを作ってこい、出来が良ければサ●バーエ●ジェントに紹介する」というじゃないですか。いやぁ、甘かったね、当時の自分は。そんなの、嘘に決まってるじゃないですか。でも、信じちゃったのですよね。
そのあと履歴書を書かされ、【未】登録の派遣事業の会社員(正社員でなく、保険もなし)となり、禁止されている事前面接をされて、客先常駐に無事にはめ込まれましたね。ぶっちゃけ、ここまでは「世間知らずが身ぐるみ剥がされたね、勉強になったね」でおしまいなんですよ。ええ。
本当に書きたいことは、ここからだ。この A氏という人物が許せないのだ。どう許せないかというと「プログラミングや計算機科学に対して愛はないのに、人工知能のことは語れる」と本気で思っているからだ。
知っている人は当然なんだが、【教師なし学習】といった類のものは 1970年代には存在しているのだ。【深層学習】なんてものも、1970年頃には理論は完成していたのだ。どうして、21世紀になるまで注目されなかったのか?それは、ハードウェアの能力が不足しているからだ。そして、未だに不足している。加えて、場末の中小企業が努力しても手に入れられないものがある。それは、【教師あり学習】に必要な音・画像データだったりする。こればかりは、グーグルやマイクロソフトを超えてくる会社は日本にはない。
まぁ、世の中には仕方のないものがある。別のところで勝負しよう。じゃあ、どう勝負するか?そりゃ『技術』でしょ、と普通は思うよね。それが、A氏は違うのですよ。彼の場合は、源泉は「学生を利用する」という戦略をとったわけ。そう、ベンチャー企業がやりがちな「やりがい搾取」ってやつだ。
はっきり言って、社会人をちょっとやったら、彼の言っていることが「感覚的におかしい」というのがわかるのだ。例えば「未認可の派遣事業をやっている」「インターンの成果物で営業する」「講演会や執筆ばっかやってる」とかね。あと、勝手に祝賀会とかに行って「有名人とツーショット」を撮ってくるのよ。その写真でマウンティングしてくるのは、真正のキチガイの所作だと思ったよね。
ちなみに、A氏はアメリカの名門大を出ている(arxivに論文あったからマジ)が、計算機科学じゃないのよね。とある彼の手記を読むと「友人がこれからはAI」と言っていたからスタートしたらしいですのよ。逆算すると、勉強期間はたったの 1年。絶対に無理だってばよ。当時の自分ですら「再帰を知らない人をプログラマーと認めたくない」と思ったし、こいつ計算機科学の知識はゼロに近いと感じたもんね。
A氏の名誉のために書くと、努力はしてたとは思うよ。彼のブログを読んだら、Mecab やら TF をさわっていたしね。まあ、でも、それでも本をかけるほどの実力はないよ。だって、オレ知ってるもん。彼がラ○サーズに執筆依頼していたの見ちゃったし、インターン生に代筆させてたから。
(疲れたので、途中で書くのやめます。どうしてスキルのない AI人材に執筆依頼がくるのか、なぜ A氏はAIにすがるのか、出羽守AI人材に未来はあるのか、は希望があればやります。)
諸君は巨乳と聞いたとき大体どのくらいの大きさを想像するだろうか。EカップやFカップ?それともGカップだろうか。世の中には巨乳の最頻値がHカップであり中にはQカップなどという存在が出てくる分野が存在する。それはユーザ投稿サイトの男性向けエロ小説である。
本稿ではノクターンノベルズ*1に投稿された短編を解析することで男性向けジャンルで好まれるバストサイズの変遷を調べる。特に読者・作者に巨大と認識されるカップサイズが年を重ねる毎に増大していることを明らかにする。(なぜそんなこと調べたのかというと、小説漁りしてる時になんか最近極端に大きなバストサイズが多いなーって感じたから。以上!)本文章は男のアホさをご了承の上、特に女性の方々におかれましてはリアリティの欠如や空想すぎる産物への指摘を留めて頂き、男ってバカだなぁと笑って読んで下さい。
*1 株式会社ナイトランタンの提供する男性向け18禁版小説家になろう
2006年から2020年までの各年(2020年のみ12月29日まで)に投稿された短編を総合ポイントの高い順に百本抽出した。そして各小説の調査フィールド(タイトル、概要、タグ、本文)に対して、MeCab+mecab-ipadic-NEologd(およびAからZまでのカップ数を羅列したユーザ辞書)による形態素解析を実行し、キーワードの出現回数を数えた。検証対象を短編に制限した理由は、キャラクター内面の作り込める長編小説と異なり、R18短編小説は表面上の属性(巨乳とか巨乳とか)が市場の潜在的な需要を反映する傾向にあると考えたからである。すべてのコードは Python 3 で実装した(実装としては年齢認証を突破するため適当に Selenium 叩いているだけ。コードとデータが欲しいという物好きがいたら github にでも上げるので言って下さい)。注意点として、小説ポイントは積み上げ式であるため、当時は人気がなかったが後年に人気が出てポイントが上がった可能性は排除できない。よって当時の人気を厳密に反映しているわけではなく、現時点での総合人気ということでご容赦を。
はじめに検証対象となる短編の総投稿本数を示す。各年の短編投稿本数は以下の表1の通り年々上昇している。
2006 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 | 2018 | 2019 | 2020 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
26 | 117 | 238 | 218 | 163 | 387 | 342 | 488 | 651 | 834 | 911 | 1103 | 1668 | 1165 | 2470 |
表2は本研究のメインデータとなる、調査フィールド(小説のタイトル、概要、タグそして本文)にバストサイズに関連するキーワードを含む短編の数である。ヘッダーのAからRはカップ数を表している。なおOカップ、Pカップ、およびSカップ以降は出現しなかったため省いている。表3は表2の均していないデータ、つまり調査フィールドでのキーワードの出現合算(連呼頻度)である。
表2 | A | B | C | D | E | F | G | H | I | J | K | L | M | Q | R | # | 貧乳 | 巨乳 | 爆乳 | 表3 | A | B | C | D | E | F | G | H | I | J | K | L | M | Q | R | # | 貧乳 | 巨乳 | 爆乳 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2006 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 1 | 3 | 0 | 2006 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 2 | 11 | 0 | |
2007 | 1 | 0 | 1 | 3 | 2 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 0 | 6 | 1 | 2007 | 2 | 0 | 3 | 4 | 2 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 0 | 16 | 3 | |
2008 | 1 | 4 | 3 | 3 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 0 | 7 | 0 | 2008 | 2 | 7 | 7 | 5 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 0 | 10 | 0 | |
2009 | 1 | 1 | 0 | 0 | 0 | 3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 2 | 7 | 2 | 2009 | 2 | 3 | 0 | 0 | 0 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 4 | 29 | 4 | |
2010 | 0 | 3 | 0 | 0 | 0 | 2 | 2 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 2 | 5 | 0 | 2010 | 0 | 3 | 0 | 0 | 0 | 2 | 2 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 2 | 11 | 0 | |
2011 | 0 | 0 | 2 | 1 | 1 | 0 | 2 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 3 | 16 | 8 | 2011 | 0 | 0 | 2 | 1 | 1 | 0 | 8 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 7 | 48 | 21 | |
2012 | 0 | 2 | 2 | 2 | 0 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 1 | 15 | 3 | 2012 | 0 | 7 | 2 | 4 | 0 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 1 | 29 | 3 | |
2013 | 1 | 2 | 0 | 3 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 1 | 9 | 3 | 2013 | 2 | 2 | 0 | 3 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 1 | 12 | 4 | |
2014 | 2 | 2 | 5 | 0 | 2 | 2 | 3 | 3 | 5 | 2 | 1 | 2 | 2 | 0 | 0 | # | 4 | 24 | 10 | 2014 | 4 | 2 | 5 | 0 | 7 | 2 | 4 | 5 | 18 | 3 | 1 | 4 | 2 | 0 | 0 | # | 9 | 54 | 27 | |
2015 | 0 | 0 | 1 | 1 | 1 | 2 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | # | 4 | 23 | 5 | 2015 | 0 | 0 | 1 | 7 | 1 | 6 | 2 | 1 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | # | 4 | 54 | 36 | |
2016 | 1 | 1 | 0 | 1 | 1 | 0 | 2 | 2 | 2 | 1 | 1 | 0 | 0 | 0 | 1 | # | 4 | 22 | 9 | 2016 | 1 | 1 | 0 | 1 | 1 | 0 | 2 | 4 | 3 | 1 | 1 | 0 | 0 | 0 | 1 | # | 12 | 48 | 30 | |
2017 | 0 | 2 | 1 | 0 | 2 | 1 | 0 | 4 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | # | 9 | 32 | 10 | 2017 | 0 | 2 | 2 | 0 | 4 | 1 | 0 | 16 | 1 | 6 | 0 | 0 | 5 | 0 | 0 | # | 15 | 101 | 33 | |
2018 | 1 | 1 | 2 | 0 | 2 | 2 | 2 | 4 | 3 | 0 | 2 | 0 | 0 | 0 | 0 | # | 7 | 34 | 8 | 2018 | 1 | 3 | 2 | 0 | 4 | 2 | 9 | 6 | 6 | 0 | 3 | 0 | 0 | 0 | 0 | # | 8 | 134 | 53 | |
2019 | 0 | 0 | 0 | 0 | 1 | 2 | 4 | 4 | 4 | 4 | 5 | 1 | 1 | 0 | 0 | # | 3 | 37 | 22 | 2019 | 0 | 0 | 0 | 0 | 1 | 4 | 9 | 8 | 17 | 19 | 9 | 2 | 3 | 0 | 0 | # | 11 | 95 | 120 | |
2020 | 1 | 0 | 0 | 0 | 2 | 4 | 8 | 10 | 1 | 3 | 2 | 1 | 0 | 1 | 0 | # | 5 | 43 | 18 | 2020 | 1 | 0 | 0 | 0 | 6 | 6 | 13 | 13 | 2 | 5 | 10 | 1 | 0 | 10 | 0 | # | 8 | 116 | 216 | |
合計 | 9 | 18 | 17 | 14 | 18 | 24 | 25 | 30 | 17 | 11 | 11 | 4 | 4 | 1 | 1 | # | 46 | 283 | 99 | 合計 | 15 | 30 | 24 | 25 | 31 | 34 | 50 | 60 | 49 | 34 | 24 | 7 | 10 | 10 | 1 | # | 84 | 768 | 550 |
これらの表よりノクターンノベルズにおいて次のような傾向が存在することが分かる。
以上よりノクターンの短編部門においてカップ数のインフレ傾向が存在することは立証できた。しかしここまで読んできて次のような疑問を抱かなかっただろうか。カップ数の増大は確かだがそれと物理的な乳房のサイズ増大(概ねトップサイズと対応)との相関は直ちに結びつかないのではないか。そう「ロリ巨乳」の存在である。すなわち巨乳と判定されるトップサイズ(90cmとか)は高止まりしており、アンダーサイズの方が減少しているのではないか。
この推測に対し同データを利用して、身長を表す120cmから199cmまでの語を含む短編数を調べた(表4)。下限を120cmに限定した理由は100cm付近だとバストサイズが引っかかる可能性(実際あるのよ…)があるからである。また低身長、ロリ、ロリ巨乳、巨乳についてのデータも右列に併記する(160cmやロリ、ロリ巨乳、巨乳を正しく分類できる NEologd は凄いぞ)。身長の分布に顕著な差が見られないことおよび巨乳の増大率に対してロリ巨乳の増大率が低いことから、低身長の増加を加味しても2014年以降のカップ数のインフレを吸収しているとは考えにくい。したがって近年のカップサイズインフレ傾向はトップサイズの増大によるものだと推測できる。
表4 | 120cm-129cm | 130cm- | 140cm- | 150cm- | 160cm- | 170cm- | 180cm- | 190cm-199cm | # | 低身長 | ロリ | ロリ巨乳 | 巨乳 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2006 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 0 | 5 | 0 | 3 |
2007 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 0 | 17 | 0 | 6 |
2008 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 0 | 19 | 0 | 7 |
2009 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | # | 0 | 20 | 0 | 7 |
2010 | 0 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | # | 0 | 9 | 0 | 5 |
2011 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | # | 0 | 12 | 1 | 16 |
2012 | 0 | 0 | 1 | 0 | 0 | 2 | 0 | 0 | # | 0 | 8 | 1 | 15 |
2013 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | # | 0 | 8 | 0 | 9 |
2014 | 0 | 0 | 0 | 0 | 4 | 3 | 0 | 0 | # | 0 | 9 | 1 | 23 |
2015 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 1 | # | 0 | 19 | 2 | 23 |
2016 | 0 | 0 | 1 | 2 | 0 | 0 | 0 | 0 | # | 0 | 23 | 2 | 22 |
2017 | 0 | 1 | 4 | 7 | 4 | 4 | 1 | 0 | # | 0 | 20 | 1 | 32 |
2018 | 0 | 0 | 6 | 3 | 3 | 4 | 4 | 3 | # | 0 | 25 | 9 | 34 |
2019 | 0 | 1 | 5 | 1 | 1 | 1 | 0 | 1 | # | 1 | 15 | 8 | 37 |
2020 | 0 | 2 | 4 | 4 | 2 | 2 | 3 | 0 | # | 6 | 15 | 8 | 43 |
合計 | 0 | 4 | 25 | 19 | 14 | 17 | 9 | 5 | # | 10 | 224 | 33 | 282 |
作品名は挙げないが、一つの作品のタイトル、概要、タグ、本文全て含め、最も連呼されたいたのは、IカップとJカップである。それぞれ2万とちょっと文字数の中に8回出現していた。なお、爆乳は2万文字で21回、巨乳については8千文字で29回であった。後者については理由があり、作中で「巨乳ちゃん」が連呼されるからである(25回)。前者は全てそのままの意味で出現する。
本分析より、ノクターンノベルズの短編小説において巨乳の定義がインフレ傾向があることが分かった。これは小説描写においてはビジュアルを描写するコストが低いこと、すなわちデザイン面で人体のバランスを取る必要がないため、(本人の常識の範囲内で)自由にバストサイズを設定できるからであるためと思われる。小説描写においてバストサイズは大中小のどこかのカテゴリに入れば十分であり、また前述のように小と中は既に共通認識が固定化されているため、その範囲はどこまでが大か(かつ著者が興奮できるか)により決定されるからである。
真面目なのはここまで。インフレしている理由は単純に男は大きい数字が好きだからだと思う。DよりEのが強い、いやEよりF、FよりHだ!という少年漫画方式で盛っているのではないかな。ぶっちゃけエロ小説において大きいおっぱいの役割は、たっぷり揉める、なんか挟める、アレした時よく揺れるくらいしかないのでそれらを満たせるサイズであればなんでもいいのじゃないかな。(特殊性癖として妊娠していないのに母乳が出るとかあるけどそれは取り上げない)。
また、あくまでもこの分析はカップ数や「巨乳」という直接的に豊満さを表す言葉に注目したものであり、それらを使わない作者も大勢いることを主張しておく。間接的に豊満さを表す手法としては隠喩的な外見描写やキャラの立ち振る舞いでの表現が存在する。これらは古き良き読者の想像に任せる書き方になるので、描写が上手い人には割と手練れの作者が多い気がする。
個人的には大きすぎるのは現実味ないのでノットフォーミー。大きさより体のラインの綺麗さや形の良さの方がリアリティあると思うのだけど…調査楽しかったです。
自分が機械学習に詳しいかどうかはわかりませんが,わかる範囲で書きます.
を実現する事が目的だと考えて話を進めましょう.
一般的にこのタスクは類似文書検索と呼ばれています.ブックマークコメントでは「ElasticSearchを使え」と言われています.ElasticSearch の More Like This Query 機能を使うことで類似文書検索が実現できるようです.あとはパラメータを調整することで思い通りの結果が得られるのではないでしょうか.
より高度なアプローチを取るのであれば,BERT と呼ばれるニューラルネットワークモデルを活用した類似文書検索も可能です.こちらのブログ (ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer) が参考になるでしょう.
しかしこれだけで終わると悲しいのでもう少し機械学習の話をすることにします.
機械学習的にこの問題に取り組むには順序学習 Learning to Rank という問題を解く必要があります.順序学習は google 検索にも使われている機能です.
これは,「入力 x に対して N 個の候補 y_1, y_2, ..., y_N を類似している順に並び替えるようなスコアを出力する関数 f(x, y_i) を学習する」というものです.
More Like This Query 機能よりもこちらのアプローチが優れているのは,前者はどうパラメータをチューニングしようと「類似している文書」しか得られないのに対して,後者は(先程引用したような)「見合った」を明示的にデータとして与えてランキングを学習できる,という点です.
学習データとして「この質問のに対してこの FAQ ページがもっとも見合っている」「この質問に対して A と B ふたつの FAQ ページがあるが,B より A の方が見合っている」「この質問に対して見合った順に全ての FAQ ページを並び替えたもの」といったデータを大量に準備することで,「見合った」を学習することが可能です.
しかしこちらも ElasticSearch の機能に搭載されているようです.ありがとう ElasticSearch.お疲れ様でした.
もしあなたが ElasticSearch を使うのではなく, Python を使って再実装したいと考えているのであれば,目印として必要なライブラリや概念を書いておきます.
こういうのを実装したいと思ってるだがどんな言語とライブラリ使って
業務で使うというよりは習得メインだから回答の精度とかは二の次でいい
ちなみに自分のスキルは一応本職だからPythonは触ったことないけど
MySQLいじったりテーブル設計したり学習データ管理用のGUI作ったりとかMeCabの知識とかはどうにでもなると思う
あ、ただ微分積分とか行列については全くわからないと言っていいレベル
最近はWebの知識をフロントエンド/バックエンド/フレームワーク/アーキテクチャと
総合的に勉強するより機械学習の方がむしろ低いとか聞くけど意味不明な記号の羅列を見てるとにわかには信じられない……
”そこそこの大学をでて大学数学をちゃんと習得している人にとっては”的な条件があるのだろうか
このくらいの仕組みならパパっと作れたりするのかなぁ
事情はこんな感じ。
今日以降MeCabの辞書をmecab-ipadic-NEologd辞書に切り替える。昨日までのはNAIST辞書だった。メリットは週2回新語が追加されるので、2011年に更新が止まったNAIST辞書に比べて時事ネタに強い。デメリットは固有名詞じゃないものまで固有名詞に分類しようとすること。一長一短あるけれど、メンテナンスが止まった辞書を使い続けるよりは良さそうなので変える。はてなキーワードから新語を探しているそうなので、はてなキーワードを整備すれば精度が上がるかもしれない。
はてなが増田のキーワードページ https://anond.hatelabo.jp/keyword/ を改善してくれればこんなことしないのにと思う。いま久しぶりにキーワードページ見たら表示される単語の数が減ってる気がする。改善しようと手を付け始めたのだろうか?
よく見る男女論だけでも明らかにおっさんが投稿してると思われる。
これを判定するためにAIを使って判定して見た。
まず知人25人を用意する。25人の内訳は男20人女5人。
女があまり集まらなかったのは私の不徳の致すところ。勘弁していただきたい。
そのうち書けると答えた7人はネカマの文章を書いてもらうことにした。
文章は500文字以上とし一人当たり4文章を作成してもらった。
ぶち込むNNは入り口は要素100、出口は1の五層のNN。単語数100を超える部分はカットした。
Train Dataでの判定結果は91.2%、Test Dataでの成功率は86.3%になった。
ランダムに300件検出しテストしたたところ以下の結果になった。
男63.2%
女4.3%
ネカマ32.5%
私のNNができが悪いだけかもしれないので、皆さんも試して欲しい。
そうだよ。mecab通せば確かに100文字が20種類の符号に圧縮できるかもしれんが、だからといってそれがIDか何かの一意になる情報かっていうと違う訳でな。
「低能」というワードは低能先生が使うワードかしれんが、ワイもそこそこ低能先生を装う。
つまり、一つの書き込みからMecabのみを利用して判別する方法は無い訳で、
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 63 | 9839 | 156.2 | 41 |
01 | 48 | 5207 | 108.5 | 39 |
02 | 44 | 5027 | 114.3 | 59.5 |
03 | 41 | 8862 | 216.1 | 171 |
04 | 25 | 3455 | 138.2 | 119 |
05 | 3 | 711 | 237.0 | 33 |
06 | 13 | 1272 | 97.8 | 27 |
07 | 17 | 4898 | 288.1 | 163 |
08 | 29 | 2738 | 94.4 | 67 |
09 | 33 | 4160 | 126.1 | 80 |
10 | 56 | 5113 | 91.3 | 43 |
11 | 57 | 5842 | 102.5 | 45 |
12 | 67 | 14024 | 209.3 | 58 |
13 | 57 | 6426 | 112.7 | 52 |
14 | 63 | 9038 | 143.5 | 54 |
15 | 47 | 6724 | 143.1 | 51 |
16 | 54 | 9269 | 171.6 | 60.5 |
17 | 52 | 13871 | 266.8 | 42 |
18 | 75 | 8632 | 115.1 | 47 |
19 | 70 | 8347 | 119.2 | 47 |
20 | 84 | 10528 | 125.3 | 44.5 |
21 | 86 | 6211 | 72.2 | 42.5 |
22 | 73 | 10058 | 137.8 | 59 |
23 | 67 | 17149 | 256.0 | 57 |
1日 | 1224 | 177401 | 144.9 | 53 |
人(148), 自分(117), 今(57), 話(51), 前(49), 感じ(48), 好き(44), 気持ち(44), 増田(43), 仕事(43), 人間(40), 気(39), 問題(38), あと(37), 女(37), 必要(33), 男(33), 子供(33), 相手(32), おっさん(32), 会社(30), 友達(29), 関係(29), 言葉(28), 時間(28), 普通(27), 結果(27), ネット(26), 結局(26), 理由(25), 手(25), 日本(25), 一番(24), 誰か(24), 周り(24), https(24), 世の中(23), 声(23), 今日(23), 社会(23), 他(23), 存在(22), 女性(22), 親(22), 男性(22), 最近(22), 意味(22), 最初(21), 目(21), 頭(21), 場所(21), しない(21), 人生(21), 昔(21), 場合(20), 経験(20), 無理(20), 顔(19), 状態(19), 理解(19), ー(18), 結婚(18), 毎日(18), 全部(18), 責任(18), レベル(17), 嫌(17), 別(17), 先(17), 意見(17), 友人(17), 先輩(17), 心(17), 世界(17), 挨拶(17), 価値(16), 行動(16), まとも(16), 扱い(16), 逆(16), 仕方(16), 自体(16), 店(16), 他人(16), セックス(15), 体(15), 女の子(15), ただ(15), 職場(15), 金(15), セクハラ(15), 趣味(15), 幸せ(14), 家(14), 上司(14), 批判(14), 休み(14), 正直(14), 一人(14), .jp(14)
増田(43), 日本(25), じゃなくて(13), 安倍総理(13), 社会人(13), 可能性(13), 被害者(12), 娘(10), …。(10), 自民党(10), 山口(9), スマホ(9), 安倍(8), 2018年(8), 加計学園(8), 1人(8), 東京(8), いない(8), 柳瀬(7), GW(7), 1日(7), 何度(7), ツイッター(7), なのか(6), 普通に(6), 基本的(6), 元増田(6), エロい(6), Twitter(6), SNS(6), いつまでも(6), 知らんけど(6), なんだろう(6), 毒親(6), ブコメ(6), 愛媛県(6), 財務省(5), いいんじゃない(5), アメリカ(5), 自分自身(5), A(5), 自己責任(5), 価値観(5), CM(5), 大企業(5), TOKIO(5), 2人(5), 最終的(5), カス(5), 自分たち(5), LGBT(5), 犯罪者(5), はてブ(5), コミュ障(5), いいね(5), 担当者(5), 笑(5), 1万円(5), ネット右翼(5), わからん(5), 安倍自民党(5), 悪いこと(5), なんの(5), 筋トレ(5), 金(4), 安倍晋三(4), 大阪(4), OK(4), 八代(4), はてなー(4), ネトウヨ(4), 具体的(4), 立川志らく(4), ちんこ(4), 精神障害(4), 30歳(4), 昭和(4), ブクマ(4), TBS(4), 一方的(4), 夫婦(4), 不快感(4), B(4), 劣等感(4), 分からん(4), 1年(4), 毎日(4), かな(4), 米(4), にも(4), 精神的(4), プリキュア(4), アレ(4), アイコン(4), 好きな人(4), 任天堂(4), 数年(4), ひるおび(4), 人間関係(4), リアル(4)
今日以降MeCabの辞書をmecab-ipadic-NEologd辞書に切り替える。昨日までのはNAIST辞書だった。メリットは週2回新語が追加されるので、2011年に更新が止まったNAIST辞書に比べて時事ネタに強い。デメリットは固有名詞じゃないものまで固有名詞に分類しようとすること。一長一短あるけれど、メンテナンスが止まった辞書を使い続けるよりは良さそうなので変える。はてなキーワードから新語を探しているそうなので、はてなキーワードを整備すれば精度が上がるかもしれない。
はてなが増田のキーワードページ https://anond.hatelabo.jp/keyword/ を改善してくれればこんなことしないのにと思う。いま久しぶりにキーワードページ見たら表示される単語の数が減ってる気がする。改善しようと手を付け始めたのだろうか?
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 56 | 11385 | 203.3 | 79.5 |
01 | 61 | 4651 | 76.2 | 43 |
02 | 28 | 3477 | 124.2 | 56.5 |
03 | 29 | 4545 | 156.7 | 36 |
04 | 17 | 6071 | 357.1 | 64 |
05 | 15 | 5744 | 382.9 | 128 |
06 | 30 | 4886 | 162.9 | 65.5 |
07 | 37 | 4608 | 124.5 | 52 |
08 | 62 | 6410 | 103.4 | 40.5 |
09 | 73 | 5633 | 77.2 | 42 |
10 | 70 | 6563 | 93.8 | 52 |
11 | 101 | 7925 | 78.5 | 35 |
12 | 106 | 10117 | 95.4 | 42 |
13 | 140 | 9610 | 68.6 | 33 |
14 | 137 | 7565 | 55.2 | 35 |
15 | 114 | 6666 | 58.5 | 32.5 |
16 | 121 | 13028 | 107.7 | 39 |
17 | 88 | 12250 | 139.2 | 42 |
18 | 140 | 11417 | 81.6 | 34 |
19 | 160 | 15344 | 95.9 | 26.5 |
20 | 116 | 12046 | 103.8 | 33.5 |
21 | 153 | 8659 | 56.6 | 31 |
22 | 163 | 13310 | 81.7 | 35 |
23 | 61 | 7475 | 122.5 | 51 |
1日 | 2078 | 199385 | 96.0 | 37 |
人(198), 自分(132), 女性(82), 今(79), 増田(76), 差別(71), 女(71), 人間(71), 話(70), 仕事(68), 男(66), 男性(60), 感じ(57), 相手(55), 社会(54), 問題(53), 同じ(51), 日本(51), ー(50), 必要(49), 気持ち(49), 意味(49), 前(46), あと(45), 普通(44), 関係(43), 親(42), 時間(41), 会社(40), こんな(40), 子供(40), 好き(39), 気(38), 目(36), 低能(35), 山口(35), 言葉(34), 被害(34), 存在(34), 今日(34), 結婚(33), 生活(32), 友達(31), 他(30), 最近(30), 手(29), 主義(29), https(28), 行動(28), メンバー(28), 安倍(28), 男女(28), 発言(28), 一緒(27), 頭(27), 心(26), 時代(26), 家(26), 専用(25), 意見(25), 自身(25), 理由(25), 人生(25), 車両(25), おっさん(24), 状態(24), ネット(24), 先生(23), 金(23), 現実(23), 周り(23), 場合(22), 結果(22), 世界(22), 責任(22), 娘(22), 自己(22), 別(21), 最初(21), 他人(21), 自体(21), ダメ(21), い(21), 全部(21), 大変(21), レベル(21), 可能(20), ~(20), アニメ(20), 女子(20), 昔(20), 否定(20), 馬鹿(20), 理解(20), 個人(20), 自民党(19), 嫌(19), 逆(19), 一番(19), http(19)
増田(76), 日本(51), 山口(35), 安倍(28), 自民党(19), 日(18), 東京(14), キモ(14), TOKIO(14), 自衛隊(12), アメリカ(8), 達也(8), 加計(7), 民主党(7), カス(6), 平成(6), 公明党(6), 昭和(6), 福島(6), JK(5), 共産党(5), 韓国(5), 羽生(5), スキ(5), 柳瀬(5), 中国(5), 晋(5), 大阪(5), マック(5), ぇ(5), 敬之(4), 愛媛(4), faq(4), チャイルド(4), 麻生(4), 京都(4), テレビ朝日(4), NHK(4), qa(4), ニセ(4), iPhone(3), 所(3), gt(3), CPU(3), 太郎(3), bot(3), 悟(3), フジテレビ(3), 出口(3), 健(3)
↑ MeCab ✕ NAIST辞書 (2011年に更新が止まっている。)
↓ MeCab ✕ mecab-ipadic-NEologd辞書 (固有名詞、新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)
人(184), 自分(125), 今(75), 話(68), 男(66), 女(66), 仕事(66), 増田(66), 人間(63), 女性(62), 感じ(55), 相手(51), 問題(51), 必要(49), 気持ち(48), あと(47), 意味(45), 差別(44), 前(44), 日本(43), 気(40), 子供(39), 普通(39), 男性(38), 目(37), 親(37), 関係(36), 低能(35), 好き(35), 社会(35), 今日(34), 会社(32), ー(32), 言葉(32), 友達(31), 存在(31), 結婚(31), 最近(30), 手(30), 他(30), https(29), 頭(28), 時間(27), 心(27), 理由(25), 意見(25), 現実(25), 人生(25), おっさん(24), 別(24), 被害者(23), 状態(23), 周り(23), しない(23), じゃなくて(23), 発言(22), 家(22), 場合(22), 金(22), 女性専用車両(22), 行動(22), 最初(21), 理解(21), 他人(21), 結果(21), A(21), 全部(21), 娘(21), レベル(21), 世界(21), 自体(20), 馬鹿(20), 先生(20), 男女(20), 勝手(20), 昔(20), 生活(20), アニメ(20), 嫌(20), ダメ(20), 否定(20), 逆(19), www(19), 批判(19), 顔(19), 大変(19), 一番(19), 誰か(19), 男性差別(19), 職場(19), 女の子(19), 一緒(19), 結局(18), 話題(18), http://(18), 時代(18), 記事(18), 無理(18), 自身(17), 山口(17)
増田(66), 日本(43), じゃなくて(23), 被害者(23), 女性専用車両(22), 娘(20), 男性差別(19), 山口(17), 安倍(15), TOKIO(15), 可能性(14), 安倍総理(14), なんだろう(14), いない(13), 自民党(12), 自衛隊(12), 主義者(12), スマホ(12), A(11), 山口メンバー(11), 生活保護(11), hatena(11), カス(11), 元増田(11), 差別主義(10), いいんじゃない(10), 一緒に(10), Twitter(10), 男女平等(9), 女子高生(9), 1人(9), 2人(8), PC(8), ブログ(8), s(8), 上の(8), JK(8), 社交辞令(8), わからん(8), B(8), …。(7), リアル(7), 犯罪者(7), ツイッター(7), 一方的(7), ニセ科学(7), 劣等感(7), コミュ障(7), キモ(7), 私たち(7), ジャニーズ(7), キモい(7), ネット右翼(7), まんこ(6), ブコメ(6), 2018年(6), 普通に(6), 東京(6), 20代(6), 山口達也(6), 昭和(6), 何度(6), 社会人(6), ???(6), 公明党(6), 発言権(6), アメリカ(6), 毒親(6), 加計学園(6), 100%(6), 個人的(6), パワハラ(6), 基本的(6), 最終的(6), 笑(5), かな(5), 加害者(5), 1年(5), にも(5), 共産党(5), なのか(5), GW(5), 悪いこと(5), 外国人(5), 非モテ(5), いいね(5), 強制わいせつ(5), 自己責任(5), 脳内(5), 安倍自民党(5), 低所得(5), キチガイ(5), 人として(5), ー(5), フェミ(5), マジで(5), イケメン(5), 想像力(5), ニート(5), 婚活(5)
例えば「女性」と「専用」と「車両」に分割されていたのが「女性専用車両」で1語と数えられている。辞書のデータソースとしてはてなキーワードを使ったと書いてあるからよりはてな向きかもしれない。
「いいんじゃない」が固有名詞扱いされているが、これは多分はてなキーワードをソースにした弊害ではないだろうか。はてなキーワードを見ると「いいんじゃない」というジャニーズタレントの楽曲があるという。「リアル」もはてなキーワードで三菱のテレビブランドとして説明されているせいで固有名詞扱いなのかもしれない。
一長一短があるな。