「mecab」を含む日記 RSS

はてなキーワード: mecabとは

2024-06-02

anond:20220513212352

Google 日本語入力MeCab作者の工藤拓が始めたプロジェクトから工藤拓がGoogleを去ってからはもうメンテナンスモードなんだよ

という理解をしていたが、別に工藤拓がGoogleを辞めたというソースはなかったわ

2024-04-02

anond:20240402085025

ICTのことはよく知らないけど、テキストマイニングだとmecabなどを使って「全部ひらがなにする」

2023-10-25

anond:20231025171009

凝ったもの作るならともかく、自分が遊べればいいだけなら他になんかいるか?

WeatherTypingが念頭にあったか形態素解析いうたけど、mecab通して品詞毎に分類したらワードサラダランダム文は簡単に生成出来るし、

それこそタイプウェル憲法に倣って日本国憲法全文拾ってくるなり青空文庫適当小説一個拾ってきてちょろっと整形するぐらいでも充分ちゃう

2021-05-07

アメリカ帰りの出羽守に騙されて、SESに人売りされた話

または「すいません、名刺は切らしておりまして...」と言うのが板につくようになるまで。

あー、もうかれこれ10年も経過するのか、と思うと感慨深くなる。ヤクザのような(自称プログラマーに騙されて、多重請負転々とする羽目になったのも昔の話だ。語尾に「かなーと。」をつけるテック系に誘い込もうとするインフルエンサー達にノコノコついていく若者たちの末路はどうなるのかというのを、オジサンが教えなくてはいけない時期にきていると思い、書き込むことにした。

さて、冒頭に挙げた人物を「A氏」とする。もちろん実在するし、なんなら本まで出版している。今ではツイッターユーチューバーとして発信している。全く売れてないし、内容も洋書をパクってきたものなので、まったく価値はないがね。

A氏との出会いは、とある SNS だった。ちょっと、嘘を書くが、「どうかな、いちどうちに来ない?」というので、ためしに行ってみると「マーチ文系学生コーチする、反社団体所属してそうなお兄さん」がそこにはいた。

うわぁ、と思ってポカーンとしていたら、「せっかくなので、彼らが作っている課題をやってみて」という。ふむ、と思って、すぐに仕上げた。まぁ、当時の自分は【経歴がクソ】ということを除けば HTML/CSS を使ってブログをやっていたし、Java/Ruby/PHP/JavaScript/Objective-C をひと通り書けたし、Linux の初歩や SQL勉強していたし、AWS にてサービス運用するぐらいには気力があったので、当然ではある。

どんなもんだーい、と思ってコードを得意げにみせると、彼の表情は厳しい。A氏は「なにこれ?」というのだ。確かに【わざと】再帰を使って記述したが、シンプルに仕上げたつもりだ。それで「なにって、再帰ですよ?」とかえすと、A氏の表情はみるみるうちに厳しくなっていった。

ちょっとバックヤードにおいでや」というので、共同スペースの給湯室に行く。そこで「なんで履歴書を持ってこないの?」からはじまって、散々ディスられて「1日棒に振ったなぁー」という表情していたら、ますます怒らせたらしく、「キミは態度も顔も悪いねー」と言われ、さすがの俺もブチギレる。

もう時間無駄から帰ろうとしたら、「ポートフォリオを作ってこい、出来が良ければサ●バーエ●ジェントに紹介する」というじゃないですか。いやぁ、甘かったね、当時の自分は。そんなの、嘘に決まってるじゃないですか。でも、信じちゃったのですよね。

そのあと履歴書を書かされ、【未】登録派遣事業会社員正社員でなく、保険もなし)となり、禁止されている事前面接をされて、客先常駐に無事にはめ込まれましたね。ぶっちゃけ、ここまでは「世間知らずが身ぐるみ剥がされたね、勉強になったね」でおしまいなんですよ。ええ。

本当に書きたいことは、ここからだ。この A氏という人物が許せないのだ。どう許せないかというと「プログラミング計算機科学に対して愛はないのに、人工知能のことは語れる」と本気で思っているからだ。

知っている人は当然なんだが、【教師なし学習】といった類のもの1970年代には存在しているのだ。【深層学習】なんてものも、1970年頃には理論は完成していたのだ。どうして、21世紀になるまで注目されなかったのか?それは、ハードウェア能力が不足しているからだ。そして、未だに不足している。加えて、場末中小企業努力しても手に入れられないものがある。それは、【教師あり学習】に必要な音・画像データだったりする。こればかりは、グーグルマイクロソフトを超えてくる会社日本にはない。

まぁ、世の中には仕方のないものがある。別のところで勝負しよう。じゃあ、どう勝負するか?そりゃ『技術』でしょ、と普通は思うよね。それが、A氏は違うのですよ。彼の場合は、源泉は「学生を利用する」という戦略をとったわけ。そう、ベンチャー企業がやりがちな「やりがい搾取」ってやつだ。

はっきり言って、社会人ちょっとやったら、彼の言っていることが「感覚的におかしい」というのがわかるのだ。例えば「未認可の派遣事業をやっている」「インターン成果物営業する」「講演会執筆ばっかやってる」とかね。あと、勝手に祝賀会とかに行って「有名人ツーショット」を撮ってくるのよ。その写真マウンティングしてくるのは、真正キチガイ所作だと思ったよね。

ちなみに、A氏はアメリカの名門大を出ている(arxiv論文あったからマジ)が、計算機科学じゃないのよね。とある彼の手記を読むと「友人がこれからAI」と言っていたかスタートしたらしいですのよ。逆算すると、勉強期間はたったの 1年。絶対に無理だってばよ。当時の自分ですら「再帰を知らない人をプログラマーと認めたくない」と思ったし、こいつ計算機科学知識ゼロに近いと感じたもんね。

A氏の名誉のために書くと、努力はしてたとは思うよ。彼のブログを読んだら、Mecab やら TF をさわっていたしね。まあ、でも、それでも本をかけるほどの実力はないよ。だって、オレ知ってるもん。彼がラ○サーズに執筆依頼していたの見ちゃったし、インターン生に代筆させてたから。

疲れたので、途中で書くのやめます。どうしてスキルのない AI人材執筆依頼がくるのか、なぜ A氏はAIにすがるのか、出羽守AI人材未来はあるのか、は希望があればやります。)

追記arXiv ってプレプリント置き場なのね。知らなかった。ありがとう

2020-12-30

おっぱいサイズ戦闘力だ:ノクターンノベルズにみるバストサイズインフレ検証

諸君巨乳と聞いたとき大体どのくらいの大きさを想像するだろうか。EカップFカップ?それともGカップだろうか。世の中には巨乳の最頻値がHカップであり中にはQカップなどという存在が出てくる分野が存在する。それはユーザ投稿サイト男性向けエロ小説である

本稿ではノクターンノベルズ*1に投稿された短編を解析することで男性向けジャンルで好まれバストサイズの変遷を調べる。特に読者・作者に巨大と認識されるカップサイズが年を重ねる毎に増大していることを明らかにする。(なぜそんなこと調べたのかというと、小説漁りしてる時になんか最近極端に大きなバストサイズが多いなーって感じたから。以上!)本文章は男のアホさをご了承の上、特に女性の方々におかれましてはリアリティの欠如や空想すぎる産物への指摘を留めて頂き、男ってバカだなぁと笑って読んで下さい。

*1 株式会社ナイトランタン提供する男性向け18禁小説家になろう

検証データについて

2006年から2020年までの各年(2020年のみ12月29日まで)に投稿された短編総合ポイントの高い順に百本抽出した。そして各小説調査フィールド(タイトル概要タグ、本文)に対して、MeCab+mecab-ipadic-NEologd(およびAからZまでのカップ数を羅列したユーザ辞書)による形態素解析を実行し、キーワードの出現回数を数えた。検証対象短編制限した理由は、キャラクター内面の作り込める長編小説と異なり、R18短編小説は表面上の属性(巨乳とか巨乳とか)が市場潜在的需要を反映する傾向にあると考えたかである。すべてのコードPython 3 で実装した(実装としては年齢認証突破するため適当Selenium 叩いているだけ。コードデータが欲しいという物好きがいたら github にでも上げるので言って下さい)。注意点として、小説ポイントは積み上げ式であるため、当時は人気がなかったが後年に人気が出てポイントが上がった可能性は排除できない。よって当時の人気を厳密に反映しているわけではなく、現時点での総合人気ということでご容赦を。

検証結果と考察

はじめに検証対象となる短編の総投稿本数を示す。各年の短編投稿本数は以下の表1の通り年々上昇している。

20062007 2008 2009 2010201120122013 2014 2015 2016 20172018 2019 2020
26 117 238 218 163 387 342 488 651 834 9111103 1668 1165 2470

表2は本研究のメインデータとなる、調査フィールド(小説タイトル概要タグそして本文)にバストサイズに関連するキーワードを含む短編の数である。ヘッダーのAからRはカップ数を表している。なおOカップ、Pカップ、およびSカップ以降は出現しなかったため省いている。表3は表2の均していないデータ、つまり調査フィールドでのキーワードの出現合算(連呼頻度)である

表2 A B C D E F G H I J K L M Q R # 貧乳巨乳爆乳 表3 A B C D E F G H I J K L M Q R # 貧乳巨乳爆乳
2006 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 # 1 3 0 2006 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 # 2 11 0
2007 1 0 1 3 2 2 0 0 0 0 0 0 0 0 0 # 0 6 1 2007 2 0 3 4 2 2 0 0 0 0 0 0 0 0 0 # 0 16 3
2008 1 4 3 3 4 0 0 0 0 0 0 0 0 0 0 # 0 7 0 2008 2 7 7 5 4 0 0 0 0 0 0 0 0 0 0 # 0 10 0
2009 1 1 0 0 0 3 0 0 0 0 0 0 0 0 0 # 2 7 2 2009 2 3 0 0 0 5 0 0 0 0 0 0 0 0 0 # 4 29 4
2010 0 3 0 0 0 2 2 1 0 0 0 0 0 0 0 # 2 5 0 2010 0 3 0 0 0 2 2 2 0 0 0 0 0 0 0 # 2 11 0
2011 0 0 2 1 1 0 2 1 0 0 0 0 0 0 0 # 3 16 8 2011 0 0 2 1 1 0 8 5 0 0 0 0 0 0 0 # 7 48 21
2012 0 2 2 2 0 2 0 0 0 0 0 0 0 0 0 # 1 15 3 2012 0 7 2 4 0 2 0 0 0 0 0 0 0 0 0 # 1 29 3
2013 1 2 0 3 0 1 0 0 0 0 0 0 0 0 0 # 1 9 3 2013 2 2 0 3 0 1 0 0 0 0 0 0 0 0 0 # 1 12 4
2014 2 2 5 0 2 2 3 3 5 2 1 2 2 0 0 # 4 24102014 4 2 5 0 7 2 4 5 18 3 1 4 2 0 0 # 9 54 27
2015 0 0 1 1 1 2 1 1 1 0 0 0 0 0 0 # 4 23 5 2015 0 0 1 7 1 6 2 1 2 0 0 0 0 0 0 # 4 54 36
2016 1 1 0 1 1 0 2 2 2 1 1 0 0 0 1 # 4 22 9 2016 1 1 0 1 1 0 2 4 3 1 1 0 0 0 1 # 12 48 30
2017 0 2 1 0 2 1 0 4 1 1 0 0 1 0 0 # 9 32 102017 0 2 2 0 4 1 0 16 1 6 0 0 5 0 0 # 15 101 33
2018 1 1 2 0 2 2 2 4 3 0 2 0 0 0 0 # 7 34 8 2018 1 3 2 0 4 2 9 6 6 0 3 0 0 0 0 # 8 134 53
2019 0 0 0 0 1 2 4 4 4 4 5 1 1 0 0 # 3 37 22 2019 0 0 0 0 1 4 9 8 17 19 9 2 3 0 0 # 11 95 120
2020 1 0 0 0 2 4 8 10 1 3 2 1 0 1 0 # 5 43 18 2020 1 0 0 0 6 6 13 13 2 5 10 1 0 10 0 # 8 116 216
合計 9 18 17 14 18 24 25 30 171111 4 4 1 1 # 46 283 99 合計 15 30 24 25 31 34 50 60 49 34 24 7 1010 1 # 84 768 550

これらの表よりノクターンノベルズにおいて次のような傾向が存在することが分かる。

以上よりノクターン短編部門においてカップ数のインフレ傾向が存在することは立証できた。しかしここまで読んできて次のような疑問を抱かなかっただろうか。カップ数の増大は確かだがそれと物理的な乳房サイズ増大(概ねトップサイズ対応)との相関は直ちに結びつかないのではないか。そう「ロリ巨乳」の存在である。すなわち巨乳と判定されるトップサイズ(90cmとか)は高止まりしており、アンダーサイズの方が減少しているのではないか

この推測に対し同データを利用して、身長を表す120cmから199cmまでの語を含む短編数を調べた(表4)。下限を120cmに限定した理由100cm付近だとバストサイズが引っかかる可能性(実際あるのよ…)があるからである。また低身長ロリロリ巨乳巨乳についてのデータも右列に併記する(160cmやロリロリ巨乳巨乳を正しく分類できる NEologd は凄いぞ)。身長分布に顕著な差が見られないことおよび巨乳の増大率に対してロリ巨乳の増大率が低いことから、低身長の増加を加味しても2014年以降のカップ数のインフレを吸収しているとは考えにくい。したがって近年のカップサイズインフレ傾向はトップサイズの増大によるものだと推測できる。

表4 120cm-129cm 130cm- 140cm- 150cm- 160cm- 170cm- 180cm- 190cm-199cm # 身長ロリロリ巨乳巨乳
2006 0 0 0 0 0 0 0 0 # 0 5 0 3
2007 0 0 0 0 0 0 0 0 # 0 17 0 6
2008 0 0 0 0 0 0 0 0 # 0 19 0 7
2009 0 0 1 0 0 0 0 0 # 0 20 0 7
2010 0 0 1 1 0 1 1 0 # 0 9 0 5
2011 0 0 0 0 0 0 0 0 # 0 12 1 16
2012 0 0 1 0 0 2 0 0 # 0 8 1 15
2013 0 0 1 0 0 0 0 0 # 0 8 0 9
2014 0 0 0 0 4 3 0 0 # 0 9 1 23
2015 0 0 1 1 0 0 0 1 # 0 19 2 23
2016 0 0 1 2 0 0 0 0 # 0 23 2 22
2017 0 1 4 7 4 4 1 0 # 0 20 1 32
2018 0 0 6 3 3 4 4 3 # 0 25 9 34
2019 0 1 5 1 1 1 0 1 # 1 15 8 37
2020 0 2 4 4 2 2 3 0 # 6 15 8 43
合計 0 4 25 19 14 17 9 5 # 10 22433 282

作品名は挙げないが、一つの作品タイトル概要タグ、本文全て含め、最も連呼されたいたのは、IカップとJカップである。それぞれ2万とちょっと文字数の中に8回出現していた。なお、爆乳は2万文字で21回、巨乳については8千文字で29回であった。後者については理由があり、作中で「巨乳ちゃん」が連呼されるからである(25回)。前者は全てそのままの意味で出現する。

まとめ

分析より、ノクターンノベルズ短編小説において巨乳定義インフレ傾向があることが分かった。これは小説描写においてはビジュアル描写するコストが低いこと、すなわちデザイン面で人体のバランスを取る必要がないため、(本人の常識範囲内で)自由バストサイズを設定できるからであるためと思われる。小説描写においてバストサイズ大中小のどこかのカテゴリに入れば十分であり、また前述のように小と中は既に共通認識固定化されているため、その範囲はどこまでが大か(かつ著者が興奮できるか)により決定されるからである

真面目なのはここまで。インフレしている理由は単純に男は大きい数字が好きだからだと思う。DよりEのが強い、いやEよりF、FよりHだ!という少年漫画方式で盛っているのではないかな。ぶっちゃけエロ小説において大きいおっぱい役割は、たっぷり揉める、なんか挟める、アレした時よく揺れるくらいしかないのでそれらを満たせるサイズであればなんでもいいのじゃないかな。(特殊性癖として妊娠していないのに母乳が出るとかあるけどそれは取り上げない)。

また、あくまでもこの分析カップ数や「巨乳」という直接的に豊満さを表す言葉に注目したものであり、それらを使わない作者も大勢いることを主張しておく。間接的に豊満さを表す手法としては隠喩的な外見描写キャラの立ち振る舞いでの表現存在する。これらは古き良き読者の想像に任せる書き方になるので、描写が上手い人には割と手練れの作者が多い気がする。

個人的には大きすぎるのは現実味ないのでノットフォーミー。大きさより体のラインの綺麗さや形の良さの方がリアリティあると思うのだけど…調査しかったです。

今後の研究課題という名のTODO

2020-04-05

anond:20200405203126

たぶんMeCab通してないから叩いてるんやでw(違うそうじゃない)

2019-10-19

anond:20191019183452

自分機械学習に詳しいかどうかはわかりませんが,わかる範囲で書きます

質問テキストを投げるとそれに一番見合ったFAQページのリンクタイトルを表示してくれるチャットボット的なプログラム

チャットボット」はただの UI であるので

を実現する事が目的だと考えて話を進めましょう.

一般的にこのタスク類似文書検索と呼ばれていますブックマークコメントでは「ElasticSearchを使え」と言われています.ElasticSearch の More Like This Query 機能を使うことで類似文書検索が実現できるようです.あとはパラメータを調整することで思い通りの結果が得られるのではないでしょうか.

より高度なアプローチを取るのであれば,BERT と呼ばれるニューラルネットワークモデル活用した類似文書検索可能です.こちらのブログ (ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer) が参考になるでしょう.

しかしこれだけで終わると悲しいのでもう少し機械学習の話をすることにします.

機械学習的にこの問題に取り組むには順序学習 Learning to Rank という問題を解く必要があります.順序学習google 検索にも使われている機能です.

これは,「入力 x に対して N 個の候補 y_1, y_2, ..., y_N を類似している順に並び替えるようなスコアを出力する関数 f(x, y_i) を学習する」というものです.

More Like This Query 機能よりもこちらのアプローチが優れているのは,前者はどうパラメータチューニングしようと「類似している文書しか得られないのに対して,後者は(先程引用したような)「見合った」を明示的にデータとして与えてランキング学習できる,という点です.

学習データとして「この質問のに対してこの FAQ ページがもっとも見合っている」「この質問に対して A と B ふたつの FAQ ページがあるが,B より A の方が見合っている」「この質問に対して見合った順に全ての FAQ ページを並び替えたもの」といったデータを大量に準備することで,「見合った」を学習することが可能です.

しかこちらも ElasticSearch の機能に搭載されているようです.ありがとう ElasticSearch.お疲れ様でした.

もしあなたが ElasticSearch を使うのではなく, Python を使って再実装したいと考えているのであれば,目印として必要ライブラリ概念を書いておきます

AIとか機械学習に詳しい人にガチ質問なんだが

こういうのを実装したいと思ってるだがどんな言語ライブラリ使って

どのくらいの勉強期間と実装期間を費やせば作れるかな?




業務で使うというよりは習得メインだから回答の精度とかは二の次でいい

ちなみに自分スキルは一応本職だからPythonは触ったことないけど

MySQLいじったりテーブル設計したり学習データ管理用のGUI作ったりとかMeCab知識とかはどうにでもなると思う

あ、ただ微分積分とか行列については全くわからないと言っていいレベル

最近Web知識フロントエンド/バックエンド/フレームワーク/アーキテクチャ

総合的に勉強するより機械学習の方がむしろ低いとか聞くけど意味不明記号の羅列を見てるとにわかには信じられない……

”そこそこの大学をでて大学数学ちゃん習得している人にとっては”的な条件があるのだろうか

このくらいの仕組みならパパっと作れたりするのかなぁ

2019-01-28

anond:20190127005937

データを取ってるのは増田統計投稿される直前。

ランクインしなかった理由mecab-ipadic-NEologd辞書が「スキッパーキ」を固有名詞で分類するくせに「柴犬」を一般名詞に分類したためらしい。一般名詞だと15回以上出現しないとランクインできなかった。両方一般名詞なんだけどなぜブレるかはよく分からない。IPA辞書に元から載ってる単語とNEologdで追加された単語の違いだろうか。

2018-12-24

anond:20181224001110

事情はこんな感じ。

今日以降MeCab辞書mecab-ipadic-NEologd辞書に切り替える。昨日までのはNAIST辞書だった。メリットは週2回新語が追加されるので、2011年更新が止まったNAIST辞書に比べて時事ネタに強い。デメリット固有名詞じゃないものまで固有名詞に分類しようとすること。一長一短あるけれど、メンテナンスが止まった辞書を使い続けるよりは良さそうなので変える。はてなキーワードから新語を探しているそうなので、はてなキーワードを整備すれば精度が上がるかもしれない。

はてな増田キーワードページ https://anond.hatelabo.jp/keyword/改善してくれればこんなことしないのにと思う。いま久しぶりにキーワードページ見たら表示される単語の数が減ってる気がする。改善しようと手を付け始めたのだろうか?

2018年5月4日金曜日増田 https://anond.hatelabo.jp/20180505000152

2018-10-15

anond:20181015125805

音声認識/自由入力を分解してくれるまではmecabじゃなくてもwebapiとかで提供されてる。

docomoとかが提供している。結構なお値段で)

問題はそれで認識した文をどう返すかだよな。

「そもさん」という入力に対して「ぞうさんですか? ボクはきりんさんが好きです。でも、ぞうさんもっと好きです」って返したらそのpepperくんのぞうさんもぎ取られちまうわけだからな。

anond:20181015125006

普通にPepperくんの応答システム作れとかそんなんやろ。

音声認識/自由入力から目的動作引っ張るとかそういうの。

当然mecabが使えたかてゴールには辿りつかんぞw

2018-08-22

anond:20180822003612

mecab-ipadic-2.7.0-20070801-neologd-20180813、8月13日版の辞書だと「下方婚」は「下方」と「婚」に切り分けられるみたい。はてなキーワードに「下方婚」の項目を立てればそのうち収録されるんじゃないかな。

検索してみたけれど、昨日増田で下方婚という単語は1回しか使われてないみたいだよ。

2018-08-14

anond:20180814000431

mecab-ipadic-NEologd辞書を使っているのだけど、どういう方針固有名詞に分類しているのか分からないところがあります。ググっても解説してくれているところは無さそうだし。

はてなの協力ではてなキーワードをソースの一つとして使っているそうなので「いいんじゃない」あたりはそれを楽曲名だと解説しているはてなキーワードのせいで固有名詞扱いになっているんじゃないかな。

2018-08-13

anond:20180813000401

つの間にかmecab-ipadic-neologd辞書低能先生登録されてしまったようだ。先月は低能先生に分割されていたのに。はてなの恥はこういう方向からネット記憶されていくんだな。

2018-07-14

話題AIを使って増田おっさん率を判定してみた。

増田を見ていると女の投稿結構あるように思えるが

文章検証していくと明らかにおっさん投稿が多い。

よく見る男女論だけでも明らかにおっさん投稿してると思われる。

そこで増田にどれくらいおっさんがいるのか。

これを判定するためにAIを使って判定して見た。


  • ここからはやり方を説明するだけなので結論に飛んでもらっていい

まず知人25人を用意する。25人の内訳は男20人女5人。

女があまりまらなかったのは私の不徳の致すところ。勘弁していただきたい。

ここで男のうちでネカマ文章を書けるかどうか質問をし

そのうち書けると答えた7人はネカマ文章を書いてもらうことにした。

文章は500文字以上とし一人当たり4文章作成してもらった。

それをMECAB形態素解析し、単語使用率等を解析する。

Train Data 男 10 ネカマ 5 女 3

Test Data 男 3 ネカマ 2 女 2

Trainデータを使って機械学習をする。

ぶち込むNNは入り口は要素100、出口は1の五層のNN。単語数100を超える部分はカットした。

まり最初の100以外はすべてカットした。

Train Dataでの判定結果は91.2%、Test Dataでの成功率86.3%になった。

このNNをつかって増田ブクマ10以上の投稿

ランダムに300件検出しテストしたたところ以下の結果になった。

男63.2%

女4.3%

ネカマ32.5%

私のNNができが悪いだけかもしれないので、皆さんも試して欲しい。

2018-06-27

anond:20180627173423

そうだよ。mecab通せば確かに100文字20種類の符号圧縮できるかもしれんが、だからといってそれがIDか何かの一意になる情報かっていうと違う訳でな。

低能」というワード低能先生が使うワードかしれんが、ワイもそこそこ低能先生を装う。

まり、一つの書き込みからMecabのみを利用して判別する方法は無い訳で、

そこでどうやって書き込みを一意となるデータに集約するかがまずやるべきところだろ。

何をキーにしたりどういう塊にするつもりだ? トラバリーから全部抜くか?

anond:20180627171726

機械学習やってる人間なら思い付きの段階でどのアルゴリズムが上手く作用するかなんて判らないなんてのは常識だし、何をノイズと判定するかでも結果で変わってくるのに手も全く動かしてない状態でそんなん判るわけないだろ

RとMeCabだけ知ってる人間機械学習仕事で一切やったことない奴だなお前

anond:20180627171401

そこでRとMecabとか言っちゃうからにわかにみられる。

もうちょっとどういうアルゴリズム同一性判別するのかちゃんと(分かってるなら)言語化しなよ。

RとMeCab使って形態素解析すりゃたぶん8割9割くらいの増田特定できるけどな

2018-05-05

[]2018年5月4日金曜日増田

時間記事文字数文字数平均文字数中央値
00639839156.241
01485207108.539
02445027114.359.5
03418862216.1171
04253455138.2119
053711237.033
0613127297.827
07174898288.1163
0829273894.467
09334160126.180
1056511391.343
11575842102.545
126714024209.358
13576426112.752
14639038143.554
15476724143.151
16549269171.660.5
175213871266.842
18758632115.147
19708347119.247
208410528125.344.5
2186621172.242.5
227310058137.859
236717149256.057
1日1224177401144.953

頻出名詞

人(148), 自分(117), 今(57), 話(51), 前(49), 感じ(48), 好き(44), 気持ち(44), 増田(43), 仕事(43), 人間(40), 気(39), 問題(38), あと(37), 女(37), 必要(33), 男(33), 子供(33), 相手(32), おっさん(32), 会社(30), 友達(29), 関係(29), 言葉(28), 時間(28), 普通(27), 結果(27), ネット(26), 結局(26), 理由(25), 手(25), 日本(25), 一番(24), 誰か(24), 周り(24), https(24), 世の中(23), 声(23), 今日(23), 社会(23), 他(23), 存在(22), 女性(22), 親(22), 男性(22), 最近(22), 意味(22), 最初(21), 目(21), 頭(21), 場所(21), しない(21), 人生(21), 昔(21), 場合(20), 経験(20), 無理(20), 顔(19), 状態(19), 理解(19), ー(18), 結婚(18), 毎日(18), 全部(18), 責任(18), レベル(17), 嫌(17), 別(17), 先(17), 意見(17), 友人(17), 先輩(17), 心(17), 世界(17), 挨拶(17), 価値(16), 行動(16), まとも(16), 扱い(16), 逆(16), 仕方(16), 自体(16), 店(16), 他人(16), セックス(15), 体(15), 女の子(15), ただ(15), 職場(15), 金(15), セクハラ(15), 趣味(15), 幸せ(14), 家(14), 上司(14), 批判(14), 休み(14), 正直(14), 一人(14), .jp(14)

頻出固有名詞

増田(43), 日本(25), じゃなくて(13), 安倍総理(13), 社会人(13), 可能性(13), 被害者(12), 娘(10), …。(10), 自民党(10), 山口(9), スマホ(9), 安倍(8), 2018年(8), 加計学園(8), 1人(8), 東京(8), いない(8), 柳瀬(7), GW(7), 1日(7), 何度(7), ツイッター(7), なのか(6), 普通に(6), 基本的(6), 元増田(6), エロい(6), Twitter(6), SNS(6), いつまでも(6), 知らんけど(6), なんだろう(6), 毒親(6), ブコメ(6), 愛媛県(6), 財務省(5), いいんじゃない(5), アメリカ(5), 自分自身(5), A(5), 自己責任(5), 価値観(5), CM(5), 大企業(5), TOKIO(5), 2人(5), 最終的(5), カス(5), 自分たち(5), LGBT(5), 犯罪者(5), はてブ(5), コミュ障(5), いいね(5), 担当者(5), 笑(5), 1万円(5), ネット右翼(5), わからん(5), 安倍自民党(5), 悪いこと(5), なんの(5), 筋トレ(5), 金(4), 安倍晋三(4), 大阪(4), OK(4), 八代(4), はてなー(4), ネトウヨ(4), 具体的(4), 立川志らく(4), ちんこ(4), 精神障害(4), 30歳(4), 昭和(4), ブクマ(4), TBS(4), 一方的(4), 夫婦(4), 不快感(4), B(4), 劣等感(4), 分からん(4), 1年(4), 毎日(4), かな(4), 米(4), にも(4), 精神的(4), プリキュア(4), アレ(4), アイコン(4), 好きな人(4), 任天堂(4), 数年(4), ひるおび(4), 人間関係(4), リアル(4)

今日以降MeCab辞書を変更

今日以降MeCab辞書mecab-ipadic-NEologd辞書に切り替える。昨日までのはNAIST辞書だった。メリットは週2回新語が追加されるので、2011年に更新が止まったNAIST辞書に比べて時事ネタに強い。デメリット固有名詞じゃないものまで固有名詞に分類しようとすること。一長一短あるけれど、メンテナンスが止まった辞書を使い続けるよりは良さそうなので変える。はてなキーワードから新語を探しているそうなので、はてなキーワードを整備すれば精度が上がるかもしれない。

はてな増田キーワードページ https://anond.hatelabo.jp/keyword/改善してくれればこんなことしないのにと思う。いま久しぶりにキーワードページ見たら表示される単語の数が減ってる気がする。改善しようと手を付け始めたのだろうか?

2018-05-04

[]2018年5月3日木曜日増田

時間記事文字数文字数平均文字数中央値
005611385203.379.5
0161465176.243
02283477124.256.5
03294545156.736
04176071357.164
05155744382.9128
06304886162.965.5
07374608124.552
08626410103.440.5
0973563377.242
1070656393.852
11101792578.535
121061011795.442
13140961068.633
14137756555.235
15114666658.532.5
1612113028107.739
178812250139.242
181401141781.634
191601534495.926.5
2011612046103.833.5
21153865956.631
221631331081.735
23617475122.551
1日207819938596.037

頻出名詞

人(198), 自分(132), 女性(82), 今(79), 増田(76), 差別(71), 女(71), 人間(71), 話(70), 仕事(68), 男(66), 男性(60), 感じ(57), 相手(55), 社会(54), 問題(53), 同じ(51), 日本(51), ー(50), 必要(49), 気持ち(49), 意味(49), 前(46), あと(45), 普通(44), 関係(43), 親(42), 時間(41), 会社(40), こんな(40), 子供(40), 好き(39), 気(38), 目(36), 低能(35), 山口(35), 言葉(34), 被害(34), 存在(34), 今日(34), 結婚(33), 生活(32), 友達(31), 他(30), 最近(30), 手(29), 主義(29), https(28), 行動(28), メンバー(28), 安倍(28), 男女(28), 発言(28), 一緒(27), 頭(27), 心(26), 時代(26), 家(26), 専用(25), 意見(25), 自身(25), 理由(25), 人生(25), 車両(25), おっさん(24), 状態(24), ネット(24), 先生(23), 金(23), 現実(23), 周り(23), 場合(22), 結果(22), 世界(22), 責任(22), 娘(22), 自己(22), 別(21), 最初(21), 他人(21), 自体(21), ダメ(21), い(21), 全部(21), 大変(21), レベル(21), 可能(20), ~(20), アニメ(20), 女子(20), 昔(20), 否定(20), 馬鹿(20), 理解(20), 個人(20), 自民党(19), 嫌(19), 逆(19), 一番(19), http(19)

頻出固有名詞

増田(76), 日本(51), 山口(35), 安倍(28), 自民党(19), 日(18), 東京(14), キモ(14), TOKIO(14), 自衛隊(12), アメリカ(8), 達也(8), 加計(7), 民主党(7), カス(6), 平成(6), 公明党(6), 昭和(6), 福島(6), JK(5), 共産党(5), 韓国(5), 羽生(5), スキ(5), 柳瀬(5), 中国(5), 晋(5), 大阪(5), マック(5), ぇ(5), 敬之(4), 愛媛(4), faq(4), チャイルド(4), 麻生(4), 京都(4), テレビ朝日(4), NHK(4), qa(4), ニセ(4), iPhone(3), 所(3), gt(3), CPU(3), 太郎(3), bot(3), 悟(3), フジテレビ(3), 出口(3), 健(3)

MeCabNAIST辞書 (2011年に更新が止まっている。)

MeCabmecab-ipadic-NEologd辞書 (固有名詞新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)

頻出名詞

人(184), 自分(125), 今(75), 話(68), 男(66), 女(66), 仕事(66), 増田(66), 人間(63), 女性(62), 感じ(55), 相手(51), 問題(51), 必要(49), 気持ち(48), あと(47), 意味(45), 差別(44), 前(44), 日本(43), 気(40), 子供(39), 普通(39), 男性(38), 目(37), 親(37), 関係(36), 低能(35), 好き(35), 社会(35), 今日(34), 会社(32), ー(32), 言葉(32), 友達(31), 存在(31), 結婚(31), 最近(30), 手(30), 他(30), https(29), 頭(28), 時間(27), 心(27), 理由(25), 意見(25), 現実(25), 人生(25), おっさん(24), 別(24), 被害者(23), 状態(23), 周り(23), しない(23), じゃなくて(23), 発言(22), 家(22), 場合(22), 金(22), 女性専用車両(22), 行動(22), 最初(21), 理解(21), 他人(21), 結果(21), A(21), 全部(21), 娘(21), レベル(21), 世界(21), 自体(20), 馬鹿(20), 先生(20), 男女(20), 勝手(20), 昔(20), 生活(20), アニメ(20), 嫌(20), ダメ(20), 否定(20), 逆(19), www(19), 批判(19), 顔(19), 大変(19), 一番(19), 誰か(19), 男性差別(19), 職場(19), 女の子(19), 一緒(19), 結局(18), 話題(18), http://(18), 時代(18), 記事(18), 無理(18), 自身(17), 山口(17)

頻出固有名詞

増田(66), 日本(43), じゃなくて(23), 被害者(23), 女性専用車両(22), 娘(20), 男性差別(19), 山口(17), 安倍(15), TOKIO(15), 可能性(14), 安倍総理(14), なんだろう(14), いない(13), 自民党(12), 自衛隊(12), 主義者(12), スマホ(12), A(11), 山口メンバー(11), 生活保護(11), hatena(11), カス(11), 元増田(11), 差別主義(10), いいんじゃない(10), 一緒に(10), Twitter(10), 男女平等(9), 女子高生(9), 1人(9), 2人(8), PC(8), ブログ(8), s(8), 上の(8), JK(8), 社交辞令(8), わからん(8), B(8), …。(7), リアル(7), 犯罪者(7), ツイッター(7), 一方的(7), ニセ科学(7), 劣等感(7), コミュ障(7), キモ(7), 私たち(7), ジャニーズ(7), キモい(7), ネット右翼(7), まんこ(6), ブコメ(6), 2018年(6), 普通に(6), 東京(6), 20代(6), 山口達也(6), 昭和(6), 何度(6), 社会人(6), ???(6), 公明党(6), 発言権(6), アメリカ(6), 毒親(6), 加計学園(6), 100%(6), 個人的(6), パワハラ(6), 基本的(6), 最終的(6), 笑(5), かな(5), 加害者(5), 1年(5), にも(5), 共産党(5), なのか(5), GW(5), 悪いこと(5), 外国人(5), 非モテ(5), いいね(5), 強制わいせつ(5), 自己責任(5), 脳内(5), 安倍自民党(5), 低所得(5), キチガイ(5), 人として(5), ー(5), フェミ(5), マジで(5), イケメン(5), 想像力(5), ニート(5), 婚活(5)

例えば「女性」と「専用」と「車両」に分割されていたのが「女性専用車両」で1語と数えられている。辞書データソースとしてはてなキーワードを使ったと書いてあるからよりはてな向きかもしれない。

いいんじゃない」が固有名詞扱いされているが、これは多分はてなキーワードソースにした弊害ではないだろうか。はてなキーワードを見ると「いいんじゃない」というジャニーズタレント楽曲があるという。「リアル」もはてなキーワード三菱テレビブランドとして説明されているせいで固有名詞扱いなのかもしれない。

一長一短があるな。

ログイン ユーザー登録
ようこそ ゲスト さん