「Mecab」を含む日記 RSS

はてなキーワード: Mecabとは

2018-05-03

[]2018年5月2日水曜日増田

時間記事文字数文字数平均文字数中央値
00818461104.539
01309896329.952.5
02252601104.070
03204251212.680.5
0415101267.525
05221651082.51082.5
061193585.072
07131887145.293
0838337188.746
09405422135.655
10669987151.375
111211070988.545
12102846483.044
131311152988.044
14104936090.038.5
151381037075.142
161891330770.449
172131754182.449
18118810268.736
191521098372.331.5
2063483976.835
2110914993137.662
221361182186.945.5
2311011771107.046
1日202719377795.644

頻出名詞

人(179), 女性(155), 自分(147), 男(108), 女(103), 男性(102), 社会(99), 話(97), 今(94), 増田(73), 前(64), 仕事(61), 意味(59), 相手(56), 問題(55), 人間(54), 同じ(52), ー(51), 関係(51), 男女(49), 必要(48), 好き(48), あと(47), 気(47), 子供(44), 感じ(43), https(43), 理由(41), 日本(41), 世界(40), 結婚(39), 時間(38), こんな(37), 普通(35), 進出(35), 手(35), 理解(34), 最近(33), 低能(33), 場合(32), 責任(32), 他(32), 気持ち(31), 個人(31), 会社(31), 逆(31), 山口(30), 目(30), 時代(30), 頭(29), 昔(29), 友達(29), com(29), 金(28), 先生(28), 一緒(28), 価値(28), メンバー(28), 無理(28), 存在(27), 一番(27), 猫(27), www(26), ネット(26), 被害(26), 言葉(26), 家族(26), 親(26), 状態(25), http(25), ゴミ(24), セックス(24), 自体(24), 雇用(24), 会見(23), ダメ(23), 結果(23), ~(23), 娘(23), アニメ(23), 通報(22), クズ(22), 最初(22), 企業(22), 人生(22), 確か(22), 全部(22), 嫌(21), 説明(21), 可能(21), 家(21), 原因(21), 今日(21), 差別(21), 主義(21), 現実(20), 周り(20), 家庭(20), 全体(20), 発言(20)

頻出固有名詞

増田(73), 日本(41), 山口(30), 韓国(15), TOKIO(14), 東京(12), 日(12), 安倍(11), アメリカ(11), キモ(10), 中国(10), 達也(10), 自衛隊(10), detail(8), JK(8), 平成(7), 金(7), article(7), マック(6), jsfiddle(6), イラ(5), 北朝鮮(5), Twitter(5), どん(5), pdf(5), 松岡(5), 昭和(4), default(4), VTuber(4), 韓(4), 自民党(4), サンクス(4), セブン(4), jpg(4), ツイ(4), 米(4), images(3), 明治(3), files(3), 太郎(3), 大正(3), 大阪(3), 朝鮮(3), ワイ(3), Vtuber(3), BC(3), 中(3), sthya(3), バーガー(3), SNS(3)

MeCabNAIST辞書 (2011年に更新が止まっている。)

MeCabmecab-ipadic-NEologd辞書 (固有名詞新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)

頻出名詞

人(165), 自分(141), 女性(138), 男(105), 話(98), 女(95), 男性(95), 今(86), 社会(76), 前(62), 仕事(61), 相手(56), 増田(55), 意味(54), 気(50), 問題(49), 必要(48), 人間(48), 関係(47), あと(46), 好き(46), https(44), 子供(43), 感じ(42), 理由(41), 結婚(38), 日本(37), 手(35), 進出(35), 理解(34), 低能(33), 目(33), ー(33), 男女(33), 最近(33), 世界(32), 場合(32), 他(31), 普通(30), 気持ち(30), 頭(29), 会社(29), 逆(29), 時間(28), 先生(28), 友達(28), 無理(28), 昔(27), しない(27), 存在(26), .com(26), 言葉(26), www(25), 金(25), 一番(25), しよう(25), 猫(24), 自体(24), http://(24), 状態(23), セックス(23), 一緒(23), じゃなくて(23), ゴミ(23), 親(23), 娘(22), 雇用(22), クズ(22), ダメ(22), 通報(22), 確か(22), 全部(22), 責任(22), 嫌(22), アニメ(22), 最初(22), 結果(21), 人生(21), 今日(21), メンバー(21), 説明(21), 全く(21), 原因(21), 別(21), ネット(20), 女子高生(20), 周り(20), 価値(20), 一人(19), 時代(19), おっさん(19), 結局(19), 大人(19), 当たり前(19), 幸せ(19), 場所(19), 家(19), 記事(19), 現実(19), 議論(18)

頻出固有名詞

増田(55), 日本(37), じゃなくて(23), 女子高生(20), 娘(20), TOKIO(17), 被害者(16), JK(16), 元増田(16), 山口(15), 可能性(15), なんだろう(13), 韓国(13), リアル(13), 社会的(12), いない(12), フェミ(12), 男女平等(11), アスペ(11), 女性専用車両(10), なのか(10), Twitter(10), 専業主婦(10), detail(9), アメリカ(9), 謝罪会見(9), 山口達也(9), 暴力装置(9), 自衛隊(9), キモ(9), 産む機械(9), 経済力(9), スマホ(9), アファーマティブアクション(8), 具体的(8), トラバ(8), 東京(8), s(8), 最終的(8), いいね(8), 分からん(8), わからん(8), 個人的(8), である(7), 何度(7), マジレス(7), いいんじゃない(7), 安倍(7), twitter(7), SNS(7), 性犯罪(7), 中国(7), 100円(7), 芸能界(7), ツイート(7), どんだけ(7), article(7), 私たち(7), まんこ(7), 4人(7), 家族主義(7), 価値観(6), 加害者(6), 金(6), livedoor(6), 基本的(6), 2018年(6), クリエイター(6), GW(6), jsfiddle(6), NG(6), 平成(6), ツイッター(6), ???(6), 介護士(6), お酒(6), 一緒に(6), 婚活(6), …。(5), 1000円(5), 普通に(5), 生物学(5), 北朝鮮(5), いつまでも(5), 笑(5), 生理休暇(5), アプリ(5), 外国人(5), エロい(5), 20代(5), アルコール依存症(5), ロリ(5), 山口メンバー(5), 男なら(5), マジで(5), LINE(5), ニート(5), org(5), ムスリム(5), マック(5)

2018-05-02

[]2018年5月1日火曜日増田

時間記事文字数文字数平均文字数中央値
00799658122.333
0153469288.540
0244329274.843.5
03133863297.2121
0482747343.485
05152423161.558
06193601189.576
07141496106.952.5
0840284471.140.5
0954343963.736
1010011225112.354
119011656129.531
1277741496.348
13849407112.042.5
14122691956.736
1595849889.541
16779611124.844
1710213434131.750
181161099794.856.5
19899362105.258
20869615111.874.5
211311011277.231
2298762777.835.5
2310215118148.255
1日1708179050104.844

頻出名詞

人(162), 自分(132), 今(82), 話(72), 仕事(71), ー(70), 増田(60), 時間(59), 人間(57), 前(56), https(50), 日本(50), 女(47), 好き(45), 必要(45), 男(44), 問題(44), 女性(43), 感じ(42), 関係(41), 気(40), こんな(39), 最近(38), 手(37), ネット(36), 同じ(36), 社会(35), 意味(35), ~(33), 理由(33), 男性(32), com(31), 普通(31), 会社(31), 頭(30), 目(30), あと(29), 気持ち(29), 相手(29), 子供(29), 今日(29), 理解(28), http(28), 生活(28), 漫画(27), 他(27), 企業(26), www(25), レベル(25), 無理(25), 絶対(25), 安倍(24), 結局(24), 政治(24), 時代(24), 世界(23), 家(23), 他人(22), 就職(21), 顔(21), 状況(21), 技術(21), 嫌(21), 一番(21), 結果(21), 情報(20), 周り(20), 韓国(20), 金(20), 可能(20), 個人(20), 勉強(20), 状態(20), 感覚(19), 場合(19), 警察(19), ストレス(19), エロ(18), 差別(18), 昔(18), 自体(18), 程度(18), ゲーム(18), 世の中(18), 人生(18), 経験(17), 親(17), anond(17), 国(17), 責任(17), 言葉(17), 行為(17), 学校(17), 作品(17), 馬鹿(17), ほとんど(17), 山口(17), メンバー(17), 存在(17), 努力(17)

頻出固有名詞

増田(60), 日本(50), 安倍(24), 韓国(20), 山口(17), 日(12), キモ(11), 東京(10), 日野自動車(9), FaHNI(9), trucks(9), release(9), sugawara(9), racing(9), team(9), dakar(9), beiDW(9), KkJk(9), racereports(9), アメリカ(8), 北朝鮮(7), twitter(7), LINE(6), 韓(6), detail(6), 金(6), 中国(6), 伊集院(6), 自民党(6), 平成(6), 自衛隊(5), 大阪(5), 中(5), コス(5), real(5), 米(5), 米国(5), bayern(5), munich(4), 敬之(4), 光(4), 下高井戸(4), 達也(4), report(4), match(4), 朝鮮(4), 太郎(4), megalodon(4), どん(4), 東大(4)

MeCabNAIST辞書 (2011年に更新が止まっている。)

MeCabmecab-ipadic-NEologd辞書 (固有名詞新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)

頻出名詞

人(143), 自分(128), 今(79), 話(74), 仕事(68), 増田(53), 人間(47), 前(47), 女(46), 時間(46), 気(46), 男(45), 好き(45), 日本(44), 必要(44), https(44), 感じ(42), 問題(42), ー(40), 女性(40), 手(38), 最近(38), 関係(33), 理由(33), 気持ち(30), 会社(29), 相手(29), 子供(29), 普通(29), 意味(29), 目(29), あと(28), 今日(28), http://(27), しない(27), 頭(27), 理解(26), 他(26), 男性(26), 絶対(25), ネット(25), レベル(25), 無理(25), .com(24), 結局(24), 嫌(22), 他人(22), 状況(21), 一番(21), 結果(20), 顔(20), しよう(20), www(20), 周り(20), 勉強(20), 家(20), 時代(19), 場合(19), ストレス(19), 感覚(19), 状態(19), 世の中(18), 人生(18), 昔(18), バカ(18), ただ(18), 就職(18), 努力(17), 言葉(17), 名前(17), 韓国(17), 企業(17), 金(17), 程度(17), anond(17), 馬鹿(17), 自体(17), 話題(17), 毎日(17), 勝手(17), 意見(17), 社会(16), .jp(16), 全部(16), 作品(16), 記事(16), co.jp(16), 警察(16), 最初(16), 世界(15), ゲーム(15), 政治(15), 夫(15), 経験(15), 可能性(15), 内容(15), 漫画(15), 出て(15), 行為(15), 別(15)

頻出固有名詞

増田(53), 日本(44), 韓国(17), 可能性(15), わからん(14), じゃなくて(13), twitter(13), youtube(13), マジで(12), 安倍総理(12), まんこ(10), v(10), 安倍(10), 何度(9), キモ(9), team(9), beiDW(9), dakar(9), trucks(9), KkJk(9), 漫画家(9), release(9), racing(9), 3w(9), 耐久性(9), 日野自動車(9), FaHNI(9), 24g(9), racereports(9), 山口メンバー(9), アプリ(9), hino(9), 基本的(9), sugawara(9), 午後ティー(8), 人間関係(8), スマホ(8), リアル(8), ???(8), LINE(8), 発達障害(8), いない(8), かもしれん(7), コミュ力(7), 分からん(7), detail(7), 北朝鮮(7), アメリカ(7), SNS(7), いいんじゃない(7), 最終的(7), なのか(7), E(6), なんだろう(6), オナ禁(6), アレ(6), 中国(6), 自民党(6), 登場人物(6), Twitter(6), 2歳(6), ある意味(6), お客さん(6), 就活(6), 女子高生(6), 1人(6), 大企業(6), 元増田(6), 唐揚げ(6), IT(6), JK(6), ファブリーズ(6), ダンバイン(6), にも(5), 自衛隊(5), 具体的(5), 副流煙(5), 金(5), AV(5), 米国(5), 社会的(5), 体育会系(5), ツイート(5), ぶっちゃけ(5), 涙(5), イケメン(5), ヤバい(5), 一人(5), フェミ(5), ブコメ(5), 技術力(5), 10年(5), OK(5), 夫婦(5), コスパ(5), カレー(5), ツイッター(5), …。(5), ネット上(5), go(4)

2018-04-29

anond:20180426000203

はてブGIGAZINE人工知能や機械学習を利用しなくても「SQLの使い方」次第で収益アップは可能って記事を見かけた。収益でやってるわけじゃないけど、1日の増田MeCabで切り分け、品詞タグを付けてデータベースに格納できたとして次は何ができるのだろう?

2018年4月25日水曜日増田

MeCabで使われているのはNAIST辞書らしい。

種類延べ使用回数
名詞981869979
形容詞30053393
動詞173926181
助動詞3316643
助詞1423736
副詞5173658
連体詞391246
接続詞881107
接頭詞92773
感動詞115519
フィラー13155
その他22
合計12898177392
より細かく
種類延べ使用回数
名詞一般588530943
名詞サ変接続17699813
名詞非自立807111
名詞接尾4465180
名詞474595
名詞固有名詞11343364
名詞形容動詞語幹5893356
名詞代名詞823248
名詞副詞可能2392072
名詞ナイ形容詞語幹13264
名詞接続詞317
名詞特殊214
名詞動詞自立的12
形容詞自立2943484
形容詞非自立8202
形容詞接尾250
動詞自立171819932
動詞非自立724740
動詞接尾61509
助動詞3316643
助詞格助詞5420732
助詞接続助詞289215
助詞係助詞88077
助詞連体化25734
助詞助詞333025
助詞助詞262405
助詞並立助詞81737
助詞助詞/並立助詞/終助詞11594
助詞副詞2825
助詞特殊349
副詞一般4312597
副詞助詞接続861061
連体詞391246
接続詞881107
接続詞881107
接頭詞名詞接続82681
接頭詞形容詞接続245
接頭詞動詞接続36
感動詞115519
フィラー13155
その他間投22

以下は1エントリーに3回出現したら3回と数える方法で数えたもの

頻出動詞

する(4260), てる(1711), いる(1617), れる(1043), ある(1002), なる(974), 思う(688), 言う(647), いう(562), くる(351), やる(350), できる(335), 見る(300), られる(272), わかる(180), 出る(171), しまう(168), 考える(165), 行く(163), いく(156), 知る(152), せる(149), くれる(138), 分かる(129), みる(126), 乗る(124), 使う(122), 出来る(110), 持つ(110), 書く(109), やめる(107), 違う(105), 出す(94), しれる(90), 読む(88), 感じる(87), 作る(86), すぎる(84), ちゃう(84), いける(82), 聞く(78), でる(71), 乗れる(70), 認める(69), 買う(69), 叩く(63), 死ぬ(63), 来る(62), く(62), 変わる(62), 入る(60), 受ける(60), 食べる(60), もらう(57), 見える(57), 続ける(56), 言える(54), かける(53), 終わる(51), 守る(49), つける(48), 行う(47), 描く(46), 生きる(46), 語る(46), 入れる(45), 始める(45), 働く(45), 取る(42), 減る(41), 居る(41), 飲む(40), 許す(40), なくなる(39), 訴える(39), 話す(39), つく(37), 観る(37), かかる(37), おく(36), くださる(36), あげる(35), とる(34), 黙る(34), 得る(34), 言い出す(33), 殺す(33), 思える(32), 払う(32), 過ぎる(31), 教える(29), 辞める(29), 決める(28), 気づく(27), 怒る(27), 生まれる(27), 調べる(27), なれる(27), 扱う(26), 呼ぶ(26), 限る(25), いじめる(25), 起きる(25), 頑張る(25), 合う(25), がる(25), 変える(24), 含める(24), 待つ(24), 笑う(24), 立つ(24), 飽きる(24), 許せる(24), 戦う(23), 増える(23), 会う(23), 同じる(23), とく(23), 間違う(23), 捨てる(23), 信じる(22), 住む(22), 困る(22), よる(22), 読める(22), 通る(22), 覚える(22), 騒ぐ(22), 比べる(22), 楽しむ(21), 寝る(21), おる(21), 触る(21), 与える(21), 押し付ける(21), 見せる(21), 上がる(21), 避ける(20), 帰る(20), 思い出す(20), 向く(20), 進む(20), 続く(20), 歩く(20), 決まる(20), 着る(20), 選ぶ(19), 忘れる(19), 引く(19), 触れる(19), 分ける(19), つながる(18), 媚びる(18), 逃げる(18), 似る(18), 上げる(18), 起こす(18), もらえる(18), 繰り返す(18), 残る(18), 殴る(18), 答える(18), まとめる(18), 付き合う(17), 投げる(17), 付ける(17), 走る(17), 受け入れる(17), 含む(17), 求める(17), ひる(16), 関わる(16), 吐く(16), させる(16), 済む(16), 隠す(16), 集める(16), 始まる(16), 使える(15), 掲げる(15), うる(15), 流れる(15), 落ちる(15), 誘う(15), 除く(15), 止まる(15), 返す(15), まくる(15), だす(15), 示す(15), いえる(15), 問う(15), 追い出す(15), 消える(15), 送る(15), 食う(15)

頻出形容詞

ない(930), 良い(221), コワい(198), 悪い(142), 多い(140), 無い(104), ほしい(66), おかしい(60), よい(57), 高い(54), 楽しい(53), すごい(53), 強い(52), 怖い(50), っぽい(49), 面白い(44), 少ない(43), 欲しい(43), 正しい(38), 早い(34), やすい(33), 難しい(31), 低い(29), 近い(29), 弱い(28), 長い(28), 可愛い(25), 大きい(22), うまい(20), 若い(19), 凄い(19), かわいい(19), 恥ずかしい(19), 黒い(18), 優しい(18), 美味しい(17), 軽い(17), 安い(17), 上手い(17), 辛い(17), 新しい(17), 痛い(16), にくい(16), 古い(16), 甘い(15), 嬉しい(15), 小さい(15), 広い(14), 羨ましい(14), 臭い(14), 深い(13), やばい(13), つまらない(13), うるさい(11), 遅い(11), おいしい(11), 激しい(11), 厳しい(11), 重い(11), 苦しい(11), 珍しい(10), 悲しい(10), 偉い(10), 悔しい(9), 浅い(8), 寒い(8), つらい(8), 酷い(8), ええ(8), ダサい(8), 縁遠い(8), こい(7), かっこいい(7), 詳しい(7), きつい(7), まずい(7), づらい(7), ひどい(7), 忙しい(7), 細かい(7), 面倒くさい(6), 短い(6), 汚い(6), やさしい(6), めんどい(6), 狭い(6), 速い(6), ゆるい(6), しんどい(6), 素晴らしい(6), 嘆かわしい(6), でかい(5), 仲良い(5), 恐ろしい(5), 鬱陶しい(5), 熱い(5), くさい(5), 遠い(5), 怪しい(5), 温かい(5), いたい(4), すい(4), すまない(4), しょぼい(4), 冷たい(4), 古臭い(4), 格好いい(4), めんどくさい(4), ありがたい(4), うれしい(4), 青い(4), 暗い(4), 等しい(4), よろしい(4), おもしろい(3), 数多い(3), 憎い(3), もったいない(3), カッコイイ(3), 望ましい(3), 親しい(3), 興味深い(3), 少い(3), ものすごい(3), 手っ取り早い(3), 賢い(3), しつこい(3), 白い(3), 幼い(3), 物凄い(3), 気持ちいい(3), つまんない(3), 濃い(3), 悪しい(3), 貧しい(3), でっかい(3), 美しい(3), 済まない(3), たまらない(3), 危うい(3)

頻出副詞

どう(213), そう(213), もう(137), よく(95), もっと(85), なんで(74), ちょっと(70), 本当に(67), 別に(62), まだ(56), ちゃんと(53), 全く(50), 全然(47), とても(46), むしろ(46), まあ(44), なぜ(39), ずっと(35), 特に(35), 結構(34), やっぱり(33), もちろん(33), 多分(32), すぐ(30), いつも(29), とりあえず(28), まず(27), そんなに(27), かなり(25), これから(25), こう(23), すぐに(23), 少なくとも(22), とにかく(22), わざわざ(21), 初めて(21), ほぼ(20), 少し(20), どうして(19), さらに(19), たぶん(18), なんと(17), あまり(16), 実際(16), いっぱい(15), いきなり(15), きっと(15), すでに(15), やっぱ(14), 当然(14), 相当(14), いくら(14), たしかに(14), おそらく(14), どうしても(13), せめて(13), やたら(13), 大いに(13), もし(13), たまに(12), もう少し(12), あんまり(12), 既に(12), カッ(12), まさに(12), はっきり(12), なんとなく(12), 仲良く(11), 一応(11), めっちゃ(11), どんどん(11), 何故(11), どうせ(11), まさか(11), いくらでも(11), ある程度(11), 仮に(11), 更に(10), まったく(10), ああ(10), 単に(10), いい加減(10), そろそろ(10), どうにか(10), なかなか(10), 常に(10), それだけ(10), しっかり(9), はて(9), 何で(9), やはり(9), いやいや(9), あくまで(9), なんだか(9), 必ず(9), きちんと(9), ともかく(9), より(8), 実際は(8), こんなに(8), けっこう(8), もしかして(8), 今更(8), あまりに(8), そのうち(8), しばらく(8), いかに(8), 何より(8), 一体(7), 同時に(7), 要するに(7), あんなに(7), 大して(7), 意外と(7), 決して(7), たって(7), あえて(7), もはや(7), だいたい(7), ピン(7), たまたま(7), さすが(6), よろしく(6), たった(6), たとえ(6), どうぞ(6), とっくに(6), 突然(6), さっさと(6), ほんとに(6), よほど(6), そこら(6), つい(6), 勿論(5), それなり(5), 時々(5), 一度(5), しょっちゅう(5), ニコニコ(5), なにか(5), いったい(5), どうも(5), 無理やり(5), ひとつ(5), まして(5), やっと(5), 大体(5), さっぱり(5), 最も(5), 無理矢理(5), ワクワク(5), ちょい(5), 何故か(5), ふと(5), さ(5), ごく(5), やや(5), 公然(5), また(5), それほど(5), 多少(4), 本当は(4), ちょうど(4), そっくり(4), だんだん(4), だいぶ(4), せっかく(4), バンバン(4), 必ずしも(4), 何となく(4), いかにも(4), なんとも(4), どー(4), いか(4), ただただ(4), ダラダラ(4), ずーっと(4), 長々(4), うんうん(4), 未だに(4), どんなに(4), おいおい(4), 正直(4), かつて(4), よし(4), たかだか(4), 案外(4)

頻出助詞

の(6143), に(5349), は(5305), が(5200), て(4639), を(3739), と(3080), で(2801), も(2446), か(1594), から(1411), よ(1036), けど(720), って(707), とか(689), な(674), という(546), だけ(483), ね(451), じゃ(431), ば(428), し(423), や(368), ので(345), まで(249), として(233), たり(223), のに(222), しか(210), でも(204), なんて(203), わ(156), ぞ(152), かも(151), より(128), など(125), くらい(125), へ(117), だって(103), について(97), けれど(86), ながら(83), ほど(69), っていう(67), なぁ(61), ぐらい(58), なんか(53), なあ(53), に対して(50), なー(47), ばかり(46), こそ(44), にゃ(43), んで(41), によって(40), さ(39), による(38), にとって(37), だの(34), すら(34), ちゃ(32), に対する(28), なり(27), ぜ(26), ねぇ(26), のみ(25), ねー(22), ん(22), における(21), つ(18), とかいう(18), とも(17), とともに(17), さえ(16), ってな(16), において(15), に関して(14), つつ(13), ずつ(13), に関する(12), よー(12), ばっかり(12), だり(11), といった(11), ねえ(11), やら(11), っけ(11), どころか(10), ばっか(10), じゃあ(10), べ(10), により(9), たって(9), けども(8), っと(7), ものの(7), につき(6), かい(5), かしら(5), 程(5), ていう(4), をもって(4), かぁ(4), けれども(4), け(4), ねん(3), ノ(3), かな(3), に対し(3), もん(3), デ(3), にまつわる(3), を通して(3), を通じて(3), ど(2), につれ(2), ばかし(2), ワ(2), ヨ(2), なんぞ(2), にあたり(2), をめぐって(2), にかけて(2), しも(2), にわたって(2), なぞ(1), ちゃあ(1), のう(1), ネ(1), ども(1), にあたって(1), 之(1), からには(1), にたいして(1), といふ(1), にて(1), にたいする(1), に際して(1), わい(1), と共に(1), に当たり(1), なぁー(1)

頻出接続詞

でも(91), だから(84), そもそも(75), いや(67), また(65), ただ(60), そして(60), しかし(46), しかも(27), それで(24), なお(22), 例えば(22), つまり(22), それでも(21), ちなみに(20), じゃあ(20), そりゃ(19), 実は(17), だって(15), 一方(15), けど(15), かつ(15), それとも(12), よって(12), あるいは(11), だが(10), そしたら(10), では(10), そこで(10), または(8), んじゃ(8), じゃ(8), ってか(8), それどころか(8), ただし(8), ないし(8), たとえば(7), 及び(7), まずは(7), それなのに(7), だからこそ(7), 同じく(7), それと(6), なので(6), それにしても(6), もしくは(5), それに(5), だけど(5), てか(5), それなら(5), なら(5), ところで(4), こうして(4), だからといって(3), なぜなら(3), で(3), それから(3), 本当は(3), なのに(3), にもかかわらず(3), ましてや(2), おまけに(2), ところが(2), すると(2), というのも(2), ならば(2), したがって(2), そうなると(1), 追って(1), つまるところ(1), ほんで(1), および(1), 即(1), 次に(1), されど(1), 因みに(1), かくして(1), それも(1), ともあれ(1), 即ち(1), すなわち(1), しかしながら(1), けれども(1), ほなら(1), 否(1), たとへば(1), したら(1), ゆえに(1)

頻出感動詞

はい(31), ああ(29), はてな(23), うん(20), あ(20), ええ(19), まぁ(16), ほんと(15), ごめん(13), ありがとう(13), こりゃ(9), ま(9), すまん(8), じゃぁ(8), えっ(8), うーん(7), おっ(7), ごめんなさい(7), まあ(7), う(6), お疲れ様(6), あぁ(5), おい(5), そら(5), なるほど(5), あー(5), へー(4), さぁ(4), いいえ(4), あかん(3), いやー(3), ウン(3), ほら(3), よし(3), お(3), はぁ(3), おお(3), フェ(3), もしもし(2), おや(2), ふーん(2), おめでとう(2), さあ(2), うふふ(2), よお(2), うわ(2), はあ(2), はーい(2), え(2), あれ(2), さよなら(2), へぇ(2), おはよう(2), オー(2), あっ(2), ありがと(2), へえ(1), わーい(1), じゃー(1), なんともはや(1), ご馳走さま(1), ノー(1), はて(1), ヤダー(1), えー(1), さようなら(1), すみません(1), はっ(1), ざまあみろ(1), わぁ(1), すいません(1), 嗚呼(1), うーむ(1), ふふふ(1), いな(1), うふ(1), いえいえ(1), ほう(1), ねえ(1)

頻出助動詞

だ(6538), た(3603), ない(3312), う(771), です(558), ます(347), たい(337), ある(285), ん(210), ぬ(159), じゃん(111), べし(103), や(70), らしい(60), やん(33), り(30), っす(15), つ(11), ござる(11), じゃ(11), たり(11), じ(9), 無い(9), る(8), き(8), まい(7), まじ(5), やす(3), ごとし(2), なり(2), へん(2), 如し(1), けり(1)

頻出接頭詞

お(141), 大(45), 元(43), クソ(42), 反(42), 第(24), ご(24), 非(20), 新(18), 全(16), 他(15), 被(14), こ(14), バカ(13), 低(13), 再(12), 不(11), コ(11), 本(10), 逆(10), 約(10), 今(10), 副(9), 超(9), 旧(8), 最(7), 弱(7), ド(7), 前(6), す(6), 中(6), 高(6), 各(6), 自(5), 名(5), 現(5), 異(5), ま(5), 別(5), 女(5), ど(4), 無(4), 同(4), 立ち(4), 後(4), 即(4), 計(4), 親(3), 引き(3), 草(3), 小(3), 原(3), 初(3), くそ(3), み(3), 下(2), 等(2), ニセ(2), 抗(2), 横(2), 某(2), 分(2), 長(2), 実(2), 薄(2), ぶっ(2), 多(2), 好(2), 未(2), 若(1), 双(1), 生(1), 両(1), 共(1), 総(1), 可(1), 省(1), 助(1), 重(1), 消(1), 築(1), 内(1), 老(1), ぶち(1), 短(1), 丸(1), 悪(1), 単(1), 乳(1), 諸(1), 半(1), 満(1)

頻出フィラー

え(40), なんか(33), ま(22), あ(17), まあ(14), あの(13), あー(8), えーと(2), えー(2), うん(1), と(1), そうですね(1), ええと(1)

頻出連体詞

その(363), この(227), そういう(197), そんな(138), こういう(71), あの(53), どの(26), ある(20), どういう(19), 大きな(17), そういった(11), どんな(11), いろんな(11), 単なる(10), あらゆる(7), 小さな(7), あんな(7), いわゆる(6), 色んな(5), 何らかの(5), とある(4), 大した(4), おかしな(3), 然るべき(2), そうした(2), 輝ける(2), ろくな(2), 亡き(2), 見知らぬ(2), わが(2), ちょっとした(2), かかる(1), ありとあらゆる(1), さしたる(1), かの(1), 更なる(1), こうした(1), ほんの(1), 碌な(1)

2017-09-29

TechCrunch JPタイトルから hiwa 氏の翻訳か否かを深層学習推定する

追記 (9月30日 22:00)

最近タイトルを読むだけで hiwa 氏が翻訳したものかどうかがわかるようになってきた。

例えば、「死んだはずのBlackBerryがソフトウェア企業として蘇生、業績も株価も好調」というタイトルは「死んだはずの」という挑発的な言葉遣いは hiwa 氏だろう(そしてそのような文句は元記事にはないだろう)と推測したり(確認してみると元記事タイトルは "BlackBerry, yes BlackBerry, is making a comeback as a software company" であり、「死んだはずの」や「業績も株価好調」といった文言は含まれていない)、「GoogleがAmazonのEcho ShowからYouTubeを突然取り去る、サービス規約への違反だそうだ」というタイトルでは「〜〜〜、〜〜〜」という独特な文の接続や、文末の「だそうだ」という物言いから氏であろうと推測している。

私が推測できるのだからアルゴリズムでも可能ではないだろうか? そう考え、機械学習の中でも特に深層学習を用いて推定可能である検証した。

タスク

タイトル文字列(本文情報は用いない)からその記事翻訳者が hiwa 氏であるか ( = 1) そうでないか ( = 0) を学習予測する二値分類問題

学習データ

TechCrunch Japan記事データ 11,993 件。うち 3,781 件が hiwa 氏が翻訳したものである

手法

入力文は vanillaMeCab [1] を用いて分かち書きを行い、それぞれの単語は「日本語 Wikipedia エンティティベクトル」[2] を用いて 200 次元に埋め込んだ。語彙数は 17,272 だった。

予測モデルは 32 次元の LSTM [3]。dropout 率は 0.5。文の最大長は 120 単語zero-padding を行い、バッチサイズ 32 の Adam [4] で最適化した。

LSTM の実装には keras 公式に用意されたもの [5] を参考にした。

結果

精度 0.85, 再現率 0.80, f値 0.82 とまずまずの精度で予測可能であることがわかった。

ちなみに、 CNN による推定では 精度 0.84, 再現率 0.80, f値 0.82 という同等の結果を得た。

結論

機械学習を用いることで、記事を開く前に hiwa 氏が翻訳したものであるか否かがまずまずの精度で分類できることがわかった。深層学習はすごい。

参考文献

[1] MeCab: Yet Another Part-of-Speech and Morphological Analyzer

[2] Long Short-Term Memory

[3] 日本語 Wikipedia エンティティベクトル

[4] [1412.6980] Adam: A Method for Stochastic Optimization

[5] keras/imdb_lstm.py at master · fchollet/keras · GitHub

2017-09-19

anond:20170919004517

いつもは何も考えずにまず実装してるんですけど

今回はまずひたすらリサーチしてます

mecab ruby 名詞」で検索してヒットしたページみてとりあえずmecab組み込んだrubyプログラムテキスト突っ込んで、名詞だけ取り出せて、名詞カウントができることも理解しました

増田対応した mecab辞書、がヒントになりそうですね。助かります

名詞メタデータのようなもの(例えば、["学歴", "年収"]をcategory1、["韓国", "日本"]をcategory2)作るって感じで同じ記事の中で出てくる一緒に頻出しやす名詞カテゴリ分けできればあとは簡単そうなんですけど、それがmecab辞書ってことかな?違うか



追記

mecab辞書固有名詞取り出すために必要ってことか

https://blog.fenrir-inc.com/jp/2016/11/mecab.html

確かに増田特有言い回しがあるからそれに対応

それとも増田からmecab抽出した名詞増田特化させた独自mecab辞書を利用したmecabで解析するってこと?いや、自分でも書いてて効果がよく分からん

anond:20170919003931

mecab形態素解析して頻出名詞データ化する

ところは上手くできてるん?

増田対応した mecab辞書を作らないと難しそうな気もするけど。

増田テキストマイニングして投稿者パターン判別

https://anond.hatelabo.jp/20170918004847

続き

テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない

スクレイピングデータを取る→mecab形態素解析して頻出名詞データ化する→頻出名詞によって元増田がどのカテゴリーの属するのか判定する

最後カテゴリーを作るのがむずい。カテゴリー名前を人力でつけようとするから難しいのか。ある程度頻出名詞が似通ったら(閾値を作って似てるの基準を作る)適当に振った名前group1,group2等に放り込むか。頻出名詞が似てるかどうかを判定するのは何の理論を使うのか、もしくは何のライブラリを使ったらどれだけ似てるかの判定を簡単にできるのか

最後のどれだけ似てるかの判定が自分は分からないってことが分かった

こういうのはどこで質問したら良い回答が得られるかな

2017-06-27

学校の授業でプログラミングを教えるとしたら言語は何が良いのだろう

自分情報系の大学生

弊学では、2年生の時に必修のプログラミングの授業でC言語を習う。

中学生の頃からパソコン大先生スクリプト言語を軽く触ってた自分としては、わざわざ面倒な書き方で面倒なコンパイルをして動かす事に疑問を感じていた。

ちなみに、試験は紙ベースで、手書きプログラミングをさせられる。つらい。

スクリプト言語で良いと思ってた自分は、C言語を覚えることに疑問を感じていた。

結局、授業以外で全く勉強せずに試験結果は散々だったが、なんとか単位が取れたので良しとしよう。

プログラミング学者である人は苦労して書き方を覚えていたように思う。

脱落していった人を何人も見たが、人間やれば出来ないと思っていたことが出来るのである

本来プログラミングは誰でも出来るはずである

今学期、PHPを書く授業とPythonを書く授業を履修してみた。

PHPは、某テキストをもくもくと写経して動かしてみる授業で、独学でテキストコードを動かす気力のない自分にとっては最高の授業だ。

Pythonは、MeCabなどで形態素解析構文解析をする授業で、サンプルコード自分で考えてカスタマイズして毎回レポートで提出する。

Pythonの書き方に慣れないからか、かなりハードであるが、やりがいがあっていい感じだ。

やはり、スクリプト言語楽しい

書いたらすぐに目に見える成果が出るところが大きい。

自分は、プログラミングを授業で教えるのならスクリプト言語に限るはずだと思う。

そう思っていた矢先に事件が起こった。

最近研究室に入ったところ先生が手当たり次第Javaを教え始めたのである

せめてJavaScriptでいいかスクリプト言語を教えてほしいところなのに、なんでJavaなんだと発狂した。

それでも、30億のデバイスで動くハイブリッドさとオブジェクト指向理解する上での分かりやすさという面ではJavaが手軽なのかもしれない。

コンパイル言語も悪くはないと思い始めた。

ところで、最近になってプログラミング教育義務化とか叫ばれてるが、Scratchでパーツを並べてプログラミングをするなんてただの積み木に過ぎないと思う。

絶対にツマラナイだろう。

自分は、プログラミングの授業で数字を足し算して黒い画面に表示させるとかツマラナイと感じてしまった。

こんな複雑なことをしても、これしか成果が出ないならやってられないと思うのは自分だけなのだろうか。

お願いだからプログラミングを教えるのならツマラナイ授業をしないで欲しい。

生徒に分かるように、生徒は楽しんでプログラミングをするべきだ。

別にどんな言語でもいいと思うが、プログラミング言語は人それぞれ好き嫌いが激しいだろう。

自分は、分かりやすくて直感的なRubyというプログラミング言語学校の授業で採用されるべき言語に間違いないと思う。

別にRubyにこだわる必要はなくて、スクリプト言語であればなんでも良いと思う。

CやJavaなどのコンパイル言語は複雑で分かりにくいし、教えにくいはずだ。

スクリプト言語を教えた後に、コンパイル言語オブジェクト指向概念を教えていくのがいいのではないだろうか。

これは、あくまでもたった1人の大学生意見しか過ぎない。

みんなの意見を知りたい。

2017-03-23

[]3年を経てまだお前らはロリコンなのか

適当増田キーワードリンクをつついていたら「増田流行語を調べてみたら、やっぱりお前らは○○コンだった」というエントリにたどり着いて面白いなと思ってしまった。

http://anond.hatelabo.jp/20140127113403

これならできるかもと思い立ち、5時間を費やして完成した2017年3月版(1日から22日)がこれ。

シロウトなのでどれがノイズか分からないし、単語の切り分けもMeCab+JUMAN辞書とお手軽に済ませてしまったので、同等のものだとは思わないでね

結果

1位 安倍 = 1462

日中張り付いて書いてる人がいるよね

2位 好き = 1216

好きとか言わない人達かと思ってた。失礼だった。

3位 仕事 = 1193

前回717からジャンプアップ

4位 増田 = 1162

5位 日本 = 1141

6位 女 = 1108

5割がた増えた

7位 人間 = 1081

8位 問題 = 1058

9位 時間 = 1046

10位 男 = 1019

11子供 = 856

数は減っているが、集計日数的にも減ってるので2%減の横ばい

12ゲーム = 815

13位 意味 = 799

14位 会社 = 752

15位 関係 = 745

16位 世界 = 734

17ネット = 721

18位 女性 = 716

19位 死 = 712

20位 家 = 695

21位 普通 = 694

22位 社会 = 676

23位 金 = 662

24必要 = 659

25位 相手 = 606

26位 気持ち = 604

27位 アニメ = 598

28言葉 = 588

29位 頭 = 558

30位 理解 = 544

ロリコンは残っているが他の事にも興味が出たのか

ちなみに

フレンズ282回

サーバルちゃんと思しき「バル」が82回、「サー」は84回

2015-06-07

おでんの集計

結局どうやるのが良かったんだろう。grepwcで頑張るには複雑すぎる気がした。

ツイートの取得のやり方は思いつかないんだけど、集計はmecabに渡した後Perlなりで名詞連想配列に放り込んでカウントダンプするのがよさそうかなと思った。

…量そんなないし手作業でやるのが一番だったかなぁ。。。

2014-01-27

http://anond.hatelabo.jp/20140127114705

クラスタリングの時点で素人ではないと思ってたけど、やっぱりこっち系の人なんだね。

Mecab入れようと思ってたんだけど、pythonラッパーインスコが遅すぎ and Yahooの方がクオリティが高いらしい ということでYahooでやってた。

一応クローリングPythonで簡単なスクリプト書いてたんだけど、ページごとにざっくり取得してるんだわ。記事ごとに取得できるスクリプト貰えると嬉しい。

手元あるオライリーのペンギン本に記事の特徴を検出するサンプルがあった気がするから、できると思う。

2013-12-26

四天王コピペを作りたい

食べ物IME四天王を作りたいんだけど、

とあと1つが足りない件。

真っ先にやられる役はまあ言うまでもないですよね。

2012-11-13

Python3でMeCab

python3.2にpythonバインディングを入れようとしても途中でエラーが出る

AttributeError: 'module' object has no attribute 'split'

setup.pyの中で使われているstring.splitがpython3.2では使えなくなってるからなので以下のように変更すればおk

setup.py

def cmd2(str):
    return string.split (cmd1(str))

を以下に変更

def cmd2(str):
    return cmd1(str).split()

これでいけます。困ってる人がいたら参考にしてください。

2012-03-18

WEBサイト発注してみた。

アニメゲームキャラクター情報をまとめてるサイトがないから作りたいなぁって

思ってたんだけどhtmlは初歩しかからないしプログラミングもできないので構想するだけで作れなかった。

ゼロから4ヶ月でWEBサービスをリリースした人の記事を見つけて「自分にもできるかな!」なんて思い挑戦してみたけど理解できず挫折・・・orz

WEBサービスを個人で作ってる人達が羨ましいです。

それでもWEBサイトを作りたかったので制作会社発注してみようと思い立った。

ただのキャラクターデータベースだけではつまらないのでコミュニティ要素なども付けて

ネットで見つけた制作会社見積もってもらうと下記のようになった。


合計1,483,125円


以前、SNSウェブカレ」のサイト制作費が1千万円で安く仕上がった(潰れたけど・・・)という話があったか

なんとなく3~400万くらいかかるんじゃないかなと不安だったんだけど予想より安い見積もりだったので、

このくらいの金額ならなんとか出せる!ということで制作してもらうことにしました。

本当は何社かに見積もってもらって比較しようと思ったんだけど面倒だったのでそのまま制作をお願いすることにした。

最初はもう少し高かったけど機能の簡略化とオープンソースライブラリを使用してもらう事で費用を抑えてもらった。)

去年の10月の頭くらいから打ち合わせを始めて第1フェーズワイヤーフレーム作成仕様策定をして第2フェーズhtmlシステム開発

移ったのは中旬だったかな?その段階で前金で4割の580,650円を支払いました。

制作会社には3回くらい打ち合せに行って、あとはメールでやり取りしていました。

当初は12月中にリリースを予定してたんだけど、なんだかんだで伸びてあらかた出来上がったのが2月中旬くらい。

見積もりがちょっと甘かったんじゃないかなぁって思うw

ちなみに僕はヒッキー(どれくらいヒッキーかというと外出は3日に1回くらい)なので制作してもらっている間は

家でずっとサイトに必要なアニメデータを収集していました。

↓作ったサイト

http://neoapo.com/


以下、サイト設計担当してくれた人の製作記。

サーバ設定

サーバさくらVPS 8Gを使用。CentOS5の64bit

設定した項目は以下のとおり

HDDが3つあって、普通に/var/wwwコンテンツを入れていくとHDDが溢れそうだったので、容量の大きいものを使うように工夫したりなど。

メモリもそこそこ積んであるサーバなので、mysqlphpapcに多めにメモリを割り当てる設定をした。

データベース

本当はmyISMやInnoDBエンジンでLIKE "%word%"のようなクエリーを投げて十分なパフォーマンスが出ればいいんですけどね。

それはムリなので、全文検索エンジンとしてgroongaを使用。

groongaを使用するために先にインストールしたのはこんな感じ

この時点でいざ、groonga!と思ってgroongaをインストールしようとすると競合を起こして入らない。

epel、remiレポジトリからインストールしてあったmysqlと衝突してたのでyum remove "mysql*"で

一旦mysqlを消して、groongaレポジトリからmysqlとgroongaをインストール

するとgroongaは入ったものの、今度はphpから使おうとしてもphp-mysqlパッケージが入らない。

あちらを立てればこちらが立たぬ状態で本当にこまった。

どうしようもないので、やりたくないけどyum-downloadonlyを使ってパッケージに含まれる設定やら、soファイルなどを直接とってきて入れた。

mysql.so、mysqli.so、pdo_mysql.soを/usr/lib64/php/modules/にコピーしたり、設定をコピーしたり、少しずついじりながら、なんとか動いてくれた。

状態としてはmysqlとgroongaはgroongaレポジトリからphpと本来php-mysqlパッケージインストールされるmysql.soは手動で置いたことになる。

シェルから直接mysqlログインするときはgroongaレポジトリのやつを、phpからmysqlを呼ぶときは手動で置いたmysql.soを使うことになっている。

ちょっと心境的にしんどい。別の方法があったかもしれないけど、調べても分からず結局1日くらいかかった。

アクセスカウンタ

アクセスは、サイト全体(トータル)、サイト全体(当日分)、各コンテンツ日別、各コンテンツ週間、各コンテンツトータルのアクセスをとるようにしています

高速だとうわさのredisアクセス回数を残しています

検討した候補はmemcaced、apcmysqlredis、fileあたりなんですが、

memcacheはサーバリスタートするとデータが消える。

apcapacheリスタートするとデータが消える。

fileは候補にあがったものの、メンドウ、、どうせなら楽な既製品がいい。と思って候補からしました。

残るはmysqlredisだけど、redisが高速って聞いていたのでredisにしてみました。

最初全部redisに入れて、集計した結果をmysqlに入れるつもりでしたが、週間ランキングなどはINSERT INTO .. DUPLICATE ONを使って、

アクセスした週の月曜日00:00:00のタイムスタンプコンテンツIDキーにしたレコードを作ればそのまま週間ランキングになるなー。と思ってmysqlを使っています

コンテンツのトータルアクセス数コンテンツレコードpvという項目をつくってUPDATE table SET pv=pv+1 WHERE id = ? のようにしました。

最初難しく考えていたけど、こうすることによって大分楽になったなーといった感じ。

まとめ

全文検索エンジンや対話検索、ここにこのリンクがあればなぁ。。という所に何とかしてリンクを作るのが本当に大変だった。

使い勝手を良くするために、ここにこの機能をなど、さくっと思いつくのは簡単でもそれを実現するために、あーでもない、こーでもないと

DBプログラムとにらめっこしながら「あ!こうすればできる!でもそうすると今度はこっちが・・・」みたいなのがあったりでとても大変だった。

そんなに機能がないような感じがしても、このサイトだけでテーブルが20個あって、途中本当に死にそうだった。

2011-08-04

独学のプログラムエロ動画検索作ってみた

【お知らせ】2011/09/07

新しいエロWEBサービス作りました

http://d.hatena.ne.jp/uniqueweb/20110906/1315285545

プログラムは全く得意じゃないけれど最近よく見かけるようになったエロ動画検索自分でも作ってみたくて頑張ってみました。

近年、インターネットの普及によりエロ動画が自宅で簡単に見れるという素晴らしい時代になりました。

自分が若い頃はインターネットなんてものはなくエロビデオが主流でドキドキしながらレンタルビデオ屋に行き、可愛い女の子レジにいない隙を見計らってお兄さんにパッケージを伏せて空箱を渡しビデオを借りたものでした。

お兄さんにビデオ空箱を渡そうとした時に可愛い子がレジに戻ってきて焦って渡すのをやめてものすごく変な動きをしながらエロビコーナーに引き返していくなんてことも多々ありましたw

僕のお気に入りといえば「白石ひとみ」や「あいだもも」といった女優でよく借りてました。エロビを借りるということがものすごく恥ずかしい時代?年頃?でカモフラージュ普通ビデオと一緒に借りるということもしていました。それはそれは大変な思いでオナニーしてたんです

しかも、ビデオデッキ自体が貴重な時代でリビングに一台しかないのが当たり前でした。

深夜家族が寝静まってからヘッドフォンビデオを抱えリビングに行き暗がりの中でヘッドフォンテレビ差し込んでビデオ再生ボタンを期待に胸をふくらませながら押したものです。いいシーンを何回も見るためにビデオを巻き戻すんですが、ビデオを巻き戻すガチャガチャンという機械音で家族が起きてこないか?とかそれはそれはドキドキしながら見てました。一仕事終えたあとヘッドフォンを外したらジャックが外れていて大音量で喘ぎ声が響き渡っていたなんてこともありました。誰も起きてこなかったのは優しさなんでしょうか?w

さて、大分前置きが長くなりましたがエロというものものすごい技術発展させるものだと思いますエロのおかげで日本ビデオは普及しエロのおかげで日本インターネットものすごく普及したと言っていいと思います自分エロを通して技術の発展に貢献し自分自身のスキルアップになれば。という高い志を持ってこのサイト制作しました。決して自らのオナニーライフの充実と性癖を充たすため作ったわけではありません・・・

※2011.08.07 利用中のサーバーに障害が発生しているようで現在サーバー接続できない状態となっています・・・

※2011.08.07 23:53 復帰した模様です

サイト名:ヌキネーター

サイト名の由来は抜きネタからきています。抜きネーター、ヌキネーターという感じです

エロサイト制作工程日記にしてみたんで良かったら読んで下さい。そしてこのサイトを使って夜いろいろと励んでくれたら嬉しいです

では制作日記を書いていきたいと思います

サーバー選び

まず前提条件としてお金ほとんどかけたくない。アダルトサイトであるということから

サーバー選びからはいりました。

月の予算は5000円以内で考えていたのでけっこう探すのが大変でした。

日本アダルトサイトを許可している所はかなり限られていてさらにやりたいことができるのは

専用サーバーVPSしかないのでそうなると専用サーバー予算オーバーなので

VPSで探すことになり検索しまくってはじめに見つけたVPSはKAGOYAのVPSだったのですがβ版で募集を締め切っていて泣く泣く諦めました。

KAGOYAはかなり評判がいいみたいなので使ってみたかった。

次に見つけたのが○○○VPS海外サーバー日本語サポートがあり転送量の制限なしディスク容量100G

月1300円程度で借りれるということで初期設定費用に5000円程度かかりましたが借りてみました。

結果、ここは最悪でした。

  • 通信が頻繁に切れる
  • 激重
  • 借りて一ヶ月もしないうちにサービス継続が困難になりそうなのでIPが変わるとかメールがくる
  • まりに通信環境が悪すぎるとメールすると環境調査に協力してくれとメールがくる
  • 時間をかけて沢山の項目を調べて返信するも全く返答がない。

まりの酷さに1ヶ月で解約。

よく調べてみたら評判がものすごく悪い某VPS再販らしいです

お金時間をドブに捨てました・・・

もう失敗したくないと思い今度は比較的有名な海外サーバーLINODE

日本語サポートはないけれど抜群のサポートです

iptablesの設定でどうしてもうまくいかなくて拙い英語メールしてみたら

10分しないうちに返信がきました!

メールに書かれているとおりにコマンド入力したらあっさり解決。

素晴らしい!はじめからLINODEにすればよかった。

担当ブライアンはなぜか分からないけどとてもフレンドリーで親切に感じましたw

サーバー設定

LINODEは複数のディストリビューションから好きなものを選択できるので

とりあえず、64bit版を選択。

サーバー設定はほんとに面倒ですね。

一番面倒だけど重要だということで

SSH

Tripwire

chkrootkit

Clam AntiVirus

iptables

Apache

SSL

その他各種監視ツールの導入をしました。

ほんとに面倒でした。

データベース

はじめはmysqlストレージエンジンgroongaを使おうと思ったのです

初めに借りた最悪なVPSOSが32bit版だったのでgroongaがのソースが見つからずなぜかと思っていたら

どこかで見つけた記事で32bit版ではgroongaの性能を発揮しきれないということで32bit版の提供をやめてしまったらしいと書いてたので

じゃあ、sennaにするかということで最悪VPSsennaインストール

その後LINODEに変更したのでOSに64bit版を選択し念願のgroongaをインストール

しかし、調べてみると

などが理由で、結局sennaに戻して2度手間に・・・

プログラムもそれに合わせてその都度書き換えたので2度手間どころか3度手間4度手間でした・・・

senna導入はrpmでさくっといけるので簡単です

依存関係で少しはまりました。

まず

# rpm -qa | grep -i mysql

mysqlインストールされてたら削除

perl-DBIが必要なのでインストール

# yum install perl-DBI

そして下記の順番でインストール

rpm -ivh mecab-0.98-tritonn.1.0.12a.x86_64.rpm

rpm -ivh mecab-ipadic-2.7.0.20070801-tritonn.1.0.12a.x86_64.rpm

rpm -ivh senna-1.1.4-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-shared-5.0.87-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-client-5.0.87-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-server-5.0.87-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-devel-5.0.87-tritonn.1.0.12a.x86_64.rpm

my.cnfの設定をして終了

で肝心の全文検索ですデータ件数が5万件程度で少ないせいなのか、あいまい検索と比べてそれほど速さを実感できなかったです・・・

でもきっとすごく速くなったはず!

ちなみに「麻美ゆま おっぱい」で検索した場合、0.01 secで結果が返ってきました。

動画データ作成

さて、動画データ作成ですがいくつかのエロサイト制作記事でもあるようにスクレイピングということをします。

スクレイピングとはWEBサイトから特定の情報だけを取得することでネット上にあるサイトクロールして必要なデータだけを拾ってデータを作るといった感じでしょうか。

スクレイピングプログラム自体は以前にTidy関数を使って為替データ10分おきに取得するような物を作ったことがあったのでそれほど時間はかからいかなと思ったのですがけっこう時間かかりました。

スクレイピングにはTidyhtmlSQL、それにPHP Simple HTML DOM Parserを使いました。

下記のサイトを参考にしました。

phpによるスクレイピング処理入門

SQL みたいな文法で HTML を抽出する PHP のライブラリ

htmlSQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」

つの中で抜群に使えるのはPHP Simple HTML DOM Parserだったんです

ループ処理させるとメモリがすごいことになって今回のようなスクレイピングに向いてないみたいで

結局、htmlSQLTidyの両方を使ってスクレイピングしました。

両方ともPHP Simple HTML DOM Parserに比べるとうまくデータの取得ができないことが多く残念な感じなんですが他に選択肢がないので・・・

使える順に並べると

PHP Simple HTML DOM Parser

htmlSQL

Tidy

といった感じかもしれません。

おおまかにデータを取得して正規表現で特定データを抜き出しました。

広告との連携

広告にはDMMアフィリエイトを利用しています

http://affiliate.dmm.com/link.html

利用可能な物はパッケージ画像、サンプル画像(縮小)と書かれていたのでそれに従い画像を利用。

注記に※ユーザーレビュー引用いただけません。とだけ書かれているのでそれ以外は引用ありと判断して説明文とタイトルなどを利用

女優データジャンルデータDVDデータ、を紐付けたデータベース作成検索ワードに応じて検索結果に関連する商品を表示させるようにしました。

現状、売り上げ0で意味があるのか分かりませんけどw

負荷対策とか転送量とかDOS攻撃対策とか

エロサイトということで多少はチューニングとか設定とかしないとまずいかもと思い色々調べて設定しました。

やったこと

KeepAlive On

MaxKeepAliveRequests 60

KeepAliveTimeout 3

<IfModule prefork.c>
StartServers       7
MinSpareServers    5
MaxSpareServers   10
ServerLimit       30
MaxClients        30
MaxRequestsPerChild  4000
</IfModule>

様子見ということで2日間で設定してみました。

query_cache_limit=1M

query_cache_min_res_unit=4k

query_cache_size=16M

query_cache_type=1

とりあえずこんなところを設定してみましたが、爆発的なアクセスがあるわけでもないので有効なのか今のところ分かりません(-_-;)

Apache Benchでテストはしてみましたけど問題はない感じですが実際にチューニングができているか分かりません。

サイトデザイン

プログラマーとして有名なゆうすけさんのサイトgoogleを参考にしました。

シンプルで使いやすいようにしようと思いこのデザインしました。

3カラム中央可変となっています

クロスブラウザIE7、firefox3、chromeで行いました。

可変ものって作ったことなかったんですがけっこう面倒なんですね。

サイト機能

ブックマーク機能とメニューの折りたたみ機能検索結果の表示方法切替を作りました

まず、ブックマーク機能ですログインなしで気に入った動画ブックマークできるようにしました。

ブックマークに追加した動画ブックマークページで確認できるようにしました。

cookie機能を利用したらいけると思い色々調べてjquery.cookie.jsを利用。

保存したクッキー情報を呼び出してphpに渡して処理し指定要素にブックマーク一覧をloadメソッドで表示させるという感じです

$(function(){
$("#youso").load("xxx.php");
});

メニューの折りたたみ機能は人気AV女優AV女優別、人気タグなどをそのまま表示させるとずらっと長くなって邪魔だったのでつけました。

これには同じくjquery.cookie.jsを利用しました。

参考サイトhttp://blog.caraldo.net/2009/03/newjqqookiemenu.php

検索結果の表示方法切替にはZoomer Galleryを利用しました。

参考URLhttp://phpjavascriptroom.com/?t=ajax&p=jquery_plugin_zoom#a_zoomergallery

検索結果ページで表示される

[ここの画像]

××× の検索結果

44件中 1~10件目を表示

ここの画像の部分をクリックするとgoogleイメージ検索みたいに一覧でイメージ表示できるようにしてみました。

動画表示ページ

基本的に動画の埋め込みを許可しているサイトのみプレイヤー表示をしそれ以外は画像を表示し動画データリンクするようにしました。

埋め込み部分はあらかじめそれぞれのサイト対応したプレーヤー部分のコード記述しVIDEOIDの部分に置き換えるような形にしました。

XVIDEOSを例にすると

XVIDEOS場合かならず動画urlhttp://www.xvideos.com/videoXXXXXX/のようになりますのでXXXXXXの部分を

VIDEOID部分に置き換えるようにプログラムを組みました、

埋め込み部のソース

>||<object width="510" height="400" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0" ><param name="quality" value="high" /><param name="bgcolor" value="#000000" /><param name="allowScriptAccess" value="always" /><param name="movie" value="http://static.xvideos.com/swf/flv_player_site_v4.swf" /><param name="allowFullScreen" value="true" /><param name="flashvars" value="id_video=VIDEOID" /><embed src="http://static.xvideos.com/swf/flv_player_site_v4.swf" allowscriptaccess="always" width="510" height="400" menu="false" quality="high" bgcolor="#000000" allowfullscreen="true" flashvars="id_video=VIDEOID" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" /></object>
||<

その他の動画サイトURLの一部分のデータを使っているので同様の処理をしました。

まとめ

実際の作業は2、3週間ですが色々調べる時間が多くて制作に2ヶ月くらいかかりました。

自分エロ動画検索を作ってみて有名プログラマーさん達がいかに優秀なのか思い知らされました。

皆さん思いついて数日で作ってしまうのでびっくりです

全くWEBの知識がない人で4、5ヶ月ですごいの作っちゃう人とかもいるみたいですし世の中広いな~と思います

しかし、エロサイト作りで勉強になりますね~

大分、色んな知識を得ることができました。

これからプラグラム勉強しようと思う人はぜひエロサイトから入ってみて下さい。

きっと楽しいですよ!

そんなこんなで?頑張って作ってみたエロ動画検索、良かったら使ってみて下さい。

これで少しは技術の発展に役立てたでしょうか?w

アダルト動画検索ヌキネーター

P.S エロサイトを作っていてはじめは楽しくて興奮しながら作ってたのです最後の方はエロい物を見ても全く反応しなくなりましたw

  不能ではないんですけど・・・現在も性欲が著しく減退しております・・・

  そしてスーパーpre記法がうまういかないのはなぜ?はてな匿名ダイアリー投稿全然からない・・・

  そしてそしてプログラマーさんとかデザイナーさんとかエロい人とかお気軽にお声をおかけ下さい。

【お知らせ】2011/09/07

新しいエロWEBサービス作りました

http://d.hatena.ne.jp/uniqueweb/20110906/1315285545

2010-12-19

ヌケるWebサービスを作ったのでeHubインタビューズっぽく宣伝してみる

あなたウェブアプリケーション/サービスは何ですか?

エロ注意】eroino http://eroino.net/

eroinoは毎日更新される大量のアダルト動画を、AV女優キーワードで分類して表示したり、お気に入りリストクリップできるサイトです現在動画数は、約28万件。

このプロジェクトを始めた理由は?

製作にかかった時間は?また、本業がありますか?

チームの規模はどれくらいですか?また、あなたの素性および経歴は?

現在使用しているインフラ技術は何ですか?

技術的な特徴があれば、紹介してください。

お気に入りリスト

開発の際に気を付けたことはありますか?

データの取得元、動画投稿サイトに迷惑をかけない」

プロジェクトは次の半年でどこへ向かうと思いますか?

アクセス増への対策」
広告
「機能追加」
  • まったくの白紙です。まずは安定稼働。

自分Webサービスを作りたいと思っている人に向けて何かありますか?

利用者に向けて何かありますか?

  • 自分では、かなり実用的だと思っているのですが、実際の所、どうなんでしょう。使ってみて、ダメ出しでも何でも良いので、感想を聞かせてもらえると嬉しいです

元ネタ

自分WEBサービスを作りたいと思っている人へ

http://anond.hatelabo.jp/20101203150748

eHub Interviews

http://emilychang.com/ehub/app/category/ehub-interviews/

eHub インタビューズ - Last.fm翻訳

http://d.hatena.ne.jp/brazil/20051102/1130901002

2010-08-03

中卒で無職精神障害者だが、画像を読み込んでお絵かきチャット自動お絵かきするソフトを作った。達成感がある。

次はMeCabを使って日本語文法チェッカーでも作ろうかと思っている。

2010-05-01

Appleは善良な企業

http://jp.techcrunch.com/archives/20100430joe-hewitt-web-development/

アンチMSは聞くけど、アンチAppleは聞かない

MSは囲い込み戦略を、その決して洗練されていないソフトウェア品質から叩かれることがあるけど、

確かに、独自技術特許で固めることはしていなかったように思う。

現に、Ajaxテクノロジーは、基礎をIEの独自拡張から始め、firefoxなど他のブラウザの実装に発展してきた。

Adobe Flashも同じくユーザーに何一つ強制はしていない。

そして事実上今日の一般的なミドルウェアとして使われている。

そのFlashプラットホームを、Appleは否定しているものの、

では、代替となりえる技術Appleが開発して W3C標準化を求めるかというと

そんなことはしていない(HTML5Appleが推進していたのかどうかは知らないけど)

ただ、ネットをもっとオープンで誰もが自由に使えるものにしようとしている気がした。

Mecabがこれから iPhoneプラットホームで使えなくなる(広義)という話を聞いて

珍しくApple非難が一般デベロッパ・一般ユーザーからも出てきたな、と思ったところではたと気づいた。

iPod移行、Apple には Google よりもクリーンイメージ自分の中にあったのだ、と。

では Appleは善良な企業か、Google のように「悪いことはしない」という企業哲学に基づいた経営なのかというと

それは分からない。

Apple は善良な企業なんだろうか

2009-03-30

自然言語処理Python がいちばん」について

http://d.hatena.ne.jp/mamoruk/20090327/p1

「いちばん」かどうかはわかりませんが、うちの会社製品ではpythonを主力に使った自然言語処理を含む製品を販売しているので、実際の感想を。

うちでは、pythonを元データの整備のための運用バッチ処理から、客が最終的に手にする情報の生成、実際に客が使うWEBインターフェースまで、pythonを主力にしています。

別のチームが作った別の製品ではS2Struts(JAVAね。)でWEBを作っている部分もありますが。

自然言語処理ぶっちゃけどの言語でも可能だとは思います。

mecabが使えて、Unicodeが使えて、正規表現が使えれば、まあ、どの言語を使ってもそんなに大差はないのではないでしょうか。

あとはsennaのような日本語用の全文検索エンジンなども使いますが、そこらへんに近い部分は基本的にC++で書きます。

pythonとは言っても、速度を重視する部分はやはり迷わずC++です。

C++で書いたものはswigを使うか、又はC言語で手書きのbindingを使ってpython接続します。

もこないだswigでつないで製品リリースしたら、WEBからの並列アクセスswigがうまく対応できず、リリースした日に急いで手書きbindingを書いた経験があります。swigの使い方はきちんと理解していないので非常に難しい。

nltkとか、wordnetの話はたしかに使えそうかもと思ったことはありますが、nltkはうちでは使っていません。

うちの会社では自然言語処理研究段階から自社で行っているので、nltkにあるようなできあいのルーチンを実戦投入する事はなく、基本的に地味に自分達でpythonで書いています。

自然言語処理と言っても、核心の処理はやはり泥臭い個別事例への対処が多いです。不要語処理とか。

自然言語処理アルゴリズムは8割程度の精度を出すのは簡単で、すぐに思いつきで書けるものですが、残り2割の精度をいかに埋めて行くかが、頭のいい人とそうでない人の差が現れる部分だと思います。

どうしてもいいアルゴリズムを思いつかない場合は、泥臭い個別事例処理がうねうねと並んだプログラムになります。学術的なものではなく商売になればいいので、うちはとりあえずそれで十分。(これは自然言語処理に使う機械学習アルゴリズムたちも同様。というか自然言語処理機械学習て、区分けがあいまいな部分が多いですよね。)

そういう感じなので、pythonの可読性の高さは非常に有効。

また、変数名や関数名などをexplicitに書く文化も業務で使うのに適していると思います。(他の言語でもexplicitに書けばいいだけですが、それを言語開発者自身が推奨するほど強調はしていないですよね。)

英文の処理で、wordnet辞書データの一部を研究に使った記憶はある。

しかし、あそこまで精緻辞書データを使う程高度な処理は今の所必要ない。

うちで自作した不要英単語辞書と、特別扱いする英単語辞書で間に合わせていたと思います。(その辺記憶あいまい。)

WEBユーザーインターフェースdjangoで。

djangoは非常に明快で、快適。

画面の機能を追加するのに、例えばS2Strutsアクション定義の煩雑さに比較すると、天と地との差ほどにdjangoは簡単。

あと、pythonを使える開発者日本には少ないとの事ですが、うちでもそれは同様です。

しかし、自分の隣の席の同僚はperlに非常に熟達していて、彼はすぐにpythonの達人に変わりました。

優秀な方にとっては言語なんて何をつかってもあまり変わらないみたい。

でも、彼も自分自然言語処理JAVAC++のようなまわりくどい言語は使ってられないという点では同意しています。

2009-01-02

http://anond.hatelabo.jp/20090102193659

大丈夫日本にもMeCabの人とかちゃんとGeekも居るから。

http://chasen.org/~taku/

どの世界でもそうだけど、Geekってあんまり一般の人には知られてないから。海外で有名な日本人を探した方が日本Geekは見つけやすいよ。

ログイン ユーザー登録
ようこそ ゲスト さん