はてなキーワード: MECABとは
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 81 | 8461 | 104.5 | 39 |
01 | 30 | 9896 | 329.9 | 52.5 |
02 | 25 | 2601 | 104.0 | 70 |
03 | 20 | 4251 | 212.6 | 80.5 |
04 | 15 | 1012 | 67.5 | 25 |
05 | 2 | 2165 | 1082.5 | 1082.5 |
06 | 11 | 935 | 85.0 | 72 |
07 | 13 | 1887 | 145.2 | 93 |
08 | 38 | 3371 | 88.7 | 46 |
09 | 40 | 5422 | 135.6 | 55 |
10 | 66 | 9987 | 151.3 | 75 |
11 | 121 | 10709 | 88.5 | 45 |
12 | 102 | 8464 | 83.0 | 44 |
13 | 131 | 11529 | 88.0 | 44 |
14 | 104 | 9360 | 90.0 | 38.5 |
15 | 138 | 10370 | 75.1 | 42 |
16 | 189 | 13307 | 70.4 | 49 |
17 | 213 | 17541 | 82.4 | 49 |
18 | 118 | 8102 | 68.7 | 36 |
19 | 152 | 10983 | 72.3 | 31.5 |
20 | 63 | 4839 | 76.8 | 35 |
21 | 109 | 14993 | 137.6 | 62 |
22 | 136 | 11821 | 86.9 | 45.5 |
23 | 110 | 11771 | 107.0 | 46 |
1日 | 2027 | 193777 | 95.6 | 44 |
人(179), 女性(155), 自分(147), 男(108), 女(103), 男性(102), 社会(99), 話(97), 今(94), 増田(73), 前(64), 仕事(61), 意味(59), 相手(56), 問題(55), 人間(54), 同じ(52), ー(51), 関係(51), 男女(49), 必要(48), 好き(48), あと(47), 気(47), 子供(44), 感じ(43), https(43), 理由(41), 日本(41), 世界(40), 結婚(39), 時間(38), こんな(37), 普通(35), 進出(35), 手(35), 理解(34), 最近(33), 低能(33), 場合(32), 責任(32), 他(32), 気持ち(31), 個人(31), 会社(31), 逆(31), 山口(30), 目(30), 時代(30), 頭(29), 昔(29), 友達(29), com(29), 金(28), 先生(28), 一緒(28), 価値(28), メンバー(28), 無理(28), 存在(27), 一番(27), 猫(27), www(26), ネット(26), 被害(26), 言葉(26), 家族(26), 親(26), 状態(25), http(25), ゴミ(24), セックス(24), 自体(24), 雇用(24), 会見(23), ダメ(23), 結果(23), ~(23), 娘(23), アニメ(23), 通報(22), クズ(22), 最初(22), 企業(22), 人生(22), 確か(22), 全部(22), 嫌(21), 説明(21), 可能(21), 家(21), 原因(21), 今日(21), 差別(21), 主義(21), 現実(20), 周り(20), 家庭(20), 全体(20), 発言(20)
増田(73), 日本(41), 山口(30), 韓国(15), TOKIO(14), 東京(12), 日(12), 安倍(11), アメリカ(11), キモ(10), 中国(10), 達也(10), 自衛隊(10), detail(8), JK(8), 平成(7), 金(7), article(7), マック(6), jsfiddle(6), イラ(5), 北朝鮮(5), Twitter(5), どん(5), pdf(5), 松岡(5), 昭和(4), default(4), VTuber(4), 韓(4), 自民党(4), サンクス(4), セブン(4), jpg(4), ツイ(4), 米(4), images(3), 明治(3), files(3), 太郎(3), 大正(3), 大阪(3), 朝鮮(3), ワイ(3), Vtuber(3), BC(3), 中(3), sthya(3), バーガー(3), SNS(3)
↑ MeCab ✕ NAIST辞書 (2011年に更新が止まっている。)
↓ MeCab ✕ mecab-ipadic-NEologd辞書 (固有名詞、新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)
人(165), 自分(141), 女性(138), 男(105), 話(98), 女(95), 男性(95), 今(86), 社会(76), 前(62), 仕事(61), 相手(56), 増田(55), 意味(54), 気(50), 問題(49), 必要(48), 人間(48), 関係(47), あと(46), 好き(46), https(44), 子供(43), 感じ(42), 理由(41), 結婚(38), 日本(37), 手(35), 進出(35), 理解(34), 低能(33), 目(33), ー(33), 男女(33), 最近(33), 世界(32), 場合(32), 他(31), 普通(30), 気持ち(30), 頭(29), 会社(29), 逆(29), 時間(28), 先生(28), 友達(28), 無理(28), 昔(27), しない(27), 存在(26), .com(26), 言葉(26), www(25), 金(25), 一番(25), しよう(25), 猫(24), 自体(24), http://(24), 状態(23), セックス(23), 一緒(23), じゃなくて(23), ゴミ(23), 親(23), 娘(22), 雇用(22), クズ(22), ダメ(22), 通報(22), 確か(22), 全部(22), 責任(22), 嫌(22), アニメ(22), 最初(22), 結果(21), 人生(21), 今日(21), メンバー(21), 説明(21), 全く(21), 原因(21), 別(21), ネット(20), 女子高生(20), 周り(20), 価値(20), 一人(19), 時代(19), おっさん(19), 結局(19), 大人(19), 当たり前(19), 幸せ(19), 場所(19), 家(19), 記事(19), 現実(19), 議論(18)
増田(55), 日本(37), じゃなくて(23), 女子高生(20), 娘(20), TOKIO(17), 被害者(16), JK(16), 元増田(16), 山口(15), 可能性(15), なんだろう(13), 韓国(13), リアル(13), 社会的(12), いない(12), フェミ(12), 男女平等(11), アスペ(11), 女性専用車両(10), なのか(10), Twitter(10), 専業主婦(10), detail(9), アメリカ(9), 謝罪会見(9), 山口達也(9), 暴力装置(9), 自衛隊(9), キモ(9), 産む機械(9), 経済力(9), スマホ(9), アファーマティブアクション(8), 具体的(8), トラバ(8), 東京(8), s(8), 最終的(8), いいね(8), 分からん(8), わからん(8), 個人的(8), である(7), 何度(7), マジレス(7), いいんじゃない(7), 安倍(7), twitter(7), SNS(7), 性犯罪(7), 中国(7), 100円(7), 芸能界(7), ツイート(7), どんだけ(7), article(7), 私たち(7), まんこ(7), 4人(7), 家族主義(7), 価値観(6), 加害者(6), 金(6), livedoor(6), 基本的(6), 2018年(6), クリエイター(6), GW(6), jsfiddle(6), NG(6), 平成(6), ツイッター(6), ???(6), 介護士(6), お酒(6), 一緒に(6), 婚活(6), …。(5), 1000円(5), 普通に(5), 生物学(5), 北朝鮮(5), いつまでも(5), 笑(5), 生理休暇(5), アプリ(5), 外国人(5), エロい(5), 20代(5), アルコール依存症(5), ロリ(5), 山口メンバー(5), 男なら(5), マジで(5), LINE(5), ニート(5), org(5), ムスリム(5), マック(5)
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 79 | 9658 | 122.3 | 33 |
01 | 53 | 4692 | 88.5 | 40 |
02 | 44 | 3292 | 74.8 | 43.5 |
03 | 13 | 3863 | 297.2 | 121 |
04 | 8 | 2747 | 343.4 | 85 |
05 | 15 | 2423 | 161.5 | 58 |
06 | 19 | 3601 | 189.5 | 76 |
07 | 14 | 1496 | 106.9 | 52.5 |
08 | 40 | 2844 | 71.1 | 40.5 |
09 | 54 | 3439 | 63.7 | 36 |
10 | 100 | 11225 | 112.3 | 54 |
11 | 90 | 11656 | 129.5 | 31 |
12 | 77 | 7414 | 96.3 | 48 |
13 | 84 | 9407 | 112.0 | 42.5 |
14 | 122 | 6919 | 56.7 | 36 |
15 | 95 | 8498 | 89.5 | 41 |
16 | 77 | 9611 | 124.8 | 44 |
17 | 102 | 13434 | 131.7 | 50 |
18 | 116 | 10997 | 94.8 | 56.5 |
19 | 89 | 9362 | 105.2 | 58 |
20 | 86 | 9615 | 111.8 | 74.5 |
21 | 131 | 10112 | 77.2 | 31 |
22 | 98 | 7627 | 77.8 | 35.5 |
23 | 102 | 15118 | 148.2 | 55 |
1日 | 1708 | 179050 | 104.8 | 44 |
人(162), 自分(132), 今(82), 話(72), 仕事(71), ー(70), 増田(60), 時間(59), 人間(57), 前(56), https(50), 日本(50), 女(47), 好き(45), 必要(45), 男(44), 問題(44), 女性(43), 感じ(42), 関係(41), 気(40), こんな(39), 最近(38), 手(37), ネット(36), 同じ(36), 社会(35), 意味(35), ~(33), 理由(33), 男性(32), com(31), 普通(31), 会社(31), 頭(30), 目(30), あと(29), 気持ち(29), 相手(29), 子供(29), 今日(29), 理解(28), http(28), 生活(28), 漫画(27), 他(27), 企業(26), www(25), レベル(25), 無理(25), 絶対(25), 安倍(24), 結局(24), 政治(24), 時代(24), 世界(23), 家(23), 他人(22), 就職(21), 顔(21), 状況(21), 技術(21), 嫌(21), 一番(21), 結果(21), 情報(20), 周り(20), 韓国(20), 金(20), 可能(20), 個人(20), 勉強(20), 状態(20), 感覚(19), 場合(19), 警察(19), ストレス(19), エロ(18), 差別(18), 昔(18), 自体(18), 程度(18), ゲーム(18), 世の中(18), 人生(18), 経験(17), 親(17), anond(17), 国(17), 責任(17), 言葉(17), 行為(17), 学校(17), 作品(17), 馬鹿(17), ほとんど(17), 山口(17), メンバー(17), 存在(17), 努力(17)
増田(60), 日本(50), 安倍(24), 韓国(20), 山口(17), 日(12), キモ(11), 東京(10), 日野自動車(9), FaHNI(9), trucks(9), release(9), sugawara(9), racing(9), team(9), dakar(9), beiDW(9), KkJk(9), racereports(9), アメリカ(8), 北朝鮮(7), twitter(7), LINE(6), 韓(6), detail(6), 金(6), 中国(6), 伊集院(6), 自民党(6), 平成(6), 自衛隊(5), 大阪(5), 中(5), コス(5), real(5), 米(5), 米国(5), bayern(5), munich(4), 敬之(4), 光(4), 下高井戸(4), 達也(4), report(4), match(4), 朝鮮(4), 太郎(4), megalodon(4), どん(4), 東大(4)
↑ MeCab ✕ NAIST辞書 (2011年に更新が止まっている。)
↓ MeCab ✕ mecab-ipadic-NEologd辞書 (固有名詞、新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)
人(143), 自分(128), 今(79), 話(74), 仕事(68), 増田(53), 人間(47), 前(47), 女(46), 時間(46), 気(46), 男(45), 好き(45), 日本(44), 必要(44), https(44), 感じ(42), 問題(42), ー(40), 女性(40), 手(38), 最近(38), 関係(33), 理由(33), 気持ち(30), 会社(29), 相手(29), 子供(29), 普通(29), 意味(29), 目(29), あと(28), 今日(28), http://(27), しない(27), 頭(27), 理解(26), 他(26), 男性(26), 絶対(25), ネット(25), レベル(25), 無理(25), .com(24), 結局(24), 嫌(22), 他人(22), 状況(21), 一番(21), 結果(20), 顔(20), しよう(20), www(20), 周り(20), 勉強(20), 家(20), 時代(19), 場合(19), ストレス(19), 感覚(19), 状態(19), 世の中(18), 人生(18), 昔(18), バカ(18), ただ(18), 就職(18), 努力(17), 言葉(17), 名前(17), 韓国(17), 企業(17), 金(17), 程度(17), anond(17), 馬鹿(17), 自体(17), 話題(17), 毎日(17), 勝手(17), 意見(17), 社会(16), .jp(16), 全部(16), 作品(16), 記事(16), co.jp(16), 警察(16), 最初(16), 世界(15), ゲーム(15), 政治(15), 夫(15), 経験(15), 可能性(15), 内容(15), 漫画(15), 出て(15), 行為(15), 別(15)
増田(53), 日本(44), 韓国(17), 可能性(15), わからん(14), じゃなくて(13), twitter(13), youtube(13), マジで(12), 安倍総理(12), まんこ(10), v(10), 安倍(10), 何度(9), キモ(9), team(9), beiDW(9), dakar(9), trucks(9), KkJk(9), 漫画家(9), release(9), racing(9), 3w(9), 耐久性(9), 日野自動車(9), FaHNI(9), 24g(9), racereports(9), 山口メンバー(9), アプリ(9), hino(9), 基本的(9), sugawara(9), 午後ティー(8), 人間関係(8), スマホ(8), リアル(8), ???(8), LINE(8), 発達障害(8), いない(8), かもしれん(7), コミュ力(7), 分からん(7), detail(7), 北朝鮮(7), アメリカ(7), SNS(7), いいんじゃない(7), 最終的(7), なのか(7), E(6), なんだろう(6), オナ禁(6), アレ(6), 中国(6), 自民党(6), 登場人物(6), Twitter(6), 2歳(6), ある意味(6), お客さん(6), 就活(6), 女子高生(6), 1人(6), 大企業(6), 元増田(6), 唐揚げ(6), IT(6), JK(6), ファブリーズ(6), ダンバイン(6), にも(5), 自衛隊(5), 具体的(5), 副流煙(5), 金(5), AV(5), 米国(5), 社会的(5), 体育会系(5), ツイート(5), ぶっちゃけ(5), 涙(5), イケメン(5), ヤバい(5), 一人(5), フェミ(5), ブコメ(5), 技術力(5), 10年(5), OK(5), 夫婦(5), コスパ(5), カレー(5), ツイッター(5), …。(5), ネット上(5), go(4)
はてブでGIGAZINEの人工知能や機械学習を利用しなくても「SQLの使い方」次第で収益アップは可能って記事を見かけた。収益でやってるわけじゃないけど、1日の増田をMeCabで切り分け、品詞のタグを付けてデータベースに格納できたとして次は何ができるのだろう?
種類 | 延べ使用回数 | |
---|---|---|
名詞 | 9818 | 69979 |
形容詞 | 300 | 53393 |
動詞 | 1739 | 26181 |
助動詞 | 33 | 16643 |
助詞 | 142 | 3736 |
副詞 | 517 | 3658 |
連体詞 | 39 | 1246 |
接続詞 | 88 | 1107 |
接頭詞 | 92 | 773 |
感動詞 | 115 | 519 |
フィラー | 13 | 155 |
その他 | 2 | 2 |
合計 | 12898 | 177392 |
種類 | 延べ使用回数 | ||
---|---|---|---|
名詞 | 一般 | 5885 | 30943 |
名詞 | サ変接続 | 1769 | 9813 |
名詞 | 非自立 | 80 | 7111 |
名詞 | 接尾 | 446 | 5180 |
名詞 | 数 | 47 | 4595 |
名詞 | 固有名詞 | 1134 | 3364 |
名詞 | 形容動詞語幹 | 589 | 3356 |
名詞 | 代名詞 | 82 | 3248 |
名詞 | 副詞可能 | 239 | 2072 |
名詞 | ナイ形容詞語幹 | 13 | 264 |
名詞 | 接続詞的 | 3 | 17 |
名詞 | 特殊 | 2 | 14 |
名詞 | 動詞非自立的 | 1 | 2 |
形容詞 | 自立 | 294 | 3484 |
形容詞 | 非自立 | 8 | 202 |
形容詞 | 接尾 | 2 | 50 |
動詞 | 自立 | 1718 | 19932 |
動詞 | 非自立 | 72 | 4740 |
動詞 | 接尾 | 6 | 1509 |
助動詞 | 33 | 16643 | |
助詞 | 格助詞 | 54 | 20732 |
助詞 | 接続助詞 | 28 | 9215 |
助詞 | 係助詞 | 8 | 8077 |
助詞 | 連体化 | 2 | 5734 |
助詞 | 終助詞 | 33 | 3025 |
助詞 | 副助詞 | 26 | 2405 |
助詞 | 並立助詞 | 8 | 1737 |
助詞 | 副助詞/並立助詞/終助詞 | 1 | 1594 |
助詞 | 副詞化 | 2 | 825 |
助詞 | 特殊 | 3 | 49 |
副詞 | 一般 | 431 | 2597 |
副詞 | 助詞類接続 | 86 | 1061 |
連体詞 | 39 | 1246 | |
接続詞 | 88 | 1107 | |
接続詞 | 88 | 1107 | |
接頭詞 | 名詞接続 | 82 | 681 |
接頭詞 | 形容詞接続 | 2 | 45 |
接頭詞 | 動詞接続 | 3 | 6 |
感動詞 | 115 | 519 | |
フィラー | 13 | 155 | |
その他 | 間投 | 2 | 2 |
以下は1エントリーに3回出現したら3回と数える方法で数えたもの
する(4260), てる(1711), いる(1617), れる(1043), ある(1002), なる(974), 思う(688), 言う(647), いう(562), くる(351), やる(350), できる(335), 見る(300), られる(272), わかる(180), 出る(171), しまう(168), 考える(165), 行く(163), いく(156), 知る(152), せる(149), くれる(138), 分かる(129), みる(126), 乗る(124), 使う(122), 出来る(110), 持つ(110), 書く(109), やめる(107), 違う(105), 出す(94), しれる(90), 読む(88), 感じる(87), 作る(86), すぎる(84), ちゃう(84), いける(82), 聞く(78), でる(71), 乗れる(70), 認める(69), 買う(69), 叩く(63), 死ぬ(63), 来る(62), く(62), 変わる(62), 入る(60), 受ける(60), 食べる(60), もらう(57), 見える(57), 続ける(56), 言える(54), かける(53), 終わる(51), 守る(49), つける(48), 行う(47), 描く(46), 生きる(46), 語る(46), 入れる(45), 始める(45), 働く(45), 取る(42), 減る(41), 居る(41), 飲む(40), 許す(40), なくなる(39), 訴える(39), 話す(39), つく(37), 観る(37), かかる(37), おく(36), くださる(36), あげる(35), とる(34), 黙る(34), 得る(34), 言い出す(33), 殺す(33), 思える(32), 払う(32), 過ぎる(31), 教える(29), 辞める(29), 決める(28), 気づく(27), 怒る(27), 生まれる(27), 調べる(27), なれる(27), 扱う(26), 呼ぶ(26), 限る(25), いじめる(25), 起きる(25), 頑張る(25), 合う(25), がる(25), 変える(24), 含める(24), 待つ(24), 笑う(24), 立つ(24), 飽きる(24), 許せる(24), 戦う(23), 増える(23), 会う(23), 同じる(23), とく(23), 間違う(23), 捨てる(23), 信じる(22), 住む(22), 困る(22), よる(22), 読める(22), 通る(22), 覚える(22), 騒ぐ(22), 比べる(22), 楽しむ(21), 寝る(21), おる(21), 触る(21), 与える(21), 押し付ける(21), 見せる(21), 上がる(21), 避ける(20), 帰る(20), 思い出す(20), 向く(20), 進む(20), 続く(20), 歩く(20), 決まる(20), 着る(20), 選ぶ(19), 忘れる(19), 引く(19), 触れる(19), 分ける(19), つながる(18), 媚びる(18), 逃げる(18), 似る(18), 上げる(18), 起こす(18), もらえる(18), 繰り返す(18), 残る(18), 殴る(18), 答える(18), まとめる(18), 付き合う(17), 投げる(17), 付ける(17), 走る(17), 受け入れる(17), 含む(17), 求める(17), ひる(16), 関わる(16), 吐く(16), させる(16), 済む(16), 隠す(16), 集める(16), 始まる(16), 使える(15), 掲げる(15), うる(15), 流れる(15), 落ちる(15), 誘う(15), 除く(15), 止まる(15), 返す(15), まくる(15), だす(15), 示す(15), いえる(15), 問う(15), 追い出す(15), 消える(15), 送る(15), 食う(15)
ない(930), 良い(221), コワい(198), 悪い(142), 多い(140), 無い(104), ほしい(66), おかしい(60), よい(57), 高い(54), 楽しい(53), すごい(53), 強い(52), 怖い(50), っぽい(49), 面白い(44), 少ない(43), 欲しい(43), 正しい(38), 早い(34), やすい(33), 難しい(31), 低い(29), 近い(29), 弱い(28), 長い(28), 可愛い(25), 大きい(22), うまい(20), 若い(19), 凄い(19), かわいい(19), 恥ずかしい(19), 黒い(18), 優しい(18), 美味しい(17), 軽い(17), 安い(17), 上手い(17), 辛い(17), 新しい(17), 痛い(16), にくい(16), 古い(16), 甘い(15), 嬉しい(15), 小さい(15), 広い(14), 羨ましい(14), 臭い(14), 深い(13), やばい(13), つまらない(13), うるさい(11), 遅い(11), おいしい(11), 激しい(11), 厳しい(11), 重い(11), 苦しい(11), 珍しい(10), 悲しい(10), 偉い(10), 悔しい(9), 浅い(8), 寒い(8), つらい(8), 酷い(8), ええ(8), ダサい(8), 縁遠い(8), こい(7), かっこいい(7), 詳しい(7), きつい(7), まずい(7), づらい(7), ひどい(7), 忙しい(7), 細かい(7), 面倒くさい(6), 短い(6), 汚い(6), やさしい(6), めんどい(6), 狭い(6), 速い(6), ゆるい(6), しんどい(6), 素晴らしい(6), 嘆かわしい(6), でかい(5), 仲良い(5), 恐ろしい(5), 鬱陶しい(5), 熱い(5), くさい(5), 遠い(5), 怪しい(5), 温かい(5), いたい(4), すい(4), すまない(4), しょぼい(4), 冷たい(4), 古臭い(4), 格好いい(4), めんどくさい(4), ありがたい(4), うれしい(4), 青い(4), 暗い(4), 等しい(4), よろしい(4), おもしろい(3), 数多い(3), 憎い(3), もったいない(3), カッコイイ(3), 望ましい(3), 親しい(3), 興味深い(3), 少い(3), ものすごい(3), 手っ取り早い(3), 賢い(3), しつこい(3), 白い(3), 幼い(3), 物凄い(3), 気持ちいい(3), つまんない(3), 濃い(3), 悪しい(3), 貧しい(3), でっかい(3), 美しい(3), 済まない(3), たまらない(3), 危うい(3)
どう(213), そう(213), もう(137), よく(95), もっと(85), なんで(74), ちょっと(70), 本当に(67), 別に(62), まだ(56), ちゃんと(53), 全く(50), 全然(47), とても(46), むしろ(46), まあ(44), なぜ(39), ずっと(35), 特に(35), 結構(34), やっぱり(33), もちろん(33), 多分(32), すぐ(30), いつも(29), とりあえず(28), まず(27), そんなに(27), かなり(25), これから(25), こう(23), すぐに(23), 少なくとも(22), とにかく(22), わざわざ(21), 初めて(21), ほぼ(20), 少し(20), どうして(19), さらに(19), たぶん(18), なんと(17), あまり(16), 実際(16), いっぱい(15), いきなり(15), きっと(15), すでに(15), やっぱ(14), 当然(14), 相当(14), いくら(14), たしかに(14), おそらく(14), どうしても(13), せめて(13), やたら(13), 大いに(13), もし(13), たまに(12), もう少し(12), あんまり(12), 既に(12), カッ(12), まさに(12), はっきり(12), なんとなく(12), 仲良く(11), 一応(11), めっちゃ(11), どんどん(11), 何故(11), どうせ(11), まさか(11), いくらでも(11), ある程度(11), 仮に(11), 更に(10), まったく(10), ああ(10), 単に(10), いい加減(10), そろそろ(10), どうにか(10), なかなか(10), 常に(10), それだけ(10), しっかり(9), はて(9), 何で(9), やはり(9), いやいや(9), あくまで(9), なんだか(9), 必ず(9), きちんと(9), ともかく(9), より(8), 実際は(8), こんなに(8), けっこう(8), もしかして(8), 今更(8), あまりに(8), そのうち(8), しばらく(8), いかに(8), 何より(8), 一体(7), 同時に(7), 要するに(7), あんなに(7), 大して(7), 意外と(7), 決して(7), たって(7), あえて(7), もはや(7), だいたい(7), ピン(7), たまたま(7), さすが(6), よろしく(6), たった(6), たとえ(6), どうぞ(6), とっくに(6), 突然(6), さっさと(6), ほんとに(6), よほど(6), そこら(6), つい(6), 勿論(5), それなり(5), 時々(5), 一度(5), しょっちゅう(5), ニコニコ(5), なにか(5), いったい(5), どうも(5), 無理やり(5), ひとつ(5), まして(5), やっと(5), 大体(5), さっぱり(5), 最も(5), 無理矢理(5), ワクワク(5), ちょい(5), 何故か(5), ふと(5), さ(5), ごく(5), やや(5), 公然(5), また(5), それほど(5), 多少(4), 本当は(4), ちょうど(4), そっくり(4), だんだん(4), だいぶ(4), せっかく(4), バンバン(4), 必ずしも(4), 何となく(4), いかにも(4), なんとも(4), どー(4), いか(4), ただただ(4), ダラダラ(4), ずーっと(4), 長々(4), うんうん(4), 未だに(4), どんなに(4), おいおい(4), 正直(4), かつて(4), よし(4), たかだか(4), 案外(4)
の(6143), に(5349), は(5305), が(5200), て(4639), を(3739), と(3080), で(2801), も(2446), か(1594), から(1411), よ(1036), けど(720), って(707), とか(689), な(674), という(546), だけ(483), ね(451), じゃ(431), ば(428), し(423), や(368), ので(345), まで(249), として(233), たり(223), のに(222), しか(210), でも(204), なんて(203), わ(156), ぞ(152), かも(151), より(128), など(125), くらい(125), へ(117), だって(103), について(97), けれど(86), ながら(83), ほど(69), っていう(67), なぁ(61), ぐらい(58), なんか(53), なあ(53), に対して(50), なー(47), ばかり(46), こそ(44), にゃ(43), んで(41), によって(40), さ(39), による(38), にとって(37), だの(34), すら(34), ちゃ(32), に対する(28), なり(27), ぜ(26), ねぇ(26), のみ(25), ねー(22), ん(22), における(21), つ(18), とかいう(18), とも(17), とともに(17), さえ(16), ってな(16), において(15), に関して(14), つつ(13), ずつ(13), に関する(12), よー(12), ばっかり(12), だり(11), といった(11), ねえ(11), やら(11), っけ(11), どころか(10), ばっか(10), じゃあ(10), べ(10), により(9), たって(9), けども(8), っと(7), ものの(7), につき(6), かい(5), かしら(5), 程(5), ていう(4), をもって(4), かぁ(4), けれども(4), け(4), ねん(3), ノ(3), かな(3), に対し(3), もん(3), デ(3), にまつわる(3), を通して(3), を通じて(3), ど(2), につれ(2), ばかし(2), ワ(2), ヨ(2), なんぞ(2), にあたり(2), をめぐって(2), にかけて(2), しも(2), にわたって(2), なぞ(1), ちゃあ(1), のう(1), ネ(1), ども(1), にあたって(1), 之(1), からには(1), にたいして(1), といふ(1), にて(1), にたいする(1), に際して(1), わい(1), と共に(1), に当たり(1), なぁー(1)
でも(91), だから(84), そもそも(75), いや(67), また(65), ただ(60), そして(60), しかし(46), しかも(27), それで(24), なお(22), 例えば(22), つまり(22), それでも(21), ちなみに(20), じゃあ(20), そりゃ(19), 実は(17), だって(15), 一方(15), けど(15), かつ(15), それとも(12), よって(12), あるいは(11), だが(10), そしたら(10), では(10), そこで(10), または(8), んじゃ(8), じゃ(8), ってか(8), それどころか(8), ただし(8), ないし(8), たとえば(7), 及び(7), まずは(7), それなのに(7), だからこそ(7), 同じく(7), それと(6), なので(6), それにしても(6), もしくは(5), それに(5), だけど(5), てか(5), それなら(5), なら(5), ところで(4), こうして(4), だからといって(3), なぜなら(3), で(3), それから(3), 本当は(3), なのに(3), にもかかわらず(3), ましてや(2), おまけに(2), ところが(2), すると(2), というのも(2), ならば(2), したがって(2), そうなると(1), 追って(1), つまるところ(1), ほんで(1), および(1), 即(1), 次に(1), されど(1), 因みに(1), かくして(1), それも(1), ともあれ(1), 即ち(1), すなわち(1), しかしながら(1), けれども(1), ほなら(1), 否(1), たとへば(1), したら(1), ゆえに(1)
はい(31), ああ(29), はてな(23), うん(20), あ(20), ええ(19), まぁ(16), ほんと(15), ごめん(13), ありがとう(13), こりゃ(9), ま(9), すまん(8), じゃぁ(8), えっ(8), うーん(7), おっ(7), ごめんなさい(7), まあ(7), う(6), お疲れ様(6), あぁ(5), おい(5), そら(5), なるほど(5), あー(5), へー(4), さぁ(4), いいえ(4), あかん(3), いやー(3), ウン(3), ほら(3), よし(3), お(3), はぁ(3), おお(3), フェ(3), もしもし(2), おや(2), ふーん(2), おめでとう(2), さあ(2), うふふ(2), よお(2), うわ(2), はあ(2), はーい(2), え(2), あれ(2), さよなら(2), へぇ(2), おはよう(2), オー(2), あっ(2), ありがと(2), へえ(1), わーい(1), じゃー(1), なんともはや(1), ご馳走さま(1), ノー(1), はて(1), ヤダー(1), えー(1), さようなら(1), すみません(1), はっ(1), ざまあみろ(1), わぁ(1), すいません(1), 嗚呼(1), うーむ(1), ふふふ(1), いな(1), うふ(1), いえいえ(1), ほう(1), ねえ(1)
だ(6538), た(3603), ない(3312), う(771), です(558), ます(347), たい(337), ある(285), ん(210), ぬ(159), じゃん(111), べし(103), や(70), らしい(60), やん(33), り(30), っす(15), つ(11), ござる(11), じゃ(11), たり(11), じ(9), 無い(9), る(8), き(8), まい(7), まじ(5), やす(3), ごとし(2), なり(2), へん(2), 如し(1), けり(1)
お(141), 大(45), 元(43), クソ(42), 反(42), 第(24), ご(24), 非(20), 新(18), 全(16), 他(15), 被(14), こ(14), バカ(13), 低(13), 再(12), 不(11), コ(11), 本(10), 逆(10), 約(10), 今(10), 副(9), 超(9), 旧(8), 最(7), 弱(7), ド(7), 前(6), す(6), 中(6), 高(6), 各(6), 自(5), 名(5), 現(5), 異(5), ま(5), 別(5), 女(5), ど(4), 無(4), 同(4), 立ち(4), 後(4), 即(4), 計(4), 親(3), 引き(3), 草(3), 小(3), 原(3), 初(3), くそ(3), み(3), 下(2), 等(2), ニセ(2), 抗(2), 横(2), 某(2), 分(2), 長(2), 実(2), 薄(2), ぶっ(2), 多(2), 好(2), 未(2), 若(1), 双(1), 生(1), 両(1), 共(1), 総(1), 可(1), 省(1), 助(1), 重(1), 消(1), 築(1), 内(1), 老(1), ぶち(1), 短(1), 丸(1), 悪(1), 単(1), 乳(1), 諸(1), 半(1), 満(1)
え(40), なんか(33), ま(22), あ(17), まあ(14), あの(13), あー(8), えーと(2), えー(2), うん(1), と(1), そうですね(1), ええと(1)
その(363), この(227), そういう(197), そんな(138), こういう(71), あの(53), どの(26), ある(20), どういう(19), 大きな(17), そういった(11), どんな(11), いろんな(11), 単なる(10), あらゆる(7), 小さな(7), あんな(7), いわゆる(6), 色んな(5), 何らかの(5), とある(4), 大した(4), おかしな(3), 然るべき(2), そうした(2), 輝ける(2), ろくな(2), 亡き(2), 見知らぬ(2), わが(2), ちょっとした(2), かかる(1), ありとあらゆる(1), さしたる(1), かの(1), 更なる(1), こうした(1), ほんの(1), 碌な(1)
最近、タイトルを読むだけで hiwa 氏が翻訳したものかどうかがわかるようになってきた。
例えば、「死んだはずのBlackBerryがソフトウェア企業として蘇生、業績も株価も好調」というタイトルは「死んだはずの」という挑発的な言葉遣いは hiwa 氏だろう(そしてそのような文句は元記事にはないだろう)と推測したり(確認してみると元記事のタイトルは "BlackBerry, yes BlackBerry, is making a comeback as a software company" であり、「死んだはずの」や「業績も株価も好調」といった文言は含まれていない)、「GoogleがAmazonのEcho ShowからYouTubeを突然取り去る、サービス規約への違反だそうだ」というタイトルでは「〜〜〜、〜〜〜」という独特な文の接続や、文末の「だそうだ」という物言いから氏であろうと推測している。
私が推測できるのだから、アルゴリズムでも可能ではないだろうか? そう考え、機械学習の中でも特に深層学習を用いて推定可能であるか検証した。
タイトルの文字列(本文情報は用いない)からその記事の翻訳者が hiwa 氏であるか ( = 1) そうでないか ( = 0) を学習・予測する二値分類問題
TechCrunch Japan の記事データ 11,993 件。うち 3,781 件が hiwa 氏が翻訳したものである。
入力文は vanilla の MeCab [1] を用いて分かち書きを行い、それぞれの単語は「日本語 Wikipedia エンティティベクトル」[2] を用いて 200 次元に埋め込んだ。語彙数は 17,272 だった。
予測モデルは 32 次元の LSTM [3]。dropout 率は 0.5。文の最大長は 120 単語で zero-padding を行い、バッチサイズ 32 の Adam [4] で最適化した。
LSTM の実装には keras 公式に用意されたもの [5] を参考にした。
精度 0.85, 再現率 0.80, f値 0.82 とまずまずの精度で予測が可能であることがわかった。
ちなみに、 CNN による推定では 精度 0.84, 再現率 0.80, f値 0.82 という同等の結果を得た。
機械学習を用いることで、記事を開く前に hiwa 氏が翻訳したものであるか否かがまずまずの精度で分類できることがわかった。深層学習はすごい。
[1] MeCab: Yet Another Part-of-Speech and Morphological Analyzer
いつもは何も考えずにまず実装してるんですけど
「mecab ruby 名詞」で検索してヒットしたページみてとりあえずmecab組み込んだrubyプログラムにテキスト突っ込んで、名詞だけ取り出せて、名詞のカウントができることも理解しました
増田に対応した mecab辞書、がヒントになりそうですね。助かります
名詞のメタデータのようなもの(例えば、["学歴", "年収"]をcategory1、["韓国", "日本"]をcategory2)作るって感じで同じ記事の中で出てくる一緒に頻出しやすい名詞をカテゴリ分けできればあとは簡単そうなんですけど、それがmecab辞書ってことかな?違うか
追記
https://blog.fenrir-inc.com/jp/2016/11/mecab.html
それとも増田からmecabで抽出した名詞を増田特化させた独自のmecab辞書を利用したmecabで解析するってこと?いや、自分でも書いてて効果がよく分からん
https://anond.hatelabo.jp/20170918004847
続き
テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない
スクレイピングでデータを取る→mecabで形態素解析して頻出名詞をデータ化する→頻出名詞によって元増田がどのカテゴリーの属するのか判定する
の最後のカテゴリーを作るのがむずい。カテゴリーに名前を人力でつけようとするから難しいのか。ある程度頻出名詞が似通ったら(閾値を作って似てるの基準を作る)適当に振った名前group1,group2等に放り込むか。頻出名詞が似てるかどうかを判定するのは何の理論を使うのか、もしくは何のライブラリを使ったらどれだけ似てるかの判定を簡単にできるのか
最後のどれだけ似てるかの判定が自分は分からないってことが分かった
こういうのはどこで質問したら良い回答が得られるかな
弊学では、2年生の時に必修のプログラミングの授業でC言語を習う。
中学生の頃からパソコン大先生でスクリプト言語を軽く触ってた自分としては、わざわざ面倒な書き方で面倒なコンパイルをして動かす事に疑問を感じていた。
ちなみに、試験は紙ベースで、手書きでプログラミングをさせられる。つらい。
スクリプト言語で良いと思ってた自分は、C言語を覚えることに疑問を感じていた。
結局、授業以外で全く勉強せずに試験結果は散々だったが、なんとか単位が取れたので良しとしよう。
プログラミング初学者である人は苦労して書き方を覚えていたように思う。
脱落していった人を何人も見たが、人間やれば出来ないと思っていたことが出来るのである。
今学期、PHPを書く授業とPythonを書く授業を履修してみた。
PHPは、某テキストをもくもくと写経して動かしてみる授業で、独学でテキストのコードを動かす気力のない自分にとっては最高の授業だ。
Pythonは、MeCabなどで形態素解析や構文解析をする授業で、サンプルコードを自分で考えてカスタマイズして毎回レポートで提出する。
Pythonの書き方に慣れないからか、かなりハードであるが、やりがいがあっていい感じだ。
書いたらすぐに目に見える成果が出るところが大きい。
自分は、プログラミングを授業で教えるのならスクリプト言語に限るはずだと思う。
そう思っていた矢先に事件が起こった。
最近、研究室に入ったところ先生が手当たり次第Javaを教え始めたのである。
せめてJavaScriptでいいからスクリプト言語を教えてほしいところなのに、なんでJavaなんだと発狂した。
それでも、30億のデバイスで動くハイブリッドさとオブジェクト指向を理解する上での分かりやすさという面ではJavaが手軽なのかもしれない。
ところで、最近になってプログラミング教育義務化とか叫ばれてるが、Scratchでパーツを並べてプログラミングをするなんてただの積み木に過ぎないと思う。
絶対にツマラナイだろう。
自分は、プログラミングの授業で数字を足し算して黒い画面に表示させるとかツマラナイと感じてしまった。
こんな複雑なことをしても、これしか成果が出ないならやってられないと思うのは自分だけなのだろうか。
お願いだから、プログラミングを教えるのならツマラナイ授業をしないで欲しい。
生徒に分かるように、生徒は楽しんでプログラミングをするべきだ。
別にどんな言語でもいいと思うが、プログラミング言語は人それぞれ好き嫌いが激しいだろう。
自分は、分かりやすくて直感的なRubyというプログラミング言語が学校の授業で採用されるべき言語に間違いないと思う。
別にRubyにこだわる必要はなくて、スクリプト言語であればなんでも良いと思う。
CやJavaなどのコンパイル言語は複雑で分かりにくいし、教えにくいはずだ。
スクリプト言語を教えた後に、コンパイル言語、オブジェクト指向の概念を教えていくのがいいのではないだろうか。
みんなの意見を知りたい。
適当に増田のキーワードリンクをつついていたら「増田の流行語を調べてみたら、やっぱりお前らは○○コンだった」というエントリにたどり着いて面白いなと思ってしまった。
http://anond.hatelabo.jp/20140127113403
これならできるかもと思い立ち、5時間を費やして完成した2017年3月版(1日から22日)がこれ。
シロウトなのでどれがノイズか分からないし、単語の切り分けもMeCab+JUMAN辞書とお手軽に済ませてしまったので、同等のものだとは思わないでね
一日中張り付いて書いてる人がいるよね
好きとか言わない人達かと思ってた。失礼だった。
5割がた増えた
数は減っているが、集計日数的にも減ってるので2%減の横ばい
13位 意味 = 799
14位 会社 = 752
15位 関係 = 745
16位 世界 = 734
18位 女性 = 716
19位 死 = 712
20位 家 = 695
21位 普通 = 694
22位 社会 = 676
23位 金 = 662
25位 相手 = 606
26位 気持ち = 604
27位 アニメ = 598
29位 頭 = 558
30位 理解 = 544
ちなみに
アニメやゲームのキャラクター情報をまとめてるサイトがないから作りたいなぁって
思ってたんだけどhtmlは初歩しか分からないしプログラミングもできないので構想するだけで作れなかった。
ゼロから4ヶ月でWEBサービスをリリースした人の記事を見つけて「自分にもできるかな!」なんて思い挑戦してみたけど理解できず挫折・・・orz
それでもWEBサイトを作りたかったので制作会社に発注してみようと思い立った。
ただのキャラクターのデータベースだけではつまらないのでコミュニティ要素なども付けて
ネットで見つけた制作会社に見積もってもらうと下記のようになった。
合計1,483,125円
以前、SNS「ウェブカレ」のサイト制作費が1千万円で安く仕上がった(潰れたけど・・・)という話があったから
なんとなく3~400万くらいかかるんじゃないかなと不安だったんだけど予想より安い見積もりだったので、
このくらいの金額ならなんとか出せる!ということで制作してもらうことにしました。
本当は何社かに見積もってもらって比較しようと思ったんだけど面倒だったのでそのまま制作をお願いすることにした。
(最初はもう少し高かったけど機能の簡略化とオープンソースのライブラリを使用してもらう事で費用を抑えてもらった。)
去年の10月の頭くらいから打ち合わせを始めて第1フェーズでワイヤーフレーム作成と仕様策定をして第2フェーズのhtml、システム開発に
移ったのは中旬だったかな?その段階で前金で4割の580,650円を支払いました。
制作会社には3回くらい打ち合せに行って、あとはメールでやり取りしていました。
当初は12月中にリリースを予定してたんだけど、なんだかんだで伸びてあらかた出来上がったのが2月の中旬くらい。
ちなみに僕はヒッキー(どれくらいヒッキーかというと外出は3日に1回くらい)なので制作してもらっている間は
↓作ったサイト
サーバはさくらのVPS 8Gを使用。CentOS5の64bit
設定した項目は以下のとおり
HDDが3つあって、普通に/var/wwwにコンテンツを入れていくとHDDが溢れそうだったので、容量の大きいものを使うように工夫したりなど。
メモリもそこそこ積んであるサーバなので、mysql、php、apcに多めにメモリを割り当てる設定をした。
本当はmyISMやInnoDBエンジンでLIKE "%word%"のようなクエリーを投げて十分なパフォーマンスが出ればいいんですけどね。
それはムリなので、全文検索エンジンとしてgroongaを使用。
groongaを使用するために先にインストールしたのはこんな感じ
この時点でいざ、groonga!と思ってgroongaをインストールしようとすると競合を起こして入らない。
epel、remiレポジトリからインストールしてあったmysqlと衝突してたのでyum remove "mysql*"で
一旦mysqlを消して、groongaレポジトリからmysqlとgroongaをインストール。
するとgroongaは入ったものの、今度はphpから使おうとしてもphp-mysqlパッケージが入らない。
あちらを立てればこちらが立たぬ状態で本当にこまった。
どうしようもないので、やりたくないけどyum-downloadonlyを使ってパッケージに含まれる設定やら、soファイルなどを直接とってきて入れた。
mysql.so、mysqli.so、pdo_mysql.soを/usr/lib64/php/modules/にコピーしたり、設定をコピーしたり、少しずついじりながら、なんとか動いてくれた。
状態としてはmysqlとgroongaはgroongaレポジトリから、phpと本来php-mysqlパッケージでインストールされるmysql.soは手動で置いたことになる。
シェルから直接mysqlにログインするときはgroongaレポジトリのやつを、phpからmysqlを呼ぶときは手動で置いたmysql.soを使うことになっている。
ちょっと心境的にしんどい。別の方法があったかもしれないけど、調べても分からず結局1日くらいかかった。
アクセスは、サイト全体(トータル)、サイト全体(当日分)、各コンテンツ日別、各コンテンツ週間、各コンテンツトータルのアクセスをとるようにしています。
検討した候補はmemcaced、apc、mysql、redis、fileあたりなんですが、
fileは候補にあがったものの、メンドウ、、どうせなら楽な既製品がいい。と思って候補から外しました。
残るはmysqlかredisだけど、redisが高速って聞いていたのでredisにしてみました。
最初全部redisに入れて、集計した結果をmysqlに入れるつもりでしたが、週間ランキングなどはINSERT INTO .. DUPLICATE ONを使って、
アクセスした週の月曜日00:00:00のタイムスタンプとコンテンツIDをキーにしたレコードを作ればそのまま週間ランキングになるなー。と思ってmysqlを使っています。
コンテンツのトータルアクセス数もコンテンツのレコードにpvという項目をつくってUPDATE table SET pv=pv+1 WHERE id = ? のようにしました。
最初難しく考えていたけど、こうすることによって大分楽になったなーといった感じ。
全文検索エンジンや対話検索、ここにこのリンクがあればなぁ。。という所に何とかしてリンクを作るのが本当に大変だった。
使い勝手を良くするために、ここにこの機能をなど、さくっと思いつくのは簡単でもそれを実現するために、あーでもない、こーでもないと
DB・プログラムとにらめっこしながら「あ!こうすればできる!でもそうすると今度はこっちが・・・」みたいなのがあったりでとても大変だった。
【お知らせ】2011/09/07
http://d.hatena.ne.jp/uniqueweb/20110906/1315285545
プログラムは全く得意じゃないけれど最近よく見かけるようになったエロ動画検索を自分でも作ってみたくて頑張ってみました。
近年、インターネットの普及によりエロ動画が自宅で簡単に見れるという素晴らしい時代になりました。
自分が若い頃はインターネットなんてものはなくエロビデオが主流でドキドキしながらレンタルビデオ屋に行き、可愛い女の子がレジにいない隙を見計らってお兄さんにパッケージを伏せて空箱を渡しビデオを借りたものでした。
お兄さんにビデオの空箱を渡そうとした時に可愛い子がレジに戻ってきて焦って渡すのをやめてものすごく変な動きをしながらエロビコーナーに引き返していくなんてことも多々ありましたw
僕のお気に入りといえば「白石ひとみ」や「あいだもも」といった女優でよく借りてました。エロビを借りるということがものすごく恥ずかしい時代?年頃?でカモフラージュに普通のビデオと一緒に借りるということもしていました。それはそれは大変な思いでオナニーしてたんです!
しかも、ビデオデッキ自体が貴重な時代でリビングに一台しかないのが当たり前でした。
深夜家族が寝静まってからヘッドフォンとビデオを抱えリビングに行き暗がりの中でヘッドフォンをテレビに差し込んでビデオの再生ボタンを期待に胸をふくらませながら押したものです。いいシーンを何回も見るためにビデオを巻き戻すんですが、ビデオを巻き戻すガチャンガチャンという機械音で家族が起きてこないか?とかそれはそれはドキドキしながら見てました。一仕事終えたあとヘッドフォンを外したらジャックが外れていて大音量で喘ぎ声が響き渡っていたなんてこともありました。誰も起きてこなかったのは優しさなんでしょうか?w
さて、大分前置きが長くなりましたがエロというものはものすごい技術発展させるものだと思います。エロのおかげで日本でビデオは普及しエロのおかげで日本でインターネットはものすごく普及したと言っていいと思います。自分もエロを通して技術の発展に貢献し自分自身のスキルアップになれば。という高い志を持ってこのサイトを制作しました。決して自らのオナニーライフの充実と性癖を充たすため作ったわけではありません・・・w
※2011.08.07 利用中のサーバーに障害が発生しているようで現在サーバーに接続できない状態となっています・・・
サイト名の由来は抜きネタからきています。抜きネーター、ヌキネーターという感じですw
エロサイトの制作工程を日記にしてみたんで良かったら読んで下さい。そしてこのサイトを使って夜いろいろと励んでくれたら嬉しいです。
まず前提条件としてお金をほとんどかけたくない。アダルトサイトであるということから
月の予算は5000円以内で考えていたのでけっこう探すのが大変でした。
日本でアダルトサイトを許可している所はかなり限られていてさらにやりたいことができるのは
専用サーバーかVPSしかないのでそうなると専用サーバーは予算オーバーなので
VPSで探すことになり検索しまくってはじめに見つけたVPSはKAGOYAのVPSだったのですがβ版で募集を締め切っていて泣く泣く諦めました。
KAGOYAはかなり評判がいいみたいなので使ってみたかった。
次に見つけたのが○○○VPS。海外サーバーで日本語サポートがあり転送量の制限なしディスク容量100G
月1300円程度で借りれるということで初期設定費用に5000円程度かかりましたが借りてみました。
結果、ここは最悪でした。
あまりの酷さに1ヶ月で解約。
よく調べてみたら評判がものすごく悪い某VPSの再販らしいです。
もう失敗したくないと思い今度は比較的有名な海外サーバーLINODE。
iptablesの設定でどうしてもうまくいかなくて拙い英語でメールしてみたら
10分しないうちに返信がきました!
メールに書かれているとおりにコマンドを入力したらあっさり解決。
担当のブライアンはなぜか分からないけどとてもフレンドリーで親切に感じましたw
LINODEは複数のディストリビューションから好きなものを選択できるので
とりあえず、64bit版を選択。
一番面倒だけど重要だということで
Tripwire
ほんとに面倒でした。
はじめはmysqlにストレージエンジンgroongaを使おうと思ったのですが
初めに借りた最悪なVPSはOSが32bit版だったのでgroongaがのソースが見つからずなぜかと思っていたら
どこかで見つけた記事で32bit版ではgroongaの性能を発揮しきれないということで32bit版の提供をやめてしまったらしいと書いてたので
じゃあ、sennaにするかということで最悪VPSでsennaをインストール。
その後LINODEに変更したのでOSに64bit版を選択し念願のgroongaをインストール。
しかし、調べてみると
プログラムもそれに合わせてその都度書き換えたので2度手間どころか3度手間4度手間でした・・・
まず
そして下記の順番でインストール
rpm -ivh mecab-0.98-tritonn.1.0.12a.x86_64.rpm
rpm -ivh mecab-ipadic-2.7.0.20070801-tritonn.1.0.12a.x86_64.rpm
rpm -ivh senna-1.1.4-tritonn.1.0.12a.x86_64.rpm
rpm -ivh MySQL-shared-5.0.87-tritonn.1.0.12a.x86_64.rpm
rpm -ivh MySQL-client-5.0.87-tritonn.1.0.12a.x86_64.rpm
rpm -ivh MySQL-server-5.0.87-tritonn.1.0.12a.x86_64.rpm
rpm -ivh MySQL-devel-5.0.87-tritonn.1.0.12a.x86_64.rpm
my.cnfの設定をして終了
で肝心の全文検索ですがデータ件数が5万件程度で少ないせいなのか、あいまい検索と比べてそれほど速さを実感できなかったです・・・
でもきっとすごく速くなったはず!
ちなみに「麻美ゆま おっぱい」で検索した場合、0.01 secで結果が返ってきました。
さて、動画データの作成ですがいくつかのエロサイト等制作記事でもあるようにスクレイピングということをします。
スクレイピングとはWEBサイトから特定の情報だけを取得することでネット上にあるサイトをクロールして必要なデータだけを拾ってデータを作るといった感じでしょうか。
スクレイピングのプログラム自体は以前にTidy関数を使って為替データを10分おきに取得するような物を作ったことがあったのでそれほど時間はかからないかなと思ったのですがけっこう時間かかりました。
スクレイピングにはTidyとhtmlSQL、それにPHP Simple HTML DOM Parserを使いました。
SQL みたいな文法で HTML を抽出する PHP のライブラリ
htmlSQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」
3つの中で抜群に使えるのはPHP Simple HTML DOM Parserだったんですが
ループ処理させるとメモリがすごいことになって今回のようなスクレイピングに向いてないみたいで
結局、htmlSQLとTidyの両方を使ってスクレイピングしました。
両方ともPHP Simple HTML DOM Parserに比べるとうまくデータの取得ができないことが多く残念な感じなんですが他に選択肢がないので・・・
使える順に並べると
といった感じかもしれません。
おおまかにデータを取得して正規表現で特定データを抜き出しました。
http://affiliate.dmm.com/link.html
利用可能な物はパッケージ画像、サンプル画像(縮小)と書かれていたのでそれに従い画像を利用。
注記に※ユーザーレビューは引用いただけません。とだけ書かれているのでそれ以外は引用ありと判断して説明文とタイトルなどを利用
女優データとジャンルデータ、DVDデータ、を紐付けたデータベースを作成し検索ワードに応じて検索結果に関連する商品を表示させるようにしました。
現状、売り上げ0で意味があるのか分かりませんけどw
エロサイトということで多少はチューニングとか設定とかしないとまずいかもと思い色々調べて設定しました。
やったこと
KeepAlive On MaxKeepAliveRequests 60 KeepAliveTimeout 3 <IfModule prefork.c> StartServers 7 MinSpareServers 5 MaxSpareServers 10 ServerLimit 30 MaxClients 30 MaxRequestsPerChild 4000 </IfModule>
様子見ということで2日間で設定してみました。
query_cache_limit=1M
query_cache_min_res_unit=4k
query_cache_size=16M
query_cache_type=1
とりあえずこんなところを設定してみましたが、爆発的なアクセスがあるわけでもないので有効なのか今のところ分かりません(-_-;)
Apache Benchでテストはしてみましたけど問題はない感じですが実際にチューニングができているか分かりません。
プログラマーとして有名なゆうすけさんのサイトとgoogleを参考にしました。
シンプルで使いやすいようにしようと思いこのデザインにしました。
クロスブラウザはIE7、firefox3、chromeで行いました。
可変ものって作ったことなかったんですがけっこう面倒なんですね。
ブックマーク機能とメニューの折りたたみ機能、検索結果の表示方法切替を作りました。
まず、ブックマーク機能ですがログインなしで気に入った動画をブックマークできるようにしました。
ブックマークに追加した動画はブックマークページで確認できるようにしました。
cookie機能を利用したらいけると思い色々調べてjquery.cookie.jsを利用。
保存したクッキー情報を呼び出してphpに渡して処理し指定要素にブックマーク一覧をloadメソッドで表示させるという感じです。
$(function(){ $("#youso").load("xxx.php"); });
メニューの折りたたみ機能は人気AV女優やAV女優別、人気タグなどをそのまま表示させるとずらっと長くなって邪魔だったのでつけました。
これには同じくjquery.cookie.jsを利用しました。
参考サイト:http://blog.caraldo.net/2009/03/newjqqookiemenu.php
検索結果の表示方法切替にはZoomer Galleryを利用しました。
参考URL:http://phpjavascriptroom.com/?t=ajax&p=jquery_plugin_zoom#a_zoomergallery
検索結果ページで表示される
[ここの画像]
××× の検索結果
44件中 1~10件目を表示
ここの画像の部分をクリックするとgoogleイメージ検索みたいに一覧でイメージ表示できるようにしてみました。
基本的に動画の埋め込みを許可しているサイトのみプレイヤー表示をしそれ以外は画像を表示し動画データへリンクするようにしました。
埋め込み部分はあらかじめそれぞれのサイトに対応したプレーヤー部分のコードを記述しVIDEOIDの部分に置き換えるような形にしました。
XVIDEOSを例にすると
XVIDEOSの場合かならず動画のurlがhttp://www.xvideos.com/videoXXXXXX/のようになりますのでXXXXXXの部分を
VIDEOID部分に置き換えるようにプログラムを組みました、
埋め込み部のソース
>||<object width="510" height="400" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0" ><param name="quality" value="high" /><param name="bgcolor" value="#000000" /><param name="allowScriptAccess" value="always" /><param name="movie" value="http://static.xvideos.com/swf/flv_player_site_v4.swf" /><param name="allowFullScreen" value="true" /><param name="flashvars" value="id_video=VIDEOID" /><embed src="http://static.xvideos.com/swf/flv_player_site_v4.swf" allowscriptaccess="always" width="510" height="400" menu="false" quality="high" bgcolor="#000000" allowfullscreen="true" flashvars="id_video=VIDEOID" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" /></object>
||<
その他の動画サイトもURLの一部分のデータを使っているので同様の処理をしました。
実際の作業は2、3週間ですが色々調べる時間が多くて制作に2ヶ月くらいかかりました。
自分でエロ動画検索を作ってみて有名プログラマーさん達がいかに優秀なのか思い知らされました。
全くWEBの知識がない人で4、5ヶ月ですごいの作っちゃう人とかもいるみたいですし世の中広いな~と思います。
大分、色んな知識を得ることができました。
これからプラグラムを勉強しようと思う人はぜひエロサイトから入ってみて下さい。
そんなこんなで?頑張って作ってみたエロ動画検索、良かったら使ってみて下さい。
これで少しは技術の発展に役立てたでしょうか?w
P.S エロサイトを作っていてはじめは楽しくて興奮しながら作ってたのですが最後の方はエロい物を見ても全く反応しなくなりましたw
不能ではないんですけど・・・今現在も性欲が著しく減退しております・・・
そしてスーパーpre記法がうまういかないのはなぜ?はてな匿名ダイアリー初投稿で全然分からない・・・
そしてそしてプログラマーさんとかデザイナーさんとかエロい人とかお気軽にお声をおかけ下さい。
【お知らせ】2011/09/07
【エロ注意】eroino http://eroino.net/
eroinoは毎日更新される大量のアダルト動画を、AV女優やキーワードで分類して表示したり、お気に入りリストにクリップできるサイトです。現在の動画数は、約28万件。
http://anond.hatelabo.jp/20101203150748
eHub Interviews
http://jp.techcrunch.com/archives/20100430joe-hewitt-web-development/
MSは囲い込み戦略を、その決して洗練されていないソフトウェアの品質から叩かれることがあるけど、
確かに、独自技術を特許で固めることはしていなかったように思う。
現に、Ajaxのテクノロジーは、基礎をIEの独自拡張から始め、firefoxなど他のブラウザの実装に発展してきた。
Adobe Flashも同じくユーザーに何一つ強制はしていない。
そして事実上、今日の一般的なミドルウェアとして使われている。
そのFlashプラットホームを、Appleは否定しているものの、
では、代替となりえる技術をAppleが開発して W3C に標準化を求めるかというと
そんなことはしていない(HTML5をAppleが推進していたのかどうかは知らないけど)
ただ、ネットをもっとオープンで誰もが自由に使えるものにしようとしている気がした。
Mecabがこれから iPhoneプラットホームで使えなくなる(広義)という話を聞いて
珍しくApple非難が一般デベロッパ・一般ユーザーからも出てきたな、と思ったところではたと気づいた。
iPod移行、Apple には Google よりもクリーンなイメージが自分の中にあったのだ、と。
では Appleは善良な企業か、Google のように「悪いことはしない」という企業哲学に基づいた経営なのかというと
それは分からない。
http://d.hatena.ne.jp/mamoruk/20090327/p1
「いちばん」かどうかはわかりませんが、うちの会社の製品ではpythonを主力に使った自然言語処理を含む製品を販売しているので、実際の感想を。
うちでは、pythonを元データの整備のための運用バッチ処理から、客が最終的に手にする情報の生成、実際に客が使うWEBインターフェースまで、pythonを主力にしています。
別のチームが作った別の製品ではS2Struts(JAVAね。)でWEBを作っている部分もありますが。
mecabが使えて、Unicodeが使えて、正規表現が使えれば、まあ、どの言語を使ってもそんなに大差はないのではないでしょうか。
あとはsennaのような日本語用の全文検索エンジンなども使いますが、そこらへんに近い部分は基本的にC++で書きます。
pythonとは言っても、速度を重視する部分はやはり迷わずC++です。
C++で書いたものはswigを使うか、又はC言語で手書きのbindingを使ってpythonに接続します。
でもこないだswigでつないで製品をリリースしたら、WEBからの並列アクセスにswigがうまく対応できず、リリースした日に急いで手書きbindingを書いた経験があります。swigの使い方はきちんと理解していないので非常に難しい。
nltkとか、wordnetの話はたしかに使えそうかもと思ったことはありますが、nltkはうちでは使っていません。
うちの会社では自然言語処理の研究段階から自社で行っているので、nltkにあるようなできあいのルーチンを実戦投入する事はなく、基本的に地味に自分達でpythonで書いています。
自然言語処理と言っても、核心の処理はやはり泥臭い個別事例への対処が多いです。不要語処理とか。
自然言語処理のアルゴリズムは8割程度の精度を出すのは簡単で、すぐに思いつきで書けるものですが、残り2割の精度をいかに埋めて行くかが、頭のいい人とそうでない人の差が現れる部分だと思います。
どうしてもいいアルゴリズムを思いつかない場合は、泥臭い個別事例処理がうねうねと並んだプログラムになります。学術的なものではなく商売になればいいので、うちはとりあえずそれで十分。(これは自然言語処理に使う機械学習のアルゴリズムたちも同様。というか自然言語処理と機械学習て、区分けがあいまいな部分が多いですよね。)
そういう感じなので、pythonの可読性の高さは非常に有効。
また、変数名や関数名などをexplicitに書く文化も業務で使うのに適していると思います。(他の言語でもexplicitに書けばいいだけですが、それを言語開発者自身が推奨するほど強調はしていないですよね。)
英文の処理で、wordnetの辞書データの一部を研究に使った記憶はある。
しかし、あそこまで精緻な辞書データを使う程高度な処理は今の所必要ない。
うちで自作した不要英単語辞書と、特別扱いする英単語辞書で間に合わせていたと思います。(その辺記憶があいまい。)
djangoは非常に明快で、快適。
画面の機能を追加するのに、例えばS2Strutsのアクションの定義の煩雑さに比較すると、天と地との差ほどにdjangoは簡単。
あと、pythonを使える開発者は日本には少ないとの事ですが、うちでもそれは同様です。
しかし、自分の隣の席の同僚はperlに非常に熟達していて、彼はすぐにpythonの達人に変わりました。
優秀な方にとっては言語なんて何をつかってもあまり変わらないみたい。