「形態素解析」を含む日記 RSS

はてなキーワード: 形態素解析とは

2020-07-31

このIT全盛期に、ITと相性最悪の言語が天下取れるわけ無いだろ。

https://anond.hatelabo.jp/20200730225532

Shift-JISかいう特大の負債

UTF-8だと2バイトになったり3バイトになったり、更にサロゲートペアまで出てくる(これは絵文字の影響で英語圏の人も今は同条件かもしれん)

ファイルデータを並び替えして漢字が先頭に来ると並び順が意味不明

・コレーションで何を同一と扱っていいのかも曖昧

・文がスペース区切りではないので全文検索転置インデックス生成が複雑。形態素解析やらNgramやらなんやねん

2020-03-16

anond:20200315225230






















ほぼ毎日使っている一部を挙げたけれども、出勤準備の時間が近付いてきたのでココまで。
気分が向けば追記するかも知れない。

2019-09-15

スペース増田増田テキスト機械学習器にぶち込みたい人が

わざわざ形態素解析しなくていいようにあのような書き方をしている

わけないだろ

2019-02-03

anond:20190203014005

ヤベーかは知らんけど疑惑として

1. やっぱ秒毎クロールてへん投稿後に修正すると反映されへんみたいだけど?

2. 増田の要素からテキスト拾って整形して形態素解析して単語分解してるんじゃなくて、はてな中の人なので普通にDBから拾ってたりしない?

と思ってるやで、うんち💩

2019-01-28

増田統計ってやっぱり「はてな」の中の人なの?

増田の要素からテキスト拾って整形して形態素解析して単語分解してるというよりも

中の人なので普通にDBから拾ってるんじゃねぇかな感

それとも秒毎にクロールするのって問題ないクローラーの振る舞いなの?

かにその程度でダウンすることはなかろうけども

2019-01-27

集計増田(増田統計) まぢかい・・・

スキッパーキ(8) > 「はてな」によるワードタグ付いてないので自分形態素解析して単語分解してる

柴犬ランクインなし柴犬文字の入った投稿スキッパーキと同じく8回である投稿後に「芝犬」>「柴犬」に修正した為、反映されていない模様。 現在存在しないデータで集計掛けているってどういうことなんですかね?これいタイミングテキスト取得しているのっていう

2019-01-26

まさかと思うけどネタではなくてガチ仕事とかないよな

集計増田(増田統計)も、ちゃんと要素からテキスト拾って形態素解析して集計掛けてるんだよね?

匿名ダイアリーDBから直接拾ってる中の人仕事とか無いよね?

匿名ダイアリー釣り投稿増田仕事の人のお仕事であって

プレビュー稼ぐオペレーター部隊が居たりせんよね?

2018-10-15

おい!そこには手を出すなよ!

そこの上司

会話の内容の形態素解析とか、仕事で受けるのやめろ!

お前レベル、てういかウチの会社レベルじゃ無理だぞ!

100万でAmazon作れっていうのと同じだぞ!

そもそもうちの会社じゃ100億あってもamazonなんて作れないぞ!!

2018-07-14

話題AIを使って増田おっさん率を判定してみた。

増田を見ていると女の投稿結構あるように思えるが

文章検証していくと明らかにおっさん投稿が多い。

よく見る男女論だけでも明らかにおっさん投稿してると思われる。

そこで増田にどれくらいおっさんがいるのか。

これを判定するためにAIを使って判定して見た。


  • ここからはやり方を説明するだけなので結論に飛んでもらっていい

まず知人25人を用意する。25人の内訳は男20人女5人。

女があまりまらなかったのは私の不徳の致すところ。勘弁していただきたい。

ここで男のうちでネカマ文章を書けるかどうか質問をし

そのうち書けると答えた7人はネカマ文章を書いてもらうことにした。

文章は500文字以上とし一人当たり4文章作成してもらった。

それをMECAB形態素解析し、単語使用率等を解析する。

Train Data 男 10 ネカマ 5 女 3

Test Data 男 3 ネカマ 2 女 2

Trainデータを使って機械学習をする。

ぶち込むNNは入り口は要素100、出口は1の五層のNN。単語数100を超える部分はカットした。

まり最初の100以外はすべてカットした。

Train Dataでの判定結果は91.2%、Test Dataでの成功率86.3%になった。

このNNをつかって増田ブクマ10以上の投稿

ランダムに300件検出しテストしたたところ以下の結果になった。

男63.2%

女4.3%

ネカマ32.5%

私のNNができが悪いだけかもしれないので、皆さんも試して欲しい。

2018-06-27

RとMeCab使って形態素解析すりゃたぶん8割9割くらいの増田特定できるけどな

2018-03-21

[]ホットエントリになったエントリはどれだけの時間新着エントリに居たのか

以前、新着エントリの流れが早すぎて見た覚えがないエントリホットエントリになっていることがあるというようなことを書いてた増田がいたけれど、実際どれくらいの時間で新着エントリを駆け抜けていくか確認してみた。

2018年3月19日ホットエントリがどれだけの時間新着エントリリストに滞留したか

新着エントリ滞留時間エントリタイトルドメイン到達ブクマ数(21日23時台)
0Gaijin Engineer in Tokyo – Alejandro Wainzinger – Mediummedium.com1174
0事実にはオチも救いもないけれど、これが地方移住で受けた性被害現実です。|さとうひより|notenote.mu604
0形態素解析ツール比較 (NLP2018) - Qiitaqiita.com382
0修学旅行あるあるの『おみやげの剣』は日本以外にもあった!→どうやら世界各地にあるらしい - Togettertogetter.com145
0.3大戦機なぜ米では現役? 戦後70有余年、いまだムスタングなどが普通に飛んでいるワケ (乗りものニュース) - Yahoo!ニュースheadlines.yahoo.co.jp170
0.3統計検定を理解せずに使っている人のために IIwww.jstage.jst.go.jp564
0.5普通に勝てばいいのに」羽生竜王、優位な場面で悪手を指したと思いきや、結果的に最短で勝つ手筋だったことに手首を壊される実況民 - Togettertogetter.com436
0.5内閣支持率31%、第2次政権以降で最低 朝日世論調査朝日新聞デジタルwww.asahi.com185
0.5貴乃花部屋貴公俊付け人を殴打 顔腫れ、血だらだら:朝日新聞デジタルwww.asahi.com311
0.5中田ヤスタカが言う「全業界に言える、理想的プロ必要な力」www.buzzfeed.com607
0.8田端信太郎氏による「#ZOZOTOWN春の乞食祭り」が開催される - Hagex-day infohagex.hatenadiary.jp575
1青春モノを中年アングルで楽しんでいる自分に気づいた - シロクマの屑籠p-shirokuma.hatenadiary.com140
1Announcing gRPC Support in NGINX - NGINXwww.nginx.com338
1.2ブログ投稿前の文章チェックに、無料アプリtextlint-appが便利です - LOGzeudonblog.rokuzeudon.com186
1.2本社世論調査内閣支持率33% 前回比12ポイント減 - 毎日新聞mainichi.jp321
1.3バーチャルYouTuber800人全員を追う本物の男に聞く、最近バーチャルYouTuber事情 (1/5) - ねとらぼnlab.itmedia.co.jp486
1.3キズナアイ:人気バーチャルYouTuber声優初挑戦 テレビアニメ魔法少女サイト」 - MANTANWEBまんたんウェブmantan-web.jp169
1.5情報を最速で伝える岡三マン政治的発言ノイズ増加が市場参加者に不評 : 市況かぶ全力2階建kabumatome.doorblog.jp220
1.5間中学語る会に前川氏 セーラー服歌人と「学び」語る:朝日新聞デジタルwww.asahi.com96
1.5テニス 大坂なおみが初優勝 四大大会に次ぐ大会日本勢初 | NHKニュースwww3.nhk.or.jp189
1.7悲報ヴォイニッチ手稿暗号でも何でもなく単に発音表記してただけっぽい | JOY NEWSlivdir.com247
1.7関西弁の人ってやるかやらないかは置いといてanond.hatelabo.jp315
1.7Seiyuu Has A Mouth, and Seiyuu Must Eat Screamingly. – Watch. Fap. Improve.qazzaqxswwsx.wordpress.com677
1.8染色体異常確定で中絶が98% 新型出生前検査NHKニュースwww3.nhk.or.jp550
2今日、俺の好きなソシャゲサービス終了するanond.hatelabo.jp168
2.510話くらいになるとアニメを見るテンションが落ちるanond.hatelabo.jp104
2.5人気テレビ番組制作会社対応パワハラのようで理解できない - GIGAZINEgigazine.net195
2.5バイオレンス感満点の「グランド・セフト・オート」を2カ月間プレイしても人は暴力的にならなかったことが判明 - GIGAZINEgigazine.net98
2.5形が悪いなどの理由で捨てられていた野菜をシート状にした「野菜シート」が栄養たっぷり保存食としても有用 ディストピア飯にも - Togettertogetter.com800
2.7KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blogwww.yasuhisay.info222
2.748年ぶり公開「太陽の塔」内部を撮影したムービーまとめ - GIGAZINEgigazine.net235
2.7スーパー警備員への言いがかり的なクレームと、それに対する他のお客様の声話題に「まるでツイッター」 - Togettertogetter.com184
2.7Wikipediaで「ヒト」を象徴する画像が、タイの男女に決まるまで──5年の激論を経て選ばれた「1枚」の物語WIRED.jpwired.jp386
2.8安倍内閣支持率第2次安倍政権で3度目の40%割れと4度目のデッドクロスが決定的に : 市況かぶ全力2階建kabumatome.doorblog.jp109
2.8CNN.co.jp : 1週間無休のパン屋罰金、「働き過ぎ」で フランスwww.cnn.co.jp430
3ホッテントリ毎日読み漁る彼氏に届けanond.hatelabo.jp214
3AI」すごいぜ! メールから自動請求書作成にノンプログラミングでチャレンジした話【イニシャルB】 - INTERNET Watchinternet.watch.impress.co.jp333
3.5遠子先輩さんのツイート: ""【産経新聞ってときどきバカになるよね】バカって言うか反安倍派?日頃、保守派から評価されてるのに、こういうたった一つのバカ記事で信頼を失うってモッタtwitter.com158
3.824時間365日対応しろ?『かかりつけ薬剤師制度はやっぱり異常だよ - ゆとりずむwww.yutorism.jp139
3.8感情労働>「心の切り売り」で疲弊する人たち (毎日新聞) - Yahoo!ニュースheadlines.yahoo.co.jp520
3.8石破氏、文科省に苦言「そんなことやり始めたら…」 (朝日新聞デジタル) - Yahoo!ニュースheadlines.yahoo.co.jp157
4.3来月誕生日なんでプチ豪華な食事をしてみたいanond.hatelabo.jp167
4.3「いい作品勝手に伸びない」という話|華若葉notenote.mu200
4.51型糖尿病:打ち切られた障害年金 「社会保障のための増税」なんてウソっぱちだ! - 毎日新聞mainichi.jp247
4.8DockerでXサーバを動かしてGUIを直接表示する - くんすとの備忘録www.kunst1080.net332
5.7誰の一番にもなれないanond.hatelabo.jp561
5.7太陽の塔」内部が48年ぶりに公開されるので見に行ってきましたフォトレポート - GIGAZINEgigazine.net235
6.3すべてをjsにまとめる思想理解する - webpackハンズオンシリーズ|こんぴゅ|notenote.mu380
7.8奥さんが会社行った後、 いつもの休日の様にベッドで転寝してたら、 布団の..anond.hatelabo.jp222

滞留時間は正確さに自信無し。18日から19日の新着エントリ10分おきに監視

新着エントリリスト0時間ホットエントリになった理由はわからない。数分で新着エントリを通過した可能性もあるし、ファーストブクマされた時期が過去過ぎて新着エントリにならなかった可能性もある。

新着エントリリストに載ったり落ちたりを繰り返すことが多いようだ。落ちていた時間差し引いた時間を集計。

2018年3月22日はてブリニューアル前のデータ

2017-09-19

anond:20170919003931

mecab形態素解析して頻出名詞データ化する

ところは上手くできてるん?

増田対応した mecab辞書を作らないと難しそうな気もするけど。

増田テキストマイニングして投稿者パターン判別

https://anond.hatelabo.jp/20170918004847

続き

テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない

スクレイピングデータを取る→mecab形態素解析して頻出名詞データ化する→頻出名詞によって元増田がどのカテゴリーの属するのか判定する

最後カテゴリーを作るのがむずい。カテゴリー名前を人力でつけようとするから難しいのか。ある程度頻出名詞が似通ったら(閾値を作って似てるの基準を作る)適当に振った名前group1,group2等に放り込むか。頻出名詞が似てるかどうかを判定するのは何の理論を使うのか、もしくは何のライブラリを使ったらどれだけ似てるかの判定を簡単にできるのか

最後のどれだけ似てるかの判定が自分は分からないってことが分かった

こういうのはどこで質問したら良い回答が得られるかな

2017-08-05

AIビジネス文章を書かせる

形態素解析して言い回し単語定量化したらAIにも正しいビジネス文章を書かせることできるんじゃないか

少なくとも人間が書いた文章ビジネス形式の書き方に変換することくらいはできそう

2017-06-27

学校の授業でプログラミングを教えるとしたら言語は何が良いのだろう

自分情報系の大学生

弊学では、2年生の時に必修のプログラミングの授業でC言語を習う。

中学生の頃からパソコン大先生スクリプト言語を軽く触ってた自分としては、わざわざ面倒な書き方で面倒なコンパイルをして動かす事に疑問を感じていた。

ちなみに、試験は紙ベースで、手書きプログラミングをさせられる。つらい。

スクリプト言語で良いと思ってた自分は、C言語を覚えることに疑問を感じていた。

結局、授業以外で全く勉強せずに試験結果は散々だったが、なんとか単位が取れたので良しとしよう。

プログラミング学者である人は苦労して書き方を覚えていたように思う。

脱落していった人を何人も見たが、人間やれば出来ないと思っていたことが出来るのである

本来プログラミングは誰でも出来るはずである

今学期、PHPを書く授業とPythonを書く授業を履修してみた。

PHPは、某テキストをもくもくと写経して動かしてみる授業で、独学でテキストコードを動かす気力のない自分にとっては最高の授業だ。

Pythonは、MeCabなどで形態素解析構文解析をする授業で、サンプルコード自分で考えてカスタマイズして毎回レポートで提出する。

Pythonの書き方に慣れないからか、かなりハードであるが、やりがいがあっていい感じだ。

やはり、スクリプト言語楽しい

書いたらすぐに目に見える成果が出るところが大きい。

自分は、プログラミングを授業で教えるのならスクリプト言語に限るはずだと思う。

そう思っていた矢先に事件が起こった。

最近研究室に入ったところ先生が手当たり次第Javaを教え始めたのである

せめてJavaScriptでいいかスクリプト言語を教えてほしいところなのに、なんでJavaなんだと発狂した。

それでも、30億のデバイスで動くハイブリッドさとオブジェクト指向理解する上での分かりやすさという面ではJavaが手軽なのかもしれない。

コンパイル言語も悪くはないと思い始めた。

ところで、最近になってプログラミング教育義務化とか叫ばれてるが、Scratchでパーツを並べてプログラミングをするなんてただの積み木に過ぎないと思う。

絶対にツマラナイだろう。

自分は、プログラミングの授業で数字を足し算して黒い画面に表示させるとかツマラナイと感じてしまった。

こんな複雑なことをしても、これしか成果が出ないならやってられないと思うのは自分だけなのだろうか。

お願いだからプログラミングを教えるのならツマラナイ授業をしないで欲しい。

生徒に分かるように、生徒は楽しんでプログラミングをするべきだ。

別にどんな言語でもいいと思うが、プログラミング言語は人それぞれ好き嫌いが激しいだろう。

自分は、分かりやすくて直感的なRubyというプログラミング言語学校の授業で採用されるべき言語に間違いないと思う。

別にRubyにこだわる必要はなくて、スクリプト言語であればなんでも良いと思う。

CやJavaなどのコンパイル言語は複雑で分かりにくいし、教えにくいはずだ。

スクリプト言語を教えた後に、コンパイル言語オブジェクト指向概念を教えていくのがいいのではないだろうか。

これは、あくまでもたった1人の大学生意見しか過ぎない。

みんなの意見を知りたい。

2017-03-15

マウンティング』はなぜ流行してるの?

あらゆる事象を『マウンティング』を使って説明しようとする傾向を不思議に感じる。マウンティングと言われても機械の取付金具のたぐいしかイメージできない。いつからマウンティング』が人口膾炙し始めたのだろうか?

純正検索機能で見つかる増田での初出は2014年11月25日18時25分。でもこれははてな検索が『マウンティング』を形態素解析可能になったのが2014年秋頃というだけの話で、それ以前のエントリでもマウンティングが見られないことはない。2014年7月13日には既に見つけることができた。

Googleトレンドで見てみると2014年の春頃に急増している。その頃のニュース記事検索してみると、渡辺千穂脚本沢尻エリカ様主演のテレビドラマファーストクラス』が女性同僚間での『マウンティング』をテーマとして描いていてそれで一気に流行語になったのだという。

Googleトレンドでは2014年2月時点で既にグラフが上昇しつつある。これは2月8日に発行された瀧波ユカリ犬山紙子著『女は笑顔で殴りあう:マウンティング女子実態https://www.amazon.co.jp/dp/4480815198の影響が大きいのではないかと思われる。

2014年1月以前も細々とながら使われていた。その中には2013年4月20日発行の『嫌われ女子50』https://www.amazon.co.jp/dp/4584134928という本についての言及も見られる。これも犬山紙子氏の著作である犬山 紙子氏がこの人間の行動を『マウンティング』で解説するブームを作ったと見ていいのではないだろうか。

はてな村では2011年内田樹氏がブログ内で使ってプチブームが発生した。「暴言と知性について」http://blog.tatsuru.com/2011/07/05_1924.php

更に前になると2008年ごろからid:Nagise氏がはてなダイアリーで多用されてきた。はてな村での流行id:Nagise氏にルーツがある可能性もある。

それ以前の言及普通に動物の生態を書くために使われた用例が多い気がする。

2016-06-04

[]よくある質問

真面目に答えず、出来る限り嘘と虚構を織り交ぜて答えていきたい。

Q.ネットで滅茶苦茶な文章をよく見るのですが、あれは何なのでしょうか。

広義的にいうならスパムだな。

で、この文章がどうやって作られているかというと、主にコンピューターによって自動生成されている。

自然言語処理には「形態素解析」や「構文解析」などの技術が用いられているのだが、よく分からないのでスキップしよう。

で、それらが文法を解するのだが、致命的な弱点がある。

文章意味”を解さないんだ。

まり、それで出来上がる文章文法的には正しく見えるかもしれないが、文意がないので支離滅裂になる。

言語障害を「ワードサラダ」と通称することがあって、そこからこのスパムはそう呼ばれるようになった。

これの厄介なところは、検索エンジンがそれら支離滅裂文章スパムとして弾くことが困難なことだろう。

ザックリいうなら、コンピューターが書いたものなのだから、それはコンピューターにとって「正しい文章」だと判断される、と考えてくれ。

SEO(検索エンジン最適化)にとって、ワードサラダ対策永遠課題……らしい。

このようなことをする目的としては、労力なしに広告収入を得るため、SEO妨害とか愉快犯など、人によって目的は様々のようだ。

誤解してはいけないが、自動文章を生成する技術自体が悪いのではなく、それの利用方法問題であることは知っておいたほうがいい。

2016-01-01

(o・∇・o)

形態素解析で学ぶ「もちょブログ」の書き方

なんてのでてたんか…

2015-01-24

気味が悪い

エゴサーチしてたら見つけたんだけど、こういうブログってなんのためにやってるんだろう。

気味が悪い。

http://www.wufangbuhuanbaodai.com/

http://www.keycitymarketing.com/

http://www.floatingdockswavearmor.com/

なんかツイート自動収集してログってる感じ。

キーワード合致したのだけピックアップしているのかな?

目的がよくわからない。

形態素解析学習用も違う気がする。

追記

う~ん、目的がわからないってなんとなく怖いな。

https://twitter.com/Tamera7253/status/558804182279684097

2014-09-25

http://anond.hatelabo.jp/20140924214600

1. 取得したいページのURL配列を作る ["http://www.hogehoge.com/1","http://www.hogehoge.com/2"・・・]

2. URL引数とした、該当のページから取得したい情報を抜き出すプログラム関数)を書く タイトル、xvideoのURL、xvideoのIDなどなど

3. 2のプログラム最後に、抜き出した情報データベースに登録する処理を書く。この時、xvideoのidなどで登録済みか未登録かを場合分けして、登録済みの場合スキップする。

4. 1の配列に対してループを回して、2のプログラムをそれぞれのURLで実行する。

>・埋め込みタグ抽出

・埋め込みタグは取らなくていいんじゃないかな?xvideoのid差し替えるだけで、表示できると思う。

>・タイトル自動で付けたい。

これはかなり難しいと思う。そもそも、xvideoのタイトル英語だし、きちんと付けられていない。そうすると、動画の中身を読み取ることになるけれど、それはかなり難しいだろう。日本語の説明文がないから形態素解析も役に立たない。自分だったら、見た人に協力してもらって、日本語でのタイトル付けをしてもらう機能実装する。

> Rails への移行

学習コストがかなり高いから、2ヶ月位は開発止まると思う。でも、楽しいのでおすすめ

2014-09-24

【続編】ニートエロサイトを3日でつくってアフィ生活をはじめた

こんばんは。お久しぶりです。相変わらずニートしてます

なんかこの前ここで書いたダイアリーが400はてブとかついてすごいビックリした増田だよ。

ニートエロサイトを3日でつくってアフィ生活をはじめてみた話

http://anond.hatelabo.jp/20140908063655

お陰ではてブしてもらった日はいろんな人に見てもらえたみたいで

1日で12,000PVくらいいったんだけど、次の日から順当にPVは下がり続けて

今は1日1000PVくらいをうろうろしてる弱小エロサイトになった。

あれからPHP書いたりWordPress更新したりってちょくちょくやってるんだけど、

PHPってなんであんなむずいんだよ。ふざけんな。アドバイスしろくださいおまいら。

作ったエロサイト

即ハボドットコム

http://sokuhabo.com/

俺氏スペック振り返り

24ニート

HTML/CSSはそれとなく書ける。

PHPは頑張れば読めるけど自分では書けない。

・好きなAV女優成瀬心美

あれから2週間。改善したとこ。

残念ながら俺はニートなので、時間はある。

いろいろ改善してみたり、失敗したりした。

こんなめんどくさがりな俺でも続けていけるものが見つかるなんて

にわかには信じられなかったのでエロ正義

デザインを変更した。

まずこれ。これはなかなか成功したんじゃないかと思う。

といってもテーマファイル差し替えて、自分で少しHTML/CSSいじった程度なんだけど。

iPhoneからみてもPCから見てもそれなりな感じになったのでとりあえずこれで満足。

プロからみたらダメなところたくさんあるかもしれないけど妥協しとく。

これでも結構時間かかってしまった。

うん、まともに変わったところといえばこれくらいか。

アンテナサイト相互RSS登録

あとはPV稼ぐためにSEO以外の方法を探した。

SEOについて調べていくとどうやらエロサイト検索流入と同じくらい

アクセストレードってのが大事らしい。性質ソーシャルからの流入はあまり見込めないから当然か。

なのでよくわからんけど主要っぽいアンテナサイト相互RSS登録した。

いまのところあんまアクセス流れてこない。どうなってんだよアンテナどころか圏外じゃねーか。

PHPスクレイピングしようと思ったんだけど、盛大に失敗した。

そんでこれが本題。

やっぱり記事更新作業がくそだるいニートなのでラクをしたい。そのためなら勉強する。

って思ってたけどやっぱり挫折した。PHPむりぽ。

やりたいことってのはまとまってるんだけどそれを実現するためのソースコードが思い浮かばない。

Simple HTML DOM Parserってのを使えばいいってところまではわかった。

やりたいスクレイピング

指定サイト、もしくはXVIDEOSから新着のサムネイルXVIDEOS埋め込みタグを拾ってくる。

・それをデータベースに登録する。(この時にWordPressには下書きの状態で投稿されると最高)

・同一の動画を拾ってきた場合データベースに登録しない。

・6時間おきとかに1日4回くらい実行する。

こんなことがしたいんだけどもうわけわかめ

指定したページのある要素をスクレイピングして、

さらにそれぞれに紐づく下層ページにある埋め込み動画タグスクレイピングするってのがわからない。

ここで書くのは間違いかもしれないけど教えてエロい人。

究極にやりたいプログラミング

タイトル自動で付けたい。

拾ってきた動画タグ付けをしたらそのタグをもとに

いい感じのタイトル自動でつけてくれるとかいう神プログラムを組みたい。

ヤフー提供してるAPI形態素解析なんちゃらとかいうのを使えばできそうだなーとか思ったけど、

まりに光の見えないトンネル突っ込みそうだったからこれはまた今度。

とりあえず勉強するしかないか

ってことで整理するために書き起こしてみたけど

結局自分勉強するしかなさそうだな。

PHP,MySQLあたりの勉強もっと頑張ればうまくいくのかな。

他のエロサイトがどうやってスクレイピングしてるのかまじで知りたい。

PHPが取っ付き易いからPHP頑張ってるんだけど

やっぱりRuby on Railsとかでスクレイピングしたほうがラクなのかな。

あーなにか目標持ってこんなに1日中ひとつのことに没頭してるの何年ぶりだろ。

即ハボドットコム

http://sokuhabo.com/

2013-04-30

Googleさんの感度が、エンジニアとしていじめたいくらい良いのはなぜ?

わずスクショに撮っちゃったんだけど、『はてな匿名ダイアリー』のエントリの題名で

携帯から検索をかけたら、「48 secs ago」という表示が題名の後に表示された。

投稿日が何時間前だったのかを知らせる左下の小文字が、だ。

yahooリアルタイム検索で、自分Twitter投稿内容がどれくらいで反映されるのか

セルフ検索にかけてみたことはあるけど、一分以上はかかっていたと思う。

yahooリアルタイム検索で、専用サーバーだか線だか引っ張ってきて特殊なAPIを叩いてるだろうことを考えると、

上記の一般検索で「48 secs ago」というのはなんか、もう、異次元入ってる。OpenGrokよりわかんない。

クローラーでやっている技術的内容が全く想像できない。論文とか検索したら出てくるのかしら。

たまたまタイミングがあったにせよIFに普通「secs」を用意する?

大学情報系の講義を取っていた時、教授が自信満々に

Twitterリアルタイム性を求めるソーシャルサービスが出てきても

 Googleなどの従来型インデクサーが即時検索を可能にするとは思えない。

 従って技術イノベーションが起きるとすれば、これからレコメンドエンジンだっ!」と

言い放っていたのがちょうど四年前あたりだったと思う。。。四年であの教授は形にできたのかしら。

Googleは多分地味だけど確実に本業進化してるんだと思う。あんまり話は聞かないけど。

はてな匿名ダイアリーエントリタイトルが、特に変わった言葉がなくても

Googleの上位に来やすいのは、「はてな匿名ダイアリー」を一つのブログとしてみたときPV数の多さ、

ぐらいしかSEO対策をしたことがない素人には想像つかない。それを思えば、PVが多いところに

ある程度ウェイトを置いてポーリング監視っぽいことをしてるのかなとも思えたが、

星の数ほどあるウェブサービスをして、それはないと個人的には思う。

はいえ、ここはあんまり上等ではない形態素解析による単語判定、データベース化、シーケンサーごにょごにょプロセス

わずか数十秒でユーザーにまで反映。。。Google技術こえーまじこえー。

ログイン ユーザー登録
ようこそ ゲスト さん