「形態素解析」を含む日記

はてなキーワード: 形態素解析とは

2017-09-19

■anond:20170919003931

mecabで形態素解析して頻出名詞をデータ化する

ところは上手くできてるん？

増田に対応した　mecab 辞書を作らないと難しそうな気もするけど。

Permalink | 記事への反応(1) | 00:45

■増田でテキストマイニングして投稿者のパターンを判別

https://anond.hatelabo.jp/20170918004847

続き

テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない

スクレイピングでデータを取る→mecabで形態素解析して頻出名詞をデータ化する→頻出名詞によって元増田がどのカテゴリーの属するのか判定する

の最後のカテゴリーを作るのがむずい。カテゴリーに名前を人力でつけようとするから難しいのか。ある程度頻出名詞が似通ったら(閾値を作って似てるの基準を作る)適当に振った名前group1,group2等に放り込むか。頻出名詞が似てるかどうかを判定するのは何の理論を使うのか、もしくは何のライブラリを使ったらどれだけ似てるかの判定を簡単にできるのか

最後のどれだけ似てるかの判定が自分は分からないってことが分かった

こういうのはどこで質問したら良い回答が得られるかな

Permalink | 記事への反応(1) | 00:39

2017-08-05

■AIにビジネス 文章を書かせる

形態素解析して言い回しや単語を定量化したらAIにも正しいビジネスの文章を書かせることできるんじゃないか

少なくとも人間が書いた文章をビジネス形式の書き方に変換することくらいはできそう

Permalink | 記事への反応(0) | 12:11

2017-06-27

■学校の授業でプログラミングを教えるとしたら言語は何が良いのだろう

自分は情報系の大学生。

弊学では、2年生の時に必修のプログラミングの授業でC言語を習う。

中学生の頃からパソコン大先生でスクリプト言語を軽く触ってた自分としては、わざわざ面倒な書き方で面倒なコンパイルをして動かす事に疑問を感じていた。

ちなみに、試験は紙ベースで、手書きでプログラミングをさせられる。つらい。

スクリプト言語で良いと思ってた自分は、C言語を覚えることに疑問を感じていた。

結局、授業以外で全く勉強せずに試験結果は散々だったが、なんとか単位が取れたので良しとしよう。

プログラミング初学者である人は苦労して書き方を覚えていたように思う。

脱落していった人を何人も見たが、人間やれば出来ないと思っていたことが出来るのである。

本来、プログラミングは誰でも出来るはずである。

今学期、PHPを書く授業とPythonを書く授業を履修してみた。

PHPは、某テキストをもくもくと写経して動かしてみる授業で、独学でテキストのコードを動かす気力のない自分にとっては最高の授業だ。

Pythonは、MeCabなどで形態素解析や構文解析をする授業で、サンプルコードを自分で考えてカスタマイズして毎回レポートで提出する。

Pythonの書き方に慣れないからか、かなりハードであるが、やりがいがあっていい感じだ。

やはり、スクリプト言語は楽しい。

書いたらすぐに目に見える成果が出るところが大きい。

自分は、プログラミングを授業で教えるのならスクリプト言語に限るはずだと思う。

そう思っていた矢先に事件が起こった。

最近、研究室に入ったところ先生が手当たり次第Javaを教え始めたのである。

せめてJavaScriptでいいからスクリプト言語を教えてほしいところなのに、なんでJavaなんだと発狂した。

それでも、30億のデバイスで動くハイブリッドさとオブジェクト指向を理解する上での分かりやすさという面ではJavaが手軽なのかもしれない。

コンパイル言語も悪くはないと思い始めた。

ところで、最近になってプログラミング教育義務化とか叫ばれてるが、Scratchでパーツを並べてプログラミングをするなんてただの積み木に過ぎないと思う。

絶対にツマラナイだろう。

自分は、プログラミングの授業で数字を足し算して黒い画面に表示させるとかツマラナイと感じてしまった。

こんな複雑なことをしても、これしか成果が出ないならやってられないと思うのは自分だけなのだろうか。

お願いだから、プログラミングを教えるのならツマラナイ授業をしないで欲しい。

生徒に分かるように、生徒は楽しんでプログラミングをするべきだ。

別にどんな言語でもいいと思うが、プログラミング言語は人それぞれ好き嫌いが激しいだろう。

自分は、分かりやすくて直感的なRubyというプログラミング言語が学校の授業で採用されるべき言語に間違いないと思う。

別に Rubyにこだわる必要はなくて、スクリプト言語であればなんでも良いと思う。

CやJavaなどのコンパイル言語は複雑で分かりにくいし、教えにくいはずだ。

スクリプト言語を教えた後に、コンパイル言語、オブジェクト指向の概念を教えていくのがいいのではないだろうか。

これは、あくまでもたった1人の大学生の意見にしか過ぎない。

みんなの意見を知りたい。

Permalink | 記事への反応(7) | 15:58

2017-03-15

■『マウンティング』はなぜ流行してるの?

あらゆる事象を『マウンティング』を使って説明しようとする傾向を不思議に感じる。マウンティングと言われても機械の取付金具のたぐいしかイメージできない。いつから『マウンティング』が人口に膾炙し始めたのだろうか?

純正の検索機能で見つかる増田での初出は2014年 11月25日18時25分。でもこれははてなの検索が『マウンティング』を形態素解析可能になったのが2014年秋頃というだけの話で、それ以前のエントリでもマウンティングが見られないことはない。2014年 7月13日には既に見つけることができた。

Google トレンドで見てみると2014年の春頃に急増している。その頃のニュース記事を検索してみると、渡辺千穂脚本、沢尻エリカ様主演のテレビドラマ『ファースト・クラス』が女性同僚間での『マウンティング』をテーマとして描いていてそれで一気に流行語になったのだと書かれている。

Google トレンドでは2014年 2月時点で既にグラフが上昇しつつある。これは2月8日に発行された瀧波ユカリ、犬山紙子著『女は笑顔で殴りあう:マウンティング女子の実態』https://www.amazon.co.jp/dp/4480815198の影響が大きいのではないかと思われる。

2014年 1月以前も細々とながら使われていた。その中には2013年 4月20日発行の『嫌われ女子50』https://www.amazon.co.jp/dp/4584134928という本についての言及も見られる。これも犬山紙子氏の著作である。犬山紙子氏がこの人間の行動を『マウンティング』で解説するブームを作ったと見ていいのではないだろうか。

はてな村では2011年に内田樹氏がブログ内で使ってプチブームが発生した。「暴言と知性について」http://blog.tatsuru.com/2011/07/05_1924.php

更に前になると2008年ごろから id:Nagise氏がはてなダイアリーで多用されてきた。はてな村での流行はid:Nagise氏にルーツがある可能性もある。

それ以前の言及は普通に動物の生態を書くために使われた用例が多い気がする。

Permalink | 記事への反応(2) | 16:23

2016-06-04

■[FAQ]よくある質問。

真面目に答えず、出来る限り嘘と虚構を織り交ぜて答えていきたい。

Q.ネットで滅茶苦茶な文章をよく見るのですが、あれは何なのでしょうか。

広義的にいうならスパムだな。

で、この文章がどうやって作られているかというと、主にコンピューターによって自動生成されている。

自然言語処理には「形態素解析」や「構文解析」などの技術が用いられているのだが、よく分からないのでスキップしよう。

で、それらが文法を解するのだが、致命的な弱点がある。

“文章の意味”を解さないんだ。

つまり、それで出来上がる文章は文法的には正しく見えるかもしれないが、文意がないので支離滅裂になる。

言語障害を「ワードサラダ」と通称することがあって、そこからこのスパムはそう呼ばれるようになった。

これの厄介なところは、検索エンジンがそれら支離滅裂な文章をスパムとして弾くことが困難なことだろう。

ザックリいうなら、コンピューターが書いたものなのだから、それはコンピューターにとって「正しい文章」だと判断される、と考えてくれ。

SEO(検索エンジン最適化)にとって、ワードサラダの対策は永遠の課題……らしい。

このようなことをする目的としては、労力なしに広告収入を得るため、SEOの妨害とか愉快犯など、人によって目的は様々のようだ。

誤解してはいけないが、自動で文章を生成する技術自体が悪いのではなく、それの利用方法の問題であることは知っておいたほうがいい。

Permalink | 記事への反応(0) | 03:58

2016-01-01

■(o・∇・o)

形態素解析で学ぶ「もちょブログ」の書き方

なんてのでてたんか…

Permalink | 記事への反応(0) | 05:55

2015-01-24

■気味が悪い

エゴサーチしてたら見つけたんだけど、こういうブログってなんのためにやってるんだろう。

気味が悪い。

http://www.wufangbuhuanbaodai.com/

http://www.keycitymarketing.com/

http://www.floatingdockswavearmor.com/

なんかツイートを自動収集してログってる感じ。

キーワードで合致したのだけピックアップしているのかな？

目的がよくわからない。

形態素解析の学習用も違う気がする。

追記

う～ん、目的がわからないってなんとなく怖いな。

https://twitter.com/Tamera7253/status/558804182279684097

Permalink | 記事への反応(0) | 10:29

2014-09-25

■http://anond.hatelabo.jp/20140924214600

1. 取得したいページのURL 配列を作る ["http://www.hogehoge.com/1","http://www.hogehoge.com/2"・・・]

2. URLを引数とした、該当のページから取得したい情報を抜き出すプログラム（関数）を書く　タイトル、xvideoのURL、xvideoのIDなどなど

3. 2のプログラムの最後に、抜き出した情報をデータベースに登録する処理を書く。この時、xvideoのidなどで登録済みか未登録かを場合分けして、登録済みの場合はスキップする。

4. 1の配列に対してループを回して、2のプログラムをそれぞれのURLで実行する。

>・埋め込みタグの抽出

・埋め込みタグは取らなくていいんじゃないかな？xvideoのidを差し替えるだけで、表示できると思う。

>・タイトルを自動で付けたい。

これはかなり難しいと思う。そもそも、xvideoのタイトルが英語だし、きちんと付けられていない。そうすると、動画の中身を読み取ることになるけれど、それはかなり難しいだろう。日本語の説明文がないから、形態素解析も役に立たない。自分だったら、見た人に協力してもらって、日本語でのタイトル付けをしてもらう機能を実装する。

> Rails への移行

学習コストがかなり高いから、2ヶ月位は開発止まると思う。でも、楽しいのでおすすめ。

Permalink | 記事への反応(0) | 12:14

2014-09-24

■【続編】ニートがエロサイトを3日でつくってアフィ生活をはじめた

こんばんは。お久しぶりです。相変わらずニートしてます。

なんかこの前ここで書いたダイアリーが400はてブとかついてすごいビックリした増田だよ。

ニートがエロサイトを3日でつくってアフィ生活をはじめてみた話
http://anond.hatelabo.jp/20140908063655

お陰ではてブしてもらった日はいろんな人に見てもらえたみたいで

1日で12,000PVくらいいったんだけど、次の日から順当にPVは下がり続けて

今は1日1000PVくらいをうろうろしてる弱小エロサイトになった。

あれから PHP書いたりWordPress 更新したりってちょくちょくやってるんだけど、

PHPってなんであんなむずいんだよ。ふざけんな。アドバイスしろくださいおまいら。

作ったエロサイト

即ハボドットコム
http://sokuhabo.com/

俺氏 スペック振り返り

・24歳ニート。

・HTML/CSSはそれとなく書ける。

・PHPは頑張れば読めるけど自分では書けない。

・好きなAV女優は成瀬心美

あれから2週間。改善したとこ。

残念ながら俺はニートなので、時間はある。

いろいろ改善してみたり、失敗したりした。

こんなめんどくさがりな俺でも続けていけるものが見つかるなんて

にわかには信じられなかったのでエロは正義。

デザインを変更した。

まずこれ。これはなかなか成功したんじゃないかと思う。

といってもテーマファイルを差し替えて、自分で少しHTML/CSSいじった程度なんだけど。

iPhone からみてもPC から見てもそれなりな感じになったのでとりあえずこれで満足。

プロからみたらダメなところたくさんあるかもしれないけど妥協しとく。

これでも結構時間かかってしまった。

うん、まともに変わったところといえばこれくらいか。

アンテナ サイトに相互RSS登録

あとはPV稼ぐためにSEO以外の方法を探した。

SEOについて調べていくとどうやらエロサイトは検索流入と同じくらい

アクセストレードってのが大事らしい。性質上ソーシャルからの流入はあまり見込めないから当然か。

なのでよくわからんけど主要っぽいアンテナサイトに相互RSS登録した。

いまのところあんまアクセス流れてこない。どうなってんだよアンテナどころか圏外じゃねーか。

PHPでスクレイピングしようと思ったんだけど、盛大に失敗した。

そんでこれが本題。

やっぱり記事の更新作業がくそだるい。ニートなのでラクをしたい。そのためなら勉強する。

って思ってたけどやっぱり挫折した。PHPむりぽ。

やりたいことってのはまとまってるんだけどそれを実現するためのソースコードが思い浮かばない。

Simple HTML DOM Parserってのを使えばいいってところまではわかった。

やりたいスクレイピング

・指定のサイト、もしくはXVIDEOS から新着のサムネイルとXVIDEOS埋め込みタグを拾ってくる。

・それをデータベースに登録する。(この時にWordPressには下書きの状態で投稿されると最高)

・同一の動画を拾ってきた場合はデータベースに登録しない。

・6時間おきとかに1日4回くらい実行する。

こんなことがしたいんだけどもうわけわかめ。

指定したページのある要素をスクレイピングして、

さらにそれぞれに紐づく下層ページにある埋め込み動画タグをスクレイピングするってのがわからない。

ここで書くのは間違いかもしれないけど教えてエロい人。

究極にやりたいプログラミング

・タイトルを自動で付けたい。

拾ってきた動画にタグ付けをしたらそのタグをもとに

いい感じのタイトルを自動でつけてくれるとかいう神プログラムを組みたい。

ヤフーが提供してるAPIで形態素解析なんちゃらとかいうのを使えばできそうだなーとか思ったけど、

あまりに光の見えないトンネルに突っ込みそうだったからこれはまた今度。

とりあえず勉強するしかないか

ってことで整理するために書き起こしてみたけど

結局自分で勉強するしかなさそうだな。

PHP,MySQLあたりの勉強をもっと頑張ればうまくいくのかな。

他のエロサイトがどうやってスクレイピングしてるのかまじで知りたい。

PHPが取っ付き易いから PHP頑張ってるんだけど

やっぱりRuby on Railsとかでスクレイピングしたほうがラクなのかな。

あーなにか目標持ってこんなに1日中ひとつのことに没頭してるの何年ぶりだろ。

即ハボドットコム
http://sokuhabo.com/

Permalink | 記事への反応(5) | 21:46

2013-04-30

■Googleさんの感度が、エンジニアとしていじめたいくらい良いのはなぜ？

思わずスクショに撮っちゃったんだけど、『はてな匿名ダイアリー』のエントリの題名で

携帯から検索をかけたら、「48 secs ago」という表示が題名の後に表示された。

投稿日が何時間前だったのかを知らせる左下の小文字が、だ。

yahooのリアルタイム検索で、自分のTwitterの投稿内容がどれくらいで反映されるのか

セルフ検索にかけてみたことはあるけど、一分以上はかかっていたと思う。

yahooのリアルタイム検索で、専用サーバーだか線だか引っ張ってきて特殊なAPIを叩いてるだろうことを考えると、

上記の一般検索で「48 secs ago」というのはなんか、もう、異次元入ってる。OpenGrokよりわかんない。

クローラーでやっている技術的内容が全く想像できない。論文とか検索したら出てくるのかしら。

たまたま、タイミングがあったにせよIFに普通「secs」を用意する？

大学で情報系の講義を取っていた時、教授が自信満々に

「Twitter等リアルタイム性を求めるソーシャルサービスが出てきても

　Googleなどの従来型インデクサーが即時検索を可能にするとは思えない。

　従って技術的イノベーションが起きるとすれば、これからはレコメンドエンジンだっ！」と

言い放っていたのがちょうど四年前あたりだったと思う。。。四年であの教授は形にできたのかしら。

Googleは多分地味だけど確実に本業も進化してるんだと思う。あんまり話は聞かないけど。

はてな匿名ダイアリーのエントリタイトルが、特に変わった言葉がなくても

Googleの上位に来やすいのは、「はてな匿名ダイアリー」を一つのブログとしてみたときのPV数の多さ、

ぐらいしか SEO対策をしたことがない素人には想像つかない。それを思えば、PVが多いところに

ある程度ウェイトを置いてポーリング監視っぽいことをしてるのかなとも思えたが、

星の数ほどあるウェブサービスをして、それはないと個人的には思う。

とはいえ、ここはあんまり上等ではない形態素解析による単語判定、データベース化、シーケンサーごにょごにょのプロセスを

わずか数十秒でユーザーにまで反映。。。Googleの技術こえーまじこえー。

Permalink | 記事への反応(1) | 20:32

2012-09-26

■googleの形態素解析『過剰』はホント使えない

"▲7六歩△3四歩▲2六歩△8四歩▲2五歩△8五歩▲7八金△3二金▲2四歩△同歩▲同飛△8六歩▲同歩△同飛▲3四飛▲3六飛△8四飛▲2六飛△2二銀▲6九玉"を形態素解析で切り刻むな。意味がなくなるだろ。

そもそも切り刻むなという意味でダブルクオーテーションでわざわざ囲ったのに切り刻むとか、設計思想のどこかが完全におかしいとしか思えない。

Permalink | 記事への反応(2) | 00:47

2012-03-18

■WEBサイトを発注してみた。

アニメやゲームのキャラクター情報をまとめてるサイトがないから作りたいなぁって

思ってたんだけどhtmlは初歩しか分からないしプログラミングもできないので構想するだけで作れなかった。

ゼロから 4ヶ月でWEBサービスをリリースした人の記事を見つけて｢自分にもできるかな！｣なんて思い挑戦してみたけど理解できず挫折･･･orz

WEBサービスを個人で作ってる人達が羨ましいです。

それでもWEBサイトを作りたかったので制作会社に発注してみようと思い立った。

ただのキャラクターのデータベースだけではつまらないのでコミュニティ要素なども付けて

ネットで見つけた制作会社に見積もってもらうと下記のようになった。

合計1,483,125円

以前、SNS｢ウェブカレ｣のサイト制作費が1千万円で安く仕上がった(潰れたけど･･･)という話があったから

なんとなく3～400万くらいかかるんじゃないかなと不安だったんだけど予想より安い見積もりだったので、

このくらいの金額ならなんとか出せる！ということで制作してもらうことにしました。

本当は何社かに見積もってもらって比較しようと思ったんだけど面倒だったのでそのまま制作をお願いすることにした。

（最初はもう少し高かったけど機能の簡略化とオープンソースのライブラリを使用してもらう事で費用を抑えてもらった。）

去年の10月の頭くらいから打ち合わせを始めて第1フェーズでワイヤーフレーム作成と仕様策定をして第2フェーズのhtml､システム開発に

移ったのは中旬だったかな？その段階で前金で4割の580,650円を支払いました。

制作会社には3回くらい打ち合せに行って、あとはメールでやり取りしていました。

当初は12月中にリリースを予定してたんだけど、なんだかんだで伸びてあらかた出来上がったのが2月の中旬くらい。

見積もりがちょっと甘かったんじゃないかなぁって思うｗ

ちなみに僕はヒッキー(どれくらいヒッキーかというと外出は3日に1回くらい)なので制作してもらっている間は

家でずっとサイトに必要なアニメのデータを収集していました。

↓作ったサイト

http://neoapo.com/

以下、サイトの設計を担当してくれた人の製作記。

サーバ設定

サーバはさくらのVPS 8Gを使用。CentOS5の64bit

設定した項目は以下のとおり

HDDが3つあって、普通に/var/wwwにコンテンツを入れていくとHDDが溢れそうだったので、容量の大きいものを使うように工夫したりなど。

メモリもそこそこ積んであるサーバなので、mysql、php、apcに多めにメモリを割り当てる設定をした。

データベース

本当はmyISMやInnoDB エンジンでLIKE "%word%"のようなクエリーを投げて十分なパフォーマンスが出ればいいんですけどね。

それはムリなので、全文検索エンジンとしてgroongaを使用。

groongaを使用するために先にインストールしたのはこんな感じ

mecab(日本語の形態素解析用)
ipa 辞書(形態素解析用の辞書)

この時点でいざ、groonga!と思ってgroongaをインストールしようとすると競合を起こして入らない。

epel、remiレポジトリからインストールしてあったmysqlと衝突してたのでyum remove "mysql*"で

一旦mysqlを消して、groongaレポジトリから mysqlとgroongaをインストール。

するとgroongaは入ったものの、今度はphp から使おうとしてもphp-mysql パッケージが入らない。

あちらを立てればこちらが立たぬ状態で本当にこまった。

どうしようもないので、やりたくないけどyum-downloadonlyを使ってパッケージに含まれる設定やら、soファイルなどを直接とってきて入れた。

mysql.so、mysqli.so、pdo_mysql.soを/usr/lib64/php/modules/にコピーしたり、設定をコピーしたり、少しずついじりながら、なんとか動いてくれた。

状態としてはmysqlとgroongaはgroongaレポジトリから、phpと本来php-mysql パッケージでインストールされるmysql.soは手動で置いたことになる。

シェルから直接mysqlにログインするときはgroongaレポジトリのやつを、php から mysqlを呼ぶときは手動で置いたmysql.soを使うことになっている。

ちょっと心境的にしんどい。別の方法があったかもしれないけど、調べても分からず結局1日くらいかかった。

アクセス カウンタ

アクセスは、サイト全体(トータル)、サイト全体(当日分)、各コンテンツ日別、各コンテンツ週間、各コンテンツトータルのアクセスをとるようにしています。

高速だとうわさのredisにアクセス回数を残しています。

検討した候補はmemcaced、apc、mysql、redis、fileあたりなんですが、

memcacheはサーバがリスタートするとデータが消える。

apcはapacheがリスタートするとデータが消える。

fileは候補にあがったものの、メンドウ、、どうせなら楽な既製品がいい。と思って候補から外しました。

残るはmysqlかredisだけど、redisが高速って聞いていたのでredisにしてみました。

最初全部redisに入れて、集計した結果をmysqlに入れるつもりでしたが、週間ランキングなどはINSERT INTO .. DUPLICATE ONを使って、

アクセスした週の月曜日00:00:00のタイムスタンプとコンテンツ IDをキーにしたレコードを作ればそのまま週間ランキングになるなー。と思ってmysqlを使っています。

コンテンツのトータルアクセス数もコンテンツのレコードにpvという項目をつくってUPDATE table SET pv=pv +1 WHERE id = ? のようにしました。

最初難しく考えていたけど、こうすることによって大分楽になったなーといった感じ。

まとめ

全文検索エンジンや対話検索、ここにこのリンクがあればなぁ。。という所に何とかしてリンクを作るのが本当に大変だった。

使い勝手を良くするために、ここにこの機能をなど、さくっと思いつくのは簡単でもそれを実現するために、あーでもない、こーでもないと

DB・プログラムとにらめっこしながら「あ！こうすればできる！でもそうすると今度はこっちが･･･」みたいなのがあったりでとても大変だった。

そんなに機能がないような感じがしても、このサイトだけでテーブルが20個あって、途中本当に死にそうだった。

Permalink | 記事への反応(18) | 12:26

2010-06-21

■http://anond.hatelabo.jp/20100621000447

そういう「原理的に不可能なこと」こそ技術の力で解決するべきな気もするなあ。

形態素解析して確率モデルで処理するようなタイプの自動翻訳の開発もいいけど、真逆のアプローチもあっていい気がした。

Permalink | 記事への反応(0) | 00:12

2009-05-25

■

はてなキーワードって無差別に文字列を検索してるだけなのか。形態素解析するようにできないの？

Permalink | 記事への反応(0) | 12:16

2007-12-17

■RE:楽しい 形態素解析

今日は良いお天気ですね。

いやいやまてまて。これは「『きょうは』良いお天気ですね。」とも「『こんにちは』良いお天気ですね。」とも両方言うぞ。確かに後者の言い方は現在えらくマイナーにはなってるけど。というかそもそも『こんにちは』というのは「『こんにちは』??ですね」（「『きょうは』??ですね」と同じ意味・用法）の省略形が元だし。だから区別がつかないで正解では。

って元増田が解っててエントリーしてる可能性に気づいた。その場合は野暮だな…すまん。

http://anond.hatelabo.jp/20071217001921

Permalink | 記事への反応(1) | 03:24

■楽しい 形態素解析

カカシさんは「今日は（きょうは）」と「今日は（こんにちは）」が区別できない。

今日は。

今日は良いお天気ですね。

Permalink | 記事への反応(1) | 00:19

2007-12-13

■http://anond.hatelabo.jp/20071213062012

うーん、いったいどの検索サービスのことを言っているのかなあ。

インデキシングに形態素解析は使わないよ。基本的にはn-gramだから繋がった”意味のある”文字列がぶった切られることはないよ。

ただ、クエリーが”意味の無い”文字列だったので検索結果が見つからず、検索結果を増やすためにクエリーに入力したキーワードを形態素解析してクエリーを作り直すってことはよく使われる手法だね。googleなら”意味のある”と増田が思っている範囲の文字列をダブルクオーテーションでくくればいいと思うよ。

Permalink | 記事への反応(0) | 15:38

■Re: 形態素解析消えろと思うことがある

インデクシングの問題があるのでぶった切るのは仕方ない。

問題なのはノイズが上位に来るレーティングだろう。

あと、関連検索はもっと進化してほしいな。除外指定とかをもっと反映すべきだ。

さらに、関連検索や内容表示はajaxとかで展開したりとか、次ページの連結とか、LDRライクな操作とか、UIを進化すべきだ。

Permalink | 記事への反応(0) | 12:42

■形態素解析消えろと思うことがある

特定の繋がった文字列にこそ検索意義があるのに形態素解析で強制的にぶった切られて敢えてノイズ拾う検索式にされるともう怒髪天をつくというかね。いや自分のワガママだって知ってますよそりゃ、だって自分が作った検索サービスじゃありませんから。こっちは使わせていただいてる立場ですから。しかしそれにもかかわらず相手方にとって理不尽であるにも関わらず自分勝手にストレス溜め込んでしまうのさ。

もうどうにでもなーれ（ＡＡ略

Permalink | 記事への反応(2) | 06:20