「形態素解析」を含む日記 RSS

はてなキーワード: 形態素解析とは

2017-09-19

anond:20170919003931

mecab形態素解析して頻出名詞データ化する

ところは上手くできてるん?

増田対応した mecab辞書を作らないと難しそうな気もするけど。

増田テキストマイニングして投稿者パターン判別

https://anond.hatelabo.jp/20170918004847

続き

テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない

スクレイピングデータを取る→mecab形態素解析して頻出名詞データ化する→頻出名詞によって元増田がどのカテゴリーの属するのか判定する

最後カテゴリーを作るのがむずい。カテゴリー名前を人力でつけようとするから難しいのか。ある程度頻出名詞が似通ったら(閾値を作って似てるの基準を作る)適当に振った名前group1,group2等に放り込むか。頻出名詞が似てるかどうかを判定するのは何の理論を使うのか、もしくは何のライブラリを使ったらどれだけ似てるかの判定を簡単にできるのか

最後のどれだけ似てるかの判定が自分は分からないってことが分かった

こういうのはどこで質問したら良い回答が得られるかな

2017-08-05

AIビジネス文章を書かせる

形態素解析して言い回し単語定量化したらAIにも正しいビジネス文章を書かせることできるんじゃないか

少なくとも人間が書いた文章ビジネス形式の書き方に変換することくらいはできそう

2017-06-27

学校の授業でプログラミングを教えるとしたら言語は何が良いのだろう

自分情報系の大学生

弊学では、2年生の時に必修のプログラミングの授業でC言語を習う。

中学生の頃からパソコン大先生スクリプト言語を軽く触ってた自分としては、わざわざ面倒な書き方で面倒なコンパイルをして動かす事に疑問を感じていた。

ちなみに、試験は紙ベースで、手書きプログラミングをさせられる。つらい。

スクリプト言語で良いと思ってた自分は、C言語を覚えることに疑問を感じていた。

結局、授業以外で全く勉強せずに試験結果は散々だったが、なんとか単位が取れたので良しとしよう。

プログラミング学者である人は苦労して書き方を覚えていたように思う。

脱落していった人を何人も見たが、人間やれば出来ないと思っていたことが出来るのである

本来プログラミングは誰でも出来るはずである

今学期、PHPを書く授業とPythonを書く授業を履修してみた。

PHPは、某テキストをもくもくと写経して動かしてみる授業で、独学でテキストコードを動かす気力のない自分にとっては最高の授業だ。

Pythonは、MeCabなどで形態素解析構文解析をする授業で、サンプルコード自分で考えてカスタマイズして毎回レポートで提出する。

Pythonの書き方に慣れないからか、かなりハードであるが、やりがいがあっていい感じだ。

やはり、スクリプト言語楽しい

書いたらすぐに目に見える成果が出るところが大きい。

自分は、プログラミングを授業で教えるのならスクリプト言語に限るはずだと思う。

そう思っていた矢先に事件が起こった。

最近研究室に入ったところ先生が手当たり次第Javaを教え始めたのである

せめてJavaScriptでいいかスクリプト言語を教えてほしいところなのに、なんでJavaなんだと発狂した。

それでも、30億のデバイスで動くハイブリッドさとオブジェクト指向理解する上での分かりやすさという面ではJavaが手軽なのかもしれない。

コンパイル言語も悪くはないと思い始めた。

ところで、最近になってプログラミング教育義務化とか叫ばれてるが、Scratchでパーツを並べてプログラミングをするなんてただの積み木に過ぎないと思う。

絶対にツマラナイだろう。

自分は、プログラミングの授業で数字を足し算して黒い画面に表示させるとかツマラナイと感じてしまった。

こんな複雑なことをしても、これしか成果が出ないならやってられないと思うのは自分だけなのだろうか。

お願いだからプログラミングを教えるのならツマラナイ授業をしないで欲しい。

生徒に分かるように、生徒は楽しんでプログラミングをするべきだ。

別にどんな言語でもいいと思うが、プログラミング言語は人それぞれ好き嫌いが激しいだろう。

自分は、分かりやすくて直感的なRubyというプログラミング言語学校の授業で採用されるべき言語に間違いないと思う。

別にRubyにこだわる必要はなくて、スクリプト言語であればなんでも良いと思う。

CやJavaなどのコンパイル言語は複雑で分かりにくいし、教えにくいはずだ。

スクリプト言語を教えた後に、コンパイル言語オブジェクト指向概念を教えていくのがいいのではないだろうか。

これは、あくまでもたった1人の大学生意見しか過ぎない。

みんなの意見を知りたい。

2017-03-15

マウンティング』はなぜ流行してるの?

あらゆる事象を『マウンティング』を使って説明しようとする傾向を不思議に感じる。マウンティングと言われても機械の取付金具のたぐいしかイメージできない。いつからマウンティング』が人口膾炙し始めたのだろうか?

純正検索機能で見つかる増田での初出は2014年11月25日18時25分。でもこれははてな検索が『マウンティング』を形態素解析可能になったのが2014年秋頃というだけの話で、それ以前のエントリでもマウンティングが見られないことはない。2014年7月13日には既に見つけることができた。

Googleトレンドで見てみると2014年の春頃に急増している。その頃のニュース記事検索してみると、渡辺千穂脚本沢尻エリカ様主演のテレビドラマファーストクラス』が女性同僚間での『マウンティング』をテーマとして描いていてそれで一気に流行語になったのだと書かれている。

Googleトレンドでは2014年2月時点で既にグラフが上昇しつつある。これは2月8日に発行された瀧波ユカリ犬山紙子著『女は笑顔で殴りあう:マウンティング女子実態https://www.amazon.co.jp/dp/4480815198の影響が大きいのではないかと思われる。

2014年1月以前も細々とながら使われていた。その中には2013年4月20日発行の『嫌われ女子50』https://www.amazon.co.jp/dp/4584134928という本についての言及も見られる。これも犬山紙子氏の著作である犬山 紙子氏がこの人間の行動を『マウンティング』で解説するブームを作ったと見ていいのではないだろうか。

はてな村では2011年内田樹氏がブログ内で使ってプチブームが発生した。「暴言と知性について」http://blog.tatsuru.com/2011/07/05_1924.php

更に前になると2008年ごろからid:Nagise氏がはてなダイアリーで多用されてきた。はてな村での流行id:Nagise氏にルーツがある可能性もある。

それ以前の言及普通に動物の生態を書くために使われた用例が多い気がする。

2016-06-04

[]よくある質問

真面目に答えず、出来る限り嘘と虚構を織り交ぜて答えていきたい。

Q.ネットで滅茶苦茶な文章をよく見るのですが、あれは何なのでしょうか。

広義的にいうならスパムだな。

で、この文章がどうやって作られているかというと、主にコンピューターによって自動生成されている。

自然言語処理には「形態素解析」や「構文解析」などの技術が用いられているのだが、よく分からないのでスキップしよう。

で、それらが文法を解するのだが、致命的な弱点がある。

文章意味”を解さないんだ。

まり、それで出来上がる文章文法的には正しく見えるかもしれないが、文意がないので支離滅裂になる。

言語障害を「ワードサラダ」と通称することがあって、そこからこのスパムはそう呼ばれるようになった。

これの厄介なところは、検索エンジンがそれら支離滅裂文章スパムとして弾くことが困難なことだろう。

ザックリいうなら、コンピューターが書いたものなのだから、それはコンピューターにとって「正しい文章」だと判断される、と考えてくれ。

SEO(検索エンジン最適化)にとって、ワードサラダ対策永遠課題……らしい。

このようなことをする目的としては、労力なしに広告収入を得るため、SEO妨害とか愉快犯など、人によって目的は様々のようだ。

誤解してはいけないが、自動文章を生成する技術自体が悪いのではなく、それの利用方法問題であることは知っておいたほうがいい。

2016-01-01

(o・∇・o)

形態素解析で学ぶ「もちょブログ」の書き方

なんてのでてたんか…

2015-01-24

気味が悪い

エゴサーチしてたら見つけたんだけど、こういうブログってなんのためにやってるんだろう。

気味が悪い。

http://www.wufangbuhuanbaodai.com/

http://www.keycitymarketing.com/

http://www.floatingdockswavearmor.com/

なんかツイート自動収集してログってる感じ。

キーワード合致したのだけピックアップしているのかな?

目的がよくわからない。

形態素解析学習用も違う気がする。

追記

う~ん、目的がわからないってなんとなく怖いな。

https://twitter.com/Tamera7253/status/558804182279684097

2014-09-25

http://anond.hatelabo.jp/20140924214600

1. 取得したいページのURL配列を作る ["http://www.hogehoge.com/1","http://www.hogehoge.com/2"・・・]

2. URL引数とした、該当のページから取得したい情報を抜き出すプログラム関数)を書く タイトル、xvideoのURL、xvideoのIDなどなど

3. 2のプログラム最後に、抜き出した情報データベースに登録する処理を書く。この時、xvideoのidなどで登録済みか未登録かを場合分けして、登録済みの場合スキップする。

4. 1の配列に対してループを回して、2のプログラムをそれぞれのURLで実行する。

>・埋め込みタグ抽出

・埋め込みタグは取らなくていいんじゃないかな?xvideoのid差し替えるだけで、表示できると思う。

>・タイトル自動で付けたい。

これはかなり難しいと思う。そもそも、xvideoのタイトル英語だし、きちんと付けられていない。そうすると、動画の中身を読み取ることになるけれど、それはかなり難しいだろう。日本語の説明文がないから形態素解析も役に立たない。自分だったら、見た人に協力してもらって、日本語でのタイトル付けをしてもらう機能実装する。

> Rails への移行

学習コストがかなり高いから、2ヶ月位は開発止まると思う。でも、楽しいのでおすすめ

2014-09-24

【続編】ニートエロサイトを3日でつくってアフィ生活をはじめた

こんばんは。お久しぶりです。相変わらずニートしてます

なんかこの前ここで書いたダイアリーが400はてブとかついてすごいビックリした増田だよ。

ニートエロサイトを3日でつくってアフィ生活をはじめてみた話

http://anond.hatelabo.jp/20140908063655

お陰ではてブしてもらった日はいろんな人に見てもらえたみたいで

1日で12,000PVくらいいったんだけど、次の日から順当にPVは下がり続けて

今は1日1000PVくらいをうろうろしてる弱小エロサイトになった。

あれからPHP書いたりWordPress更新したりってちょくちょくやってるんだけど、

PHPってなんであんなむずいんだよ。ふざけんな。アドバイスしろくださいおまいら。

作ったエロサイト

即ハボドットコム

http://sokuhabo.com/

俺氏スペック振り返り

24ニート

HTML/CSSはそれとなく書ける。

PHPは頑張れば読めるけど自分では書けない。

・好きなAV女優成瀬心美

あれから2週間。改善したとこ。

残念ながら俺はニートなので、時間はある。

いろいろ改善してみたり、失敗したりした。

こんなめんどくさがりな俺でも続けていけるものが見つかるなんて

にわかには信じられなかったのでエロ正義

デザインを変更した。

まずこれ。これはなかなか成功したんじゃないかと思う。

といってもテーマファイル差し替えて、自分で少しHTML/CSSいじった程度なんだけど。

iPhoneからみてもPCから見てもそれなりな感じになったのでとりあえずこれで満足。

プロからみたらダメなところたくさんあるかもしれないけど妥協しとく。

これでも結構時間かかってしまった。

うん、まともに変わったところといえばこれくらいか。

アンテナサイト相互RSS登録

あとはPV稼ぐためにSEO以外の方法を探した。

SEOについて調べていくとどうやらエロサイト検索流入と同じくらい

アクセストレードってのが大事らしい。性質ソーシャルからの流入はあまり見込めないから当然か。

なのでよくわからんけど主要っぽいアンテナサイト相互RSS登録した。

いまのところあんまアクセス流れてこない。どうなってんだよアンテナどころか圏外じゃねーか。

PHPスクレイピングしようと思ったんだけど、盛大に失敗した。

そんでこれが本題。

やっぱり記事更新作業がくそだるいニートなのでラクをしたい。そのためなら勉強する。

って思ってたけどやっぱり挫折した。PHPむりぽ。

やりたいことってのはまとまってるんだけどそれを実現するためのソースコードが思い浮かばない。

Simple HTML DOM Parserってのを使えばいいってところまではわかった。

やりたいスクレイピング

指定サイト、もしくはXVIDEOSから新着のサムネイルXVIDEOS埋め込みタグを拾ってくる。

・それをデータベースに登録する。(この時にWordPressには下書きの状態で投稿されると最高)

・同一の動画を拾ってきた場合データベースに登録しない。

・6時間おきとかに1日4回くらい実行する。

こんなことがしたいんだけどもうわけわかめ

指定したページのある要素をスクレイピングして、

さらにそれぞれに紐づく下層ページにある埋め込み動画タグスクレイピングするってのがわからない。

ここで書くのは間違いかもしれないけど教えてエロい人。

究極にやりたいプログラミング

タイトル自動で付けたい。

拾ってきた動画タグ付けをしたらそのタグをもとに

いい感じのタイトル自動でつけてくれるとかいう神プログラムを組みたい。

ヤフー提供してるAPI形態素解析なんちゃらとかいうのを使えばできそうだなーとか思ったけど、

まりに光の見えないトンネル突っ込みそうだったからこれはまた今度。

とりあえず勉強するしかないか

ってことで整理するために書き起こしてみたけど

結局自分勉強するしかなさそうだな。

PHP,MySQLあたりの勉強もっと頑張ればうまくいくのかな。

他のエロサイトがどうやってスクレイピングしてるのかまじで知りたい。

PHPが取っ付き易いからPHP頑張ってるんだけど

やっぱりRuby on Railsとかでスクレイピングしたほうがラクなのかな。

あーなにか目標持ってこんなに1日中ひとつのことに没頭してるの何年ぶりだろ。

即ハボドットコム

http://sokuhabo.com/

2013-04-30

Googleさんの感度が、エンジニアとしていじめたいくらい良いのはなぜ?

わずスクショに撮っちゃったんだけど、『はてな匿名ダイアリー』のエントリの題名で

携帯から検索をかけたら、「48 secs ago」という表示が題名の後に表示された。

投稿日が何時間前だったのかを知らせる左下の小文字が、だ。

yahooリアルタイム検索で、自分Twitter投稿内容がどれくらいで反映されるのか

セルフ検索にかけてみたことはあるけど、一分以上はかかっていたと思う。

yahooリアルタイム検索で、専用サーバーだか線だか引っ張ってきて特殊なAPIを叩いてるだろうことを考えると、

上記の一般検索で「48 secs ago」というのはなんか、もう、異次元入ってる。OpenGrokよりわかんない。

クローラーでやっている技術的内容が全く想像できない。論文とか検索したら出てくるのかしら。

たまたまタイミングがあったにせよIFに普通「secs」を用意する?

大学情報系の講義を取っていた時、教授が自信満々に

Twitterリアルタイム性を求めるソーシャルサービスが出てきても

 Googleなどの従来型インデクサーが即時検索を可能にするとは思えない。

 従って技術イノベーションが起きるとすれば、これからレコメンドエンジンだっ!」と

言い放っていたのがちょうど四年前あたりだったと思う。。。四年であの教授は形にできたのかしら。

Googleは多分地味だけど確実に本業進化してるんだと思う。あんまり話は聞かないけど。

はてな匿名ダイアリーエントリタイトルが、特に変わった言葉がなくても

Googleの上位に来やすいのは、「はてな匿名ダイアリー」を一つのブログとしてみたときPV数の多さ、

ぐらいしかSEO対策をしたことがない素人には想像つかない。それを思えば、PVが多いところに

ある程度ウェイトを置いてポーリング監視っぽいことをしてるのかなとも思えたが、

星の数ほどあるウェブサービスをして、それはないと個人的には思う。

はいえ、ここはあんまり上等ではない形態素解析による単語判定、データベース化、シーケンサーごにょごにょプロセス

わずか数十秒でユーザーにまで反映。。。Google技術こえーまじこえー。

2012-09-26

google形態素解析『過剰』はホント使えない

"▲7六歩△3四歩▲2六歩△8四歩▲2五歩△8五歩▲7八金△3二金▲2四歩△同歩▲同飛△8六歩▲同歩△同飛▲3四飛▲3六飛△8四飛▲2六飛△2二銀▲6九玉"を形態素解析で切り刻むな。意味がなくなるだろ。

そもそも切り刻むなという意味ダブルクオーテーションでわざわざ囲ったのに切り刻むとか、設計思想のどこかが完全におかしいとしか思えない。

2012-03-18

WEBサイト発注してみた。

アニメゲームキャラクター情報をまとめてるサイトがないから作りたいなぁって

思ってたんだけどhtmlは初歩しかからないしプログラミングもできないので構想するだけで作れなかった。

ゼロから4ヶ月でWEBサービスをリリースした人の記事を見つけて「自分にもできるかな!」なんて思い挑戦してみたけど理解できず挫折・・・orz

WEBサービスを個人で作ってる人達が羨ましいです。

それでもWEBサイトを作りたかったので制作会社発注してみようと思い立った。

ただのキャラクターデータベースだけではつまらないのでコミュニティ要素なども付けて

ネットで見つけた制作会社見積もってもらうと下記のようになった。


合計1,483,125円


以前、SNSウェブカレ」のサイト制作費が1千万円で安く仕上がった(潰れたけど・・・)という話があったか

なんとなく3~400万くらいかかるんじゃないかなと不安だったんだけど予想より安い見積もりだったので、

このくらいの金額ならなんとか出せる!ということで制作してもらうことにしました。

本当は何社かに見積もってもらって比較しようと思ったんだけど面倒だったのでそのまま制作をお願いすることにした。

最初はもう少し高かったけど機能の簡略化とオープンソースライブラリを使用してもらう事で費用を抑えてもらった。)

去年の10月の頭くらいから打ち合わせを始めて第1フェーズワイヤーフレーム作成仕様策定をして第2フェーズhtmlシステム開発

移ったのは中旬だったかな?その段階で前金で4割の580,650円を支払いました。

制作会社には3回くらい打ち合せに行って、あとはメールでやり取りしていました。

当初は12月中にリリースを予定してたんだけど、なんだかんだで伸びてあらかた出来上がったのが2月中旬くらい。

見積もりがちょっと甘かったんじゃないかなぁって思うw

ちなみに僕はヒッキー(どれくらいヒッキーかというと外出は3日に1回くらい)なので制作してもらっている間は

家でずっとサイトに必要なアニメデータを収集していました。

↓作ったサイト

http://neoapo.com/


以下、サイト設計担当してくれた人の製作記。

サーバ設定

サーバさくらVPS 8Gを使用。CentOS5の64bit

設定した項目は以下のとおり

HDDが3つあって、普通に/var/wwwコンテンツを入れていくとHDDが溢れそうだったので、容量の大きいものを使うように工夫したりなど。

メモリもそこそこ積んであるサーバなので、mysqlphpapcに多めにメモリを割り当てる設定をした。

データベース

本当はmyISMやInnoDBエンジンでLIKE "%word%"のようなクエリーを投げて十分なパフォーマンスが出ればいいんですけどね。

それはムリなので、全文検索エンジンとしてgroongaを使用。

groongaを使用するために先にインストールしたのはこんな感じ

この時点でいざ、groonga!と思ってgroongaをインストールしようとすると競合を起こして入らない。

epel、remiレポジトリからインストールしてあったmysqlと衝突してたのでyum remove "mysql*"で

一旦mysqlを消して、groongaレポジトリからmysqlとgroongaをインストール

するとgroongaは入ったものの、今度はphpから使おうとしてもphp-mysqlパッケージが入らない。

あちらを立てればこちらが立たぬ状態で本当にこまった。

どうしようもないので、やりたくないけどyum-downloadonlyを使ってパッケージに含まれる設定やら、soファイルなどを直接とってきて入れた。

mysql.so、mysqli.so、pdo_mysql.soを/usr/lib64/php/modules/にコピーしたり、設定をコピーしたり、少しずついじりながら、なんとか動いてくれた。

状態としてはmysqlとgroongaはgroongaレポジトリからphpと本来php-mysqlパッケージインストールされるmysql.soは手動で置いたことになる。

シェルから直接mysqlログインするときはgroongaレポジトリのやつを、phpからmysqlを呼ぶときは手動で置いたmysql.soを使うことになっている。

ちょっと心境的にしんどい。別の方法があったかもしれないけど、調べても分からず結局1日くらいかかった。

アクセスカウンタ

アクセスは、サイト全体(トータル)、サイト全体(当日分)、各コンテンツ日別、各コンテンツ週間、各コンテンツトータルのアクセスをとるようにしています

高速だとうわさのredisアクセス回数を残しています

検討した候補はmemcaced、apcmysqlredis、fileあたりなんですが、

memcacheはサーバリスタートするとデータが消える。

apcapacheリスタートするとデータが消える。

fileは候補にあがったものの、メンドウ、、どうせなら楽な既製品がいい。と思って候補からしました。

残るはmysqlredisだけど、redisが高速って聞いていたのでredisにしてみました。

最初全部redisに入れて、集計した結果をmysqlに入れるつもりでしたが、週間ランキングなどはINSERT INTO .. DUPLICATE ONを使って、

アクセスした週の月曜日00:00:00のタイムスタンプコンテンツIDキーにしたレコードを作ればそのまま週間ランキングになるなー。と思ってmysqlを使っています

コンテンツのトータルアクセス数コンテンツレコードpvという項目をつくってUPDATE table SET pv=pv+1 WHERE id = ? のようにしました。

最初難しく考えていたけど、こうすることによって大分楽になったなーといった感じ。

まとめ

全文検索エンジンや対話検索、ここにこのリンクがあればなぁ。。という所に何とかしてリンクを作るのが本当に大変だった。

使い勝手を良くするために、ここにこの機能をなど、さくっと思いつくのは簡単でもそれを実現するために、あーでもない、こーでもないと

DBプログラムとにらめっこしながら「あ!こうすればできる!でもそうすると今度はこっちが・・・」みたいなのがあったりでとても大変だった。

そんなに機能がないような感じがしても、このサイトだけでテーブルが20個あって、途中本当に死にそうだった。

2010-06-21

http://anond.hatelabo.jp/20100621000447

そういう「原理的に不可能なこと」こそ技術の力で解決するべきな気もするなあ。

形態素解析して確率モデルで処理するようなタイプ自動翻訳の開発もいいけど、真逆アプローチもあっていい気がした。

2007-12-17

RE:楽しい形態素解析

今日は良いお天気ですね。

いやいやまてまて。これは「『きょうは』良いお天気ですね。」とも「『こんにちは』良いお天気ですね。」とも両方言うぞ。確かに後者の言い方は現在えらくマイナーにはなってるけど。というかそもそも『こんにちは』というのは「『こんにちは』??ですね」(「『きょうは』??ですね」と同じ意味・用法)の省略形が元だし。だから区別がつかないで正解では。

って元増田が解っててエントリーしてる可能性に気づいた。その場合は野暮だな…すまん。

http://anond.hatelabo.jp/20071217001921

楽しい形態素解析

カカシさんは「今日は(きょうは)」と「今日は(こんにちは)」が区別できない。

今日は。

今日は良いお天気ですね。

2007-12-13

http://anond.hatelabo.jp/20071213062012

うーん、いったいどの検索サービスのことを言っているのかなあ。

インデキシングに形態素解析は使わないよ。基本的にはn-gramだから繋がった”意味のある”文字列がぶった切られることはないよ。

ただ、クエリーが”意味の無い”文字列だったので検索結果が見つからず、検索結果を増やすためにクエリーに入力したキーワード形態素解析してクエリーを作り直すってことはよく使われる手法だね。googleなら”意味のある”と増田が思っている範囲の文字列をダブルクオーテーションでくくればいいと思うよ。

Re: 形態素解析消えろと思うことがある

インデクシングの問題があるのでぶった切るのは仕方ない。

問題なのはノイズが上位に来るレーティングだろう。

あと、関連検索はもっと進化してほしいな。除外指定とかをもっと反映すべきだ。

さらに、関連検索や内容表示はajaxとかで展開したりとか、次ページの連結とか、LDRライクな操作とか、UI進化すべきだ。

形態素解析消えろと思うことがある

特定の繋がった文字列にこそ検索意義があるのに形態素解析で強制的にぶった切られて敢えてノイズ拾う検索式にされるともう怒髪天をつくというかね。いや自分のワガママだって知ってますよそりゃ、だって自分が作った検索サービスじゃありませんから。こっちは使わせていただいてる立場ですから。しかしそれにもかかわらず相手方にとって理不尽であるにも関わらず自分勝手ストレス溜め込んでしまうのさ。

もうどうにでもなーれ(AA

2007-10-18

メモ

初音ミクに対するGoogle八分はあるのかもしれないし、無いのかもしれない。

各種の画像検索には文字コードキーワード形態素解析に大きなバグがあるのかもしれないし、無いかもしれない。

何らかのバグがある可能性については既にGoogleが言及しているようだ。確かに振る舞いは奇妙である。

それはそれとして画像検索の失敗には様々なファクターが関わっているため、何か一つの原因で全てが説明が付くかのように語るのは誤解を生む。

だから以下に挙げる要因もまた、起こりえる可能性の一部に過ぎない。

前提

画像検索の仕組みは様々な手段がありえるし、実際にそれぞれのサービスが様々な手段を組み合わせている。

しかし、最も重要な手がかりは「画像と隣接するテキスト」と「画像とそのキャプション」の組み合わせである。

ブログ

その結果「初音ミク」というキーワードと、そのサイトにある別の画像を紐づけてしまうため、

検索精度が著しく落ちている。

この状況は検索エンジンにとって、「キーワード」と「その中身」がランダムに組み合わされているように見える。

これはSPAMブログの典型的な特徴であるため、フィルタリングされる可能性がある。

ブログ

日本の絵師のサイトは、HTMLの文書構造が、解析に適していない(例えば、Altに代換テキストではない文言を入れたり、表を多用したレイアウトだったり)サイトがたくさんある。グーグルイメージ検索の結果を見てみると、それが原因でキーワード画像の対応づけが上手くいってないサイトも見受けられる。

2007-10-14

http://anond.hatelabo.jp/20071014013747

僕は人工無脳を作っています。

基本的に形態素解析玩具ですが、完成すればその様な悩みを持つ人間が少し減るかな、と思っています。

2007-02-06

anond:20070206215906

同意

anond:20070206183809

ひとり一回までとか。ブクマするまでもない程度の記事の人気度というか閲覧度数が計れるしいいと思う。

ていうかはてダとかにもひっそりとつけられる機能を置いておって欲しい、激しく、いつのまにか。

あと一番欲しいのはあぼーん機能。

個人の設定とかを充実させられて…とかなんとか。

んでそれが付くような専ブラとか作ればいいんじゃないかって。

タグが板みたいな感じで。

というか増田タグ一覧てなんか見難い気がするんだけどどうなんだろう。

形態素解析とかで自分の増田専ブラにまず、メタタグ適当に設定して作って

それをタグとかで板として開いて

上のほうで出てきた閲覧度数とかあとはタグ順に整列できたり。

表示数設定とかもしておいてまた時間順とか色々出来たり。

ファイルP2Pなんかで鯖負担軽くとか。

んでGmailなんかでなんちゃらふんちゃら、とか出来たりするってのも専ブラ以外としては選択肢としてはあったり


んな感じ。

以上歿。

ログイン ユーザー登録
ようこそ ゲスト さん