「自然言語処理」を含む日記 RSS

はてなキーワード: 自然言語処理とは

2012-02-14

http://anond.hatelabo.jp/20120214165137

横だけど、自然言語処理技術を活かしてこういう勝利宣言系の書き込みを自動で非表示にできる機能欲しいな

2009-04-03

2ch工作員存在を公にできるかもしれない件

http://shadow-city.blogzine.jp/net/2009/04/300_1300.html

これが本当の話かどうかは分からないが、本当に「ネトウヨ」等の特定単語の出現頻度がアクセス制限の前と後で大きく変化しているかは、集計してグラフにしてみれば簡単に分かる筈。

そして、それを誰もが客観的に確認できる形にできたなら、何かが起こるような気がする。

誰かやってくれ。俺はやらん。

やる場合は、集計元データ捏造されたデータを含んでしまわないように注意すべきかもしれん。

(尚、信憑性は全く無いが、ひろゆきが某社サイドであるという噂も出ている。)

それから、「客観的に、集計元データが改竄されていない事」を保証する何らかの手段が必要になるかもしれん。



ちなみに俺は、 http://anond.hatelabo.jp/20090402034532 を書いた元増田だが、もっと煽るような書き方にしないと駄目だと言われたので、こうして書き直してみた。



最後に一応言っておくと、「集計したら別に出現頻度に変化はなかったぜ」という事になる可能性もあるんだぜ!

これは単に、特定単語の出現頻度調査の提案をしてるだけなんだぜ!

簡単な自然言語処理の問題なんだぜ!

2009-03-30

自然言語処理Python がいちばん」について

http://d.hatena.ne.jp/mamoruk/20090327/p1


「いちばん」かどうかはわかりませんが、うちの会社製品ではpythonを主力に使った自然言語処理を含む製品を販売しているので、実際の感想を。


うちでは、pythonを元データの整備のための運用バッチ処理から、客が最終的に手にする情報の生成、実際に客が使うWEBインターフェースまで、pythonを主力にしています。

別のチームが作った別の製品ではS2Struts(JAVAね。)でWEBを作っている部分もありますが。


自然言語処理ぶっちゃけどの言語でも可能だとは思います。

mecabが使えて、Unicodeが使えて、正規表現が使えれば、まあ、どの言語を使ってもそんなに大差はないのではないでしょうか。


あとはsennaのような日本語用の全文検索エンジンなども使いますが、そこらへんに近い部分は基本的にC++で書きます。

pythonとは言っても、速度を重視する部分はやはり迷わずC++です。

C++で書いたものはswigを使うか、又はC言語で手書きのbindingを使ってpython接続します。

もこないだswigでつないで製品リリースしたら、WEBからの並列アクセスswigがうまく対応できず、リリースした日に急いで手書きbindingを書いた経験があります。swigの使い方はきちんと理解していないので非常に難しい。


nltkとか、wordnetの話はたしかに使えそうかもと思ったことはありますが、nltkはうちでは使っていません。

うちの会社では自然言語処理研究段階から自社で行っているので、nltkにあるようなできあいのルーチンを実戦投入する事はなく、基本的に地味に自分達でpythonで書いています。

自然言語処理と言っても、核心の処理はやはり泥臭い個別事例への対処が多いです。不要語処理とか。

自然言語処理アルゴリズムは8割程度の精度を出すのは簡単で、すぐに思いつきで書けるものですが、残り2割の精度をいかに埋めて行くかが、頭のいい人とそうでない人の差が現れる部分だと思います。

どうしてもいいアルゴリズムを思いつかない場合は、泥臭い個別事例処理がうねうねと並んだプログラムになります。学術的なものではなく商売になればいいので、うちはとりあえずそれで十分。(これは自然言語処理に使う機械学習アルゴリズムたちも同様。というか自然言語処理機械学習て、区分けがあいまいな部分が多いですよね。)

そういう感じなので、pythonの可読性の高さは非常に有効。

また、変数名や関数名などをexplicitに書く文化も業務で使うのに適していると思います。(他の言語でもexplicitに書けばいいだけですが、それを言語開発者自身が推奨するほど強調はしていないですよね。)


英文の処理で、wordnet辞書データの一部を研究に使った記憶はある。

しかし、あそこまで精緻辞書データを使う程高度な処理は今の所必要ない。

うちで自作した不要英単語辞書と、特別扱いする英単語辞書で間に合わせていたと思います。(その辺記憶あいまい。)


WEBユーザーインターフェースdjangoで。

djangoは非常に明快で、快適。

画面の機能を追加するのに、例えばS2Strutsアクション定義の煩雑さに比較すると、天と地との差ほどにdjangoは簡単。


あと、pythonを使える開発者日本には少ないとの事ですが、うちでもそれは同様です。

しかし、自分の隣の席の同僚はperlに非常に熟達していて、彼はすぐにpythonの達人に変わりました。

優秀な方にとっては言語なんて何をつかってもあまり変わらないみたい。

でも、彼も自分自然言語処理JAVAC++のようなまわりくどい言語は使ってられないという点では同意しています。

2009-01-08

otsuneさんブクマbotを作った


みんな大好きb:id:otsuneさんのブクマbotを作った

http://b.hatena.ne.jp/otsnue/


概要

otsuneさんっぽくコメントを付けるbotを目指して年末年始返上で制作

相手をdisり「頭が気の毒です」で締めるotsuneさんの個性をうまく表現できたと思う



bot技術解説

botの仕組みを説明しておく

  • ブラウザを開いてdisりたい相手を探す
  • dis
  • 文末は「頭が気の毒です」で締める
  • 保存

Plagger+自然言語処理を噛ませたbotも作ったのだけど鯖でCold Fusionしてしまったので断念

手動でコメント書くのが一番手っ取り早かった



使い方

ニヤニヤしてください

もしこのbotが迷惑でしたら対応(削除)しますのでブクマ等で言ってください

2009-01-02

http://anond.hatelabo.jp/20090102145542

日本geek って、perl/php/javascript をボクが一番うまく使えるんだって人のことなんだね。

コンピュータサイエンス的な理論もしったこっちゃない。

自然言語処理?むりむり。検索エンジン作れ?むりむり。数値解析?チラネ。

信号処理?それおいしいの?CG?それフレームワーク

- 転職ならen
- 派遣ならen
 
1ページ中1ページ目を表示(合計:5件)