はてなキーワード: 自然言語処理とは
はてなブックマーク10周年新企画として導入されたトピック機能。
トピックリスト上の見出しと、個別のトピック開いた時の見出しが違ってわかりづらい。
http://b.hatena.ne.jp/topiclist
トピックリスト上では「独VWの排ガス不正」、個別トピック開くと
http://b.hatena.ne.jp/topic/300615183698808978
トピックリスト上では「BMWも排ガス制限超え」、個別トピック開くと
http://b.hatena.ne.jp/topic/300597687033236877
トピックリスト上では「欧州でも不正認める」、個別トピック開くと
http://b.hatena.ne.jp/topic/300597724437095345
トピックリスト上の見出しと、個別のトピック開いた時の見出しをわざわざ変える理由は何?
そもそも個別トピックの見出しが「vw」「フォルクスワーゲン」「vw」ではニュース内容の説明に全くなってない。
自然言語処理技術を用いたタイトルの自動生成がウリらしいが、その結果がこれ?
はてなブックマーク10周年新機能「トピック」 - はてなブックマーク
http://b.hatena.ne.jp/10th/topic
自然言語処理技術を用いたはてなブックマークの新機能「トピック」をベータリリースしました - はてなブックマーク開発ブログhttp://bookmark.hatenastaff.com/entry/2015/02/05/190331
はてなブックマークのトピックページの裏側 - Hatena Developer Blog
ベータリリースらしいが、2月にリリースして半年以上経ってこの状態?
実際に自動生成された見出しを人の手でチェックし、十分でないなら人力で見出しを修正し
また、自動生成の見出しが人力修正相当になるようプログラムを改良したりしてますか?
トピックの見出しを追うだけでニュースの経過がざっとわかるようになれば嬉しい。
しかし今のままでは、使いづらい→利用者増えない→サービスの需要ないんだ→開発放置、の悪循環になりそうで。
自称Sediment
アジャイル開発って呼ぶのか何なのか知らんけど、はてなのサービスはスモールスタートだからなぁ。
はてなブログも初期はひどかったぞ、フォトライフと連携する機能とかもなかったし。
http://oidon.hatenablog.com/entry/2012/01/02/202339
トピックとはてブの検索ってさ、自然言語処理と検索って共通項があって、はてブ検索の改善とかはしてるみたいだから、その内、生きてくんじゃねーの? 知らんが。
http://b.hatena.ne.jp/entry/developer.hatenastaff.com/entry/2015/02/12/165918
東大基礎科学科卒。過去250~340年間世界の大数学者達が解こうとして解けなかった、世界史的数学難問4つを解き、現在ロシア科学アカデミー数学の部で審査中。マスターした11ヶ国語を駆使したプロの通訳・翻訳家。矛盾だらけの現代物理学を初め、全科学(自然、社会、人文科学)の主だった物を体系的に批判し各々に別体系を提起。各種受験生(医学部、難関大学入試、数学オリンピック、社会人大学院入試、IT関連資格)支援。
■経 歴
2002年 (至現在)セント・クレメンツ国際大学 物理学教授
2001年 英国系セント・クレメンツ大学で数理物理学の博士号取得
2002年 ロシア科学アカデミー・スミルンフ物理学派論文審査員となる
1999年 英国系ウィットフィールド大学でコンピュータ科学人工知能の博士号取得
1991年 (~1993年)University of California、 Irvine人工知能研究所で確率論批判・学習システムの研究
1988年 (~1991年)世界の認知科学の権威ロージャー・シャンクのCognitive Systemsのデータベース研究所IBSで自然言語処理研究
1986年 (~1988年)欧州先端科学研究プロジェクトESPRITにESPRITディレクターとして仏Telemecanique研究所より参加(生産ラインへの人工知能導入の研究)
1985年 西独ジーメンスのミュンヘン研究所で生産ラインへの人工知能導入の研究
1982年 (~1985年)[仏国]世界一速い列車TGVのメーカーAlsthom社の知能ロボット研究所
1981年 (~1982年)[仏国]グルノーブル大学院、ソルボンヌ大学院で通訳の国家免状取得
1980年 (~1981年)[スペイン]マドリード大学院で言語学履修 西国政府給費留学生
■専門分野
数理物理学Ph.D.、コンピュータ科学人工知能Ph.D.、マスターした11カ国語を駆使したプロの通訳・翻訳家
■講演テーマ
「ビジネスマン、文系卒社員に理工系技術と技術的発明を評価できる眼を」
近年世界の大学でビジネス志向の学生向けに、理系の技術的な事がある程度分かるためのカリキュラム改変が始まっている。しかし申し訳程度であり、また理系の拠って立つ数学物理学の科学理論自体に欠陥が有る事が最近明らかとなっているため、正しい数学と物理学の粋を伝授し、文系でも本物の理系技術評価が出来るように支援する。
「英語を完璧に&現地語(非英語)を或る程度使えるマネジャー急遽創出と、社員の中から各国語通訳をネーティブに肉薄する敏捷性と正確さで急遽育成を支援」
海外のプロジェクトや企業と折衝するとき、英語がネーティブ並みであったり、現地語を自社のディレクター自身がある程度こなせるか、英語、現地語につきネーティブ並みの社員が通訳出来ると先方との話が大きく好転する場合が少なくない。それを本当に実現する教育訓練を私は提供できる。平明に説明し、実体験をしてみたい方がいらっしゃるなら講演会場で手解きをしてみたい。
「発見された言語学理論と外国語訓練方法論を基に、文科省と英会話学校の英語教育訓練方法論の根本的誤りの中枢を詳説」
統語法意味論、文脈意味論、実世界意味論の3レベルで進展するネーティブの母国語習得過程の中、言語能力の真の中枢は解説も無しに親の喋るのを聴いているだけで分かるようになる統語法的意味把握能力で、これは文法用語を全く使っていなくても徹底した文法訓練となっている。ネーティブが敏捷性、精度の点で万全であり、先ず文法的間違いをすることはない理由はここにある。全文法分野について書き換え問題の「即聞即答訓練」を一気に中学生以上の年齢の人に施し、全文法のビビッドな一覧性を習得させるとネーティブに肉薄する敏捷性と精度で外国語を使いこなせるようになることが発見された。
「<証明された欠陥数学> 確率統計と微積分学のビジネス、金融工学、保険業界での使用に対する警告と、それに取って代る新数学体系」
我々物理世界は離散値の世界であることが原因で、物理世界に住む人間の頭脳が考え出した数学の中で連続実数値に基づく確率統計学と微積分学だけが欠陥数学として発現していることが証明された。決して建設的な予測をすることができず、崩壊していく事象に後ろ向きにしか適用できず、せいぜいリスク管理にしか使い道の無い確率統計学をビジネス学の分野では金科玉条の如く信用し積極的やり方で利用しているが、ここに「理論」と現実との間に大きな食い違いが生じている点に警告を発したい。そのためそれに取って代る新数学体系を提起する。全てを分かり易く解説します。
「新エネルギー・エコ向けの発想を大転回した技術的な重要な発明を提起」
20世紀初頭に数理物理学者Henri Poincareは二体問題までは解けるが三体問題(三つの星が互いに重力で引き合いながら運動している時の時々刻々の位置を計算で求める事)以上は微積分学を使って解く事が出来ない事を証明した。これは無限小差分を使う微積分は計算式中で交差する項をほぼ同等とみなして相殺してしまうため、作用反作用の法則(F1*v1=-F2*v2)の取り違い(F1=-F2が作用反作用の法則であると圧倒的多数が信じている)と相俟って、交互に対称な運動しか記述できないため、対称性の有る二体までは記述できても対称性のない三体以上は記述できないためである。この欠陥数学微積分を基に二体までは「エネルギー保存則」を証明したものの三体以上の「エネルギー保存則」は本来的に証明不可能であることが明らかと成った。現に永久磁石がエネルギー保存則を大きく超えることが実証され始めている。それらの実験につき具体的に物理学の素人の方々にも分かりやすく報告したい。
「世界史的体系的誤りに迷い込んだ現代物理学とその使用者への警告とそれに取って代る新物理学」
現代物理学の二本柱、量子力学と相対論の中、量子力学は水素原子の原子核と軌道電子の関係説明を辛うじて試みただけで、水素原子より複雑な原子や分子の構造の説明に実は悉く失敗し、繰り込み・摂動理論はその失敗を隠すため後に持込まれた。軌道電子は光速に比べ無視できぬ速度でクーロン力で原子核に引かれて急カーブしながら等速加速度円運動、大量のエネルギーを消費するが、半永久的に軌道を回る。しかしシュレーディンガーの波動方程式(その波動関数とその共役関数の積は確率)はエネルギー消費に一切言及せず、エネルギー・レベルが一定に保たれるという明らかに矛盾した論を展開する。また確率を持ち込んだからには、エントロピー単調増大法則がここに適用され、水素原子は瞬時に粉々に飛び散らなければならぬ現実に反する二つ目の重大矛盾に遭遇するが、これもシュレーディンガーは見てみぬ振りをする。つまり水素原子の構造の説明にすら量子力学は完全に失敗した。量子力学とは動力学でなく各エネルギー・レベルについての静力学でしかなく、「量子力学」の「力学」なる名前とは裏腹に力を論じられない。論じればエネルギー消費が起こりエネルギーレベル一定論が崩れる。
「現代のフォン・ノイマン型コンピュータ・アーキテクチャーの誤りと、創るべき新コンピュータ・アーキテクチャー」
現代のフォン・ノイマン型コンピュータの計算機モデルが取りも直さずチューリングマシンそのものである。チューリングマシンは決ったパラメータ数の状態間の遷移を静的モデル化したものであるのに対し、歴史的にその直前に発表されたアロンソ・チャーチの計算モデルのラムダ・キャルキュラス(人工知能プラグラミング言語LISPの言語理論でもある)は関数の中に関数が次々に入れ子のように代入されて行き擬パラメータが増えていくダイナミックな仕組みを持つ。この後者は人間が作ったコンピュータを遥かに凌ぎ、宇宙の始原から発生した環境データから関数をf1(t),f2(t),.,fn(t)と次々に学習し入れ子のように代入進化し、次の一ステップの計算には宇宙の始原からの全ての関数f1,f2,...,fnを思い起こし、そのそれぞれの差分を取って掛け合わせる事をしているコンピュータとも言える物理世界とその時間の学習・進化を時系列順に模写するのに持って来いの仕組である。関数と言っても多項式で充分である事を世界の7大数学難問の一つPolynomial=Non-Polynomialの私の証明も交えて平明に解説する。これは日本の国と世界の先進諸国のコンピュータ科学の今後の研究方向を左右する発言となる。
■実 績
【講演実績】
Trinity International University
「コンピュータ科学」 学士号コースの学生に卒業まで全コースを講義
St.-Clements University
「金融工学に必要な数学・物理学」の博士号コースの学生3年間に渡って講義、研究テーマと研究内容、博士論文のアドバイス
St.-Clements University
研究テーマ「コルモゴロフ複雑系の二進ビット・ストリングの下限=Lower bound for binary bitstring in Kolmogorov complexity」の博士号コースの学生Dr. Bradley Ticeに英語でアドバイス
St.-Clements University
外国語学部のポルトガル語・伊語の通訳・翻訳の学士号コースの学生に教養学部のレベルから全社会科学(経済学、法律学、社会学、経営学)、人文科学(哲学、言語学、心理学、歴史学)、自然科学(数学、物理学、化学、生物学、医学、計算機数学)、エンジニヤリング(Information Technology、ソフトウエア工学、電気工学、電子工学)の各々の学科の全講義を行う。
Госдарственный Университет Санктпетербургской Гражданской Авиации (サンクトペテルブルグ国立航空大学)
物理学学会の論文発表会で幾多の論文の露語によるプリゼンテーション。
【メディア出演】
【執筆】
ti-probabilistic Learning by Manifold Algebraic Geometry, SPIE Proceeding, 1992 Orlando 等 人工知能学会論文
なんか、こう頭のレベルが違うと、
論点がズレて、変な決めつけで、違うんですが、
と言い返せば、あんたここそういうところじゃないよ?とか、
わけわからんことを言われる。
”頭のレベルが違って論点がずれている人”の発言は、どこからどこまで?
人がいてやりやすいと思うよ。
とか、いうてきますよ。
「足切りある会社」とは?誰でも入社できる会社なんぞ、存在するのか?
「高学歴は足切りある会社いった方がまだ理性的な人がいてやりやすいと思うよ。」理性的?論点うんぬんと前もって言っていたのだから、こういう文章には論理的という単語を使う方が意味が通じる。
「馬鹿に媚び売らなきゃ、馬鹿がお前は社会的に認められない!」主語は馬鹿?お前?
やれるのかなぁ?
「自分が一番正しいとかやれる」
文章的には、やはり変。読み返しても気付かないのは、まともな日本語教育を受けていない人間。外国語圏内の人間ならば、しょうがない。
一番ワロタのは、
お前の身近ことだけで世界知った気になんな
→何本読んで知った気になってんの?
そして、こちらの高学歴カードには、東大がいる増田で自慢すんな恥ずかしい
と、返され、しかし見ていた東大卒がいや、それすごいんだけど、
なんなんだろうな。本質を見抜くのはこちらのが高いけど、
こんな自称、普通に常識的に生きてるDQNよりマシな人間とか、
倒せば負けを認めるが、
変に社会のずるさとか覚えた大人だと、
浅い考えで、思考も深くする訓練もしてないのに、
けど、ムカつくので君が泣くまで殴るのをやめないに
どうも、自分の事を頭が良いと思って書いている文章のように読み取れたのだが、
たとえネット文章であっても、利口な人間が書くならば、ここまで文章が崩れて読み難い文章になることはない。これはどういう思想体系の人間においても、共通して言えること。
よって、控えめに”日本語が苦手だからと、外国人が翻訳ソフトを使って作り出した日本語文章ならばしょうがない”としてレスを付けた。自分の興味は自然言語処理だったので、単純にその点を確認したかった。且つ、多少「本当に自分が頭良い人間と思っているの?だとしたら凄い度胸だ」と多少の揶揄を込めて書いたトラバだ。
以上、これでお気に召しただろうか?
ウェブ系,人工知能系,ソーシャルメディア系の国際会議〆切メモ.
http://anond.hatelabo.jp/20140421200127
情報系としての今までの経験です、と言ってアピールできるような成果物も経歴(バイトとか)も無い。
プログラミングできるようになれば面白いんだろうなー面白いwebサービス自分で作れるようになりたいなーと思いつつも
自然言語処理とか機械学習とか面白そうだなーと手を出そうとしたが、いかんせん数学が難しい。これをライフワークとして続けられる自信はない。
ただただアニメを見て、漫画を読んで、ネット上の記事(はてなのアニメ批評界隈とか)を読んでいたら二年間が過ぎていた。
インターンも申し込んでない。というか面接に行ったとして自分をどうやってアピールすればいいのかわからない。
これから俺はどこでどうやって生きればいいんだ。
だれかアドバイスをください…。
http://gunosy.tumblr.com/post/49731783015/gunosy
公式に「所感」が出されたので、記念にこれ貼っておくよ
「gunosy=はてブのパクり」ってネタはサービス開始当初からあって、実は増田にもこんなのがあがってたんだよね
今は削除されてるけど、なんかのためにとevernoteにクリップしておいたのを思い出したのでここに転載しておくよ
↓↓↓
1 :増田ゲノムのクローンさん:2012/01/03(火) 00:22:01.00 ID:82R.hK77O.
●登場人物
ふっきー(東大生)
ほか二名
●あらすじ
はてぶのホッテントリをテキトーに選んで毎日10個メールで流すサービスを始めた
自然言語処理でユーザーの好みを学習、ともっともらしいことを言ってみる
でもバレかかる・・・
最初許可していたはてなアカウントでのログインを禁止しボタンもこっそり削除
でも名残がテキスト説明に残ってる
http://shadow-city.blogzine.jp/net/2009/04/300_1300.html
これが本当の話かどうかは分からないが、本当に「ネトウヨ」等の特定単語の出現頻度がアクセス制限の前と後で大きく変化しているかは、集計してグラフにしてみれば簡単に分かる筈。
そして、それを誰もが客観的に確認できる形にできたなら、何かが起こるような気がする。
誰かやってくれ。俺はやらん。
やる場合は、集計元データに捏造されたデータを含んでしまわないように注意すべきかもしれん。
(尚、信憑性は全く無いが、ひろゆきが某社サイドであるという噂も出ている。)
それから、「客観的に、集計元データが改竄されていない事」を保証する何らかの手段が必要になるかもしれん。
ちなみに俺は、 http://anond.hatelabo.jp/20090402034532 を書いた元増田だが、もっと煽るような書き方にしないと駄目だと言われたので、こうして書き直してみた。
最後に一応言っておくと、「集計したら別に出現頻度に変化はなかったぜ」という事になる可能性もあるんだぜ!
これは単に、特定単語の出現頻度調査の提案をしてるだけなんだぜ!
簡単な自然言語処理の問題なんだぜ!
http://d.hatena.ne.jp/mamoruk/20090327/p1
「いちばん」かどうかはわかりませんが、うちの会社の製品ではpythonを主力に使った自然言語処理を含む製品を販売しているので、実際の感想を。
うちでは、pythonを元データの整備のための運用バッチ処理から、客が最終的に手にする情報の生成、実際に客が使うWEBインターフェースまで、pythonを主力にしています。
別のチームが作った別の製品ではS2Struts(JAVAね。)でWEBを作っている部分もありますが。
mecabが使えて、Unicodeが使えて、正規表現が使えれば、まあ、どの言語を使ってもそんなに大差はないのではないでしょうか。
あとはsennaのような日本語用の全文検索エンジンなども使いますが、そこらへんに近い部分は基本的にC++で書きます。
pythonとは言っても、速度を重視する部分はやはり迷わずC++です。
C++で書いたものはswigを使うか、又はC言語で手書きのbindingを使ってpythonに接続します。
でもこないだswigでつないで製品をリリースしたら、WEBからの並列アクセスにswigがうまく対応できず、リリースした日に急いで手書きbindingを書いた経験があります。swigの使い方はきちんと理解していないので非常に難しい。
nltkとか、wordnetの話はたしかに使えそうかもと思ったことはありますが、nltkはうちでは使っていません。
うちの会社では自然言語処理の研究段階から自社で行っているので、nltkにあるようなできあいのルーチンを実戦投入する事はなく、基本的に地味に自分達でpythonで書いています。
自然言語処理と言っても、核心の処理はやはり泥臭い個別事例への対処が多いです。不要語処理とか。
自然言語処理のアルゴリズムは8割程度の精度を出すのは簡単で、すぐに思いつきで書けるものですが、残り2割の精度をいかに埋めて行くかが、頭のいい人とそうでない人の差が現れる部分だと思います。
どうしてもいいアルゴリズムを思いつかない場合は、泥臭い個別事例処理がうねうねと並んだプログラムになります。学術的なものではなく商売になればいいので、うちはとりあえずそれで十分。(これは自然言語処理に使う機械学習のアルゴリズムたちも同様。というか自然言語処理と機械学習て、区分けがあいまいな部分が多いですよね。)
そういう感じなので、pythonの可読性の高さは非常に有効。
また、変数名や関数名などをexplicitに書く文化も業務で使うのに適していると思います。(他の言語でもexplicitに書けばいいだけですが、それを言語開発者自身が推奨するほど強調はしていないですよね。)
英文の処理で、wordnetの辞書データの一部を研究に使った記憶はある。
しかし、あそこまで精緻な辞書データを使う程高度な処理は今の所必要ない。
うちで自作した不要英単語辞書と、特別扱いする英単語辞書で間に合わせていたと思います。(その辺記憶があいまい。)
djangoは非常に明快で、快適。
画面の機能を追加するのに、例えばS2Strutsのアクションの定義の煩雑さに比較すると、天と地との差ほどにdjangoは簡単。
あと、pythonを使える開発者は日本には少ないとの事ですが、うちでもそれは同様です。
しかし、自分の隣の席の同僚はperlに非常に熟達していて、彼はすぐにpythonの達人に変わりました。
優秀な方にとっては言語なんて何をつかってもあまり変わらないみたい。
日本の geek って、perl/php/javascript をボクが一番うまく使えるんだって人のことなんだね。
コンピュータサイエンス的な理論もしったこっちゃない。