「自然言語処理」を含む日記 RSS

はてなキーワード: 自然言語処理とは

2018-04-06

anond:20180406105426

今は自然言語処理を愚直にこなしてコマンド入力していることが多いと思うけど、

業務が特化されれば、ショートカットコマンド(というかマクロ?)を発音すると、予め登録した作業が出来るようになったりして。

おまけにパーソナライズされて、個人ごとに違ったりすると、

固有名詞以外意味不明呪文が飛び交う、活気のある職場が出来上がり……なんか、楽しそう!

2018-03-14

大学への帰属感と人事の話

ドロドロした話ではなく,研究者業界を知らない人への一般的な話です.

大学研究者は各大学所属していますが,よく大学研究者個人事業主だと言われるように,

実際問題として大学への帰属意識はそれほど高くなく,業界帰属していると考えている人が多いように思います

一般会社員から見ると,大学研究者関係は,会社サラリーマン関係のように思えますし(雇用関係事実その通りなのですが)

心理的にはスポーツチームと選手関係に近いです.

たとえば,情報科学科というもの存在した時に,その中にはアルゴリズム研究者,VR・AR研究者DB研究者自然言語処理研究者

機械学習研究者コンピュータビジョン研究者などの様々な研究者がおります日本大学場合,それぞれが講座制として研究室運営されています

では,自然言語処理研究室助教(昔でいう助手)が准教授になるには,その研究室准教授ポストしか一般的にありえません.

他の選択肢は他大学自然言語処理研究室のみです.つまり,彼/彼女にとっては,A大学情報科学科に所属していると言えますが,

キャリアパスとしては,全国にある大学自然言語処理研究室ポストを見ていることになります

ピッチャーは自・他チームのピッチャーしかなれませんし,ゴールキーパーは自・他チームのゴールキーパーしかなれません.

一部の例外を除いて,他のポジションゴールキーパーフォワード)に移ることはありえないのです.

そう考えると,彼/彼女から見ると,あたか自然言語処理業界株式会社のような概念存在し,

その支店としてのA大学,B大学があると考える方が正しいように思います

そして,キャリアパスとして,うまくいけばA大学助教,B大学准教授,C大学教授栄転をしていくのです.

もちろん一部のエリートは,履歴書東大しかないような人もいますが,

それは会社でいうところの幹部候補生のようなものであまり一般的ではありません.

教授10-20年君臨することを考えると,そういう人は各業界において,10数年に1人の生産ペースです)

最後に少しドロっとした話をしますと,A大学の人事に,B大学教授が口を出すというケースもよくあります

これは,会社視点で考えると異常なことですよね.A大学とB大学は全く資本関係はないのです.

トヨタ部長人事に,日産社長が口を出すようなものです.

しかし,トヨタグループ会社だと考えると素直に理解できませんか?(子会社の人事に,親会社が口を出すというように)

資本上は一切関係がなくても,人的交流による様々なしがらみがあり,それが学閥であったり,業界ドンのような人を生み出しています

おわり.

2018-01-23

自然言語処理界隈

結局、有名大学の教員ポスト地頭いい人が全部占めてる。

要は、生まれつき数学の才能がある人ね。

小町先生とか、文系でもなんたらって言ってるけど、あれ、嘘だと思う。

小町先生自身地頭良いのに、たまたま学部文系に進んじゃっただけで、その後のキャリア全部理系だよね、あの先生

数学の才能ある人は理系行けってだけの話では。

2018-01-09

人工知能でも人あまり

話題人工知能研究者自然言語処理分野。任期あと3年。

3年後は人工知能の冬だ。

高齢ポスドクだのさんざん言われる中、絶対クビになる。研究者やめさせられる。妻子養えない。一家心中だ。

クビはいやだクビはいやだ。

ツイッター人工知能人材争奪戦とか言ってる奴、マジでふざけんな。

20-30代を費やしてくれる人材がほしいだけだろ。40超えたらポイ捨てだろ。業界に入ったときは俺もピチピチ20代だったが、3年後は40代になるんだよ!

俺を落とした大学の一覧でも貼り付けて一家心中でもするかなー。

2017-11-04

Google検索結果が本当に使いにくくなってきた

悪いのはクソアフィサイトを作るやつらと質の低いWebメディア会社、クソSEO会社なんだけど…

もう一度、あのサイト見たいなあと思っても、昔ながらのHTML素組みの個人ページレベルだと全然引っかからない。

自然言語処理で共起語やドキュメントベクトルが似てるサイト検索結果に出してるのかも知れんが、検索キーワードを含んでないページが引っかかり過ぎる。毎回ダブルクォート入れて検索してるけど、それでもまともな検索結果が得られることがあまりない。

2010年2014年ぐらいのロジックに戻してほしい…。

Google検索エンジントップブランドから失墜するのも余裕でありえる状況になってきた。チャンスだ。

2017-10-12

Googleにデコイを食わせろ!

「よろしい、ならば戦争だ」

Google検索と戦う方法を紹介します。

デコイ

デコイ(英: decoy)は、狩猟で囮に使う鳥の模型。これが元来の意味である

デコイ英語: decoy、Military dummy、囮とも)は、敵を欺瞞して本物の目標と誤認させる目的で展開する装備の総称

ネガティブSEO

リバースSEO」や「ネガティブSEO」とも呼ばれる逆SEO

逆SEOとは、特定サイト検索順位を下落させること

Matt Cutts氏が指摘するように、順位を下げるために付けたリンクが、期待とは正反対順位を上げる手助けをしてしまうこともあり得なくはありませんね。

リンクされているサイトではなく、リンク元サイトスパムかどうか判断していることをGoogleゲイリー・イリェーシュ氏がMarketing Landポッドキャストで明らかにしています

この説明にもネガティブSEOの具体例をあげて解説していることからペンギンアップデートネガティブSEO対策に力を入れていることがうかがえます

方針

  1. ネガティブSEOではなく、ポジティブSEO採用する。
  2. ポジティブSEOデコイを大量に投下する。

あなたプログラマーではない場合(手動)

  1. あなた名前を付けたブログTwitterアカウントを作る。(例:はてな次郎のダイエット日記
  2. 質の良い情報必要なので、趣味や特技を活かしたテーマ記事を書く。(例:スムージーオリジナルレシピを紹介)
  3. 業界有名人積極的メッセージを送る。(例:料理家・平野レミさんのちくわストローで飲むティスムージーレシピ感想を送る) https://twitter.com/Remi_Hirano/status/759208574694359044

 

目的は「はてな次郎」の文字列自分管理して、インターネット上に増やすこと。

 

  1. ブログ記事動画にして、YouTubeにアップする。(YouTuberビデオブログ
  2. ブログ記事書籍にする。(例:Amazon KindleAmazonオンデマンド印刷本)
  3. 書籍オーディオブックにする。(例:Amazon Audible

 

目的は「はてな次郎」の文字列を爆発的に増やすこと。

 

セルフプロデュースセルフブランディングするのがポジティブSEO王道です。

現在、「はてな次郎」をGoogle検索したら1万件ヒットする場合セルフブランディングした情報が3万件ヒットするぐらいを目指してください。

はてな次郎」に関する誤情報が、検索結果の10ページ以下に沈めばとりあえず成功です。

あなたプログラマー場合自動

はてな次郎」という文字列インターネット上で増殖させる作業を、手動ではなく自動で行うことも可能です。

 

  1. クローラー」を作り、Web上のデータ収集する。
  2. AI自然言語処理データを加工する。
  3. 加工したデータをもとにポータルサイトを作る。

 

(例)有名人応援するファンサイトを作り、各ページのタイトルやヘッダーに「はてな次郎」の文字列を入れる。

  1. Amazon商品データスクレイピングして、本=著者、CD歌手DVD監督俳優人物データベース作成する。
  2. その人に関する情報スクレイピングする。(DBディアAPI、あのひと検索スパイシーを参考にする)
  3. 日本語英語日本語の往復翻訳をするなどして、オリジナルデータを少し改変する。
  4. 人物に関するデータから、その人物の三行紹介を作成する。(マルコフ連鎖圧縮新聞のような記事を生成する) http://pha.hateblo.jp/entry/20071124/1195904502
  5. 自分が好きな歌手女優なら、自分で紹介記事を書いても良いです。(手動の作業も加えてOK

 

このような方法で、100万ページ程度のWebサイト自動的に作れます

データや加工方法を変えて、さらWebサイトを作れば「はてな次郎」の文字列インターネット上に1億個以上投下することも可能です。

いいね工場

アメリカ大統領選挙ロシア情報操作を行っていたと言われている「ロシアゲート事件」を参考にして、SNSデコイをばらまくことも可能です。

  1. 安いスマートフォンSIMカードを大量に用意する。
  2. SNS操作する専用アプリを作る。(DeployGateやTranspoterPadのようなデプロイツールを利用)
  3. はてな次郎」の情報自分で作ったブログWebサイトSNSアカウントなど)を拡散したり、いいねを送る。

 

ユーザー陳情を受付けないGoogle傲慢ですね?

やりたい放題のGoogleをブッ飛ばすには、プログラミング有効です。

頑張ってください。

 

追記

記事仮名が変更されたので本記事仮名も変更しました。(はてな次郎)

 

補足:

はてな次郎」の文字列自分管理

自分が書いた投稿なら、必要に応じて(自分権限で)表示/非表示を切り替えられるので管理上都合が良い、という意味です。

2017-09-16

株式会社はてな株主構成から見るはてな実態

今戯れに時価総額と持ち株比率から換算した資産表作った

近藤 淳也 66.33% 4482581400円 ○

(株)はてな 6.59% 445352200円

毛利 裕二 5.98% 404128400円

梅田 望夫 4.30% 290594000円

栗栖 義臣(社長) 2.61% 176383800円 ○

大西 康裕 1.97% 133132600円 ○

伊藤 直也 1.79% 120968200円 ○

田中 慎樹 1.41% 95287800円

田中 慎司 1.30% 87854000円 ○

小林 直樹 1.15% 77717000円

お金の額面はともかくの話なんだけど、

○をつけたのは、はてなコードを書いたことがあると"思われる人"。「名前 プログラミング」で検索して有意な結果が出た人に○つけた。各株主の詳細知りたい人は適当にググって

で、さら


はてな年収は524万円が平均年収です。(有価証券報告書調べ)

http://heikinnenshu.jp/joho/hatena.html

あると好ましい知識経験

スクリプト言語(主に Perl/PHP/Python/Ruby/JavaScript)によるアプリケーションライブラリ開発の経験

ScalaGoにおけるアプリケーションライブラリ開発の経験

iPhoneアプリ、もしくはAndroidアプリの開発経験

UNIX系OSRDBMS特に LinuxMySQL)についての基礎知識

オブジェクト指向プログラミングの基礎知識

コンピュータサイエンスアルゴリズムデータ構造分散技術自然言語処理技術機械学習データマイニング型理論)に関する基礎知識

ネットワーク技術HTTPDNSTCP/IPなど)についての基礎知識

大学卒/275,000円〜

http://hatenacorp.jp/recruit/fresh/application-engineer-entry

って、エンジニア待遇悪すぎじゃない?

この毛利 裕二という人の持ち株の資産新卒給料(計算だるかったか計算からボーナス抜いたけど、手取り分で考えたらボーナス分くらいは消えるだろう)で稼ぐとしたら122年かかるし、梅田 望夫という人は88年かかる。本当にこの人たちにはそれほどの価値(上にあげた新卒に求めるやたらと高いスペック)分の価値があるのか?いや、価値があると思ったから株をあてがったんだろうけど...

まぁなんていうか...、はてなのエンジニアのみなさんお疲れ様です...業務がんばってください

完全に外様の俺から言えるのは"エンジニアに"もっと給料たくさん払った方がいいんじゃないかということだけです

2017-03-18

自然言語処理に詳しい人向け

自分理解だけど、言語理論増田

word2vecでいうベクトル表現的な言語体系を目指してるんじゃないかと予想。

普通言語はそれこそone hot的な表現だけど、めちゃくちゃ単純化すれば自然言語ベクトル表現のように3つの記号で表すことができて

それこそ単語の足し算引き算みたいな事が可能になるレベル言語体系ができるんじゃないかって話だと予想してる。

2017-03-08

3/8の人工知能(AI)関連プレスリリーステクノロジー視点解説

日々流れる人工知能(AI)関連のプレスリリースAI研究者視点から軽く解説します。

ウェブ面接プラットフォームHireVue株式会社バンダイにおける導入利用のお知らせ

https://prtimes.jp/main/html/rd/p/000000019.000016792.html

人工知能技術ウェブ面接プラットフォーム上に溜まった会社情報候補者情報からマッチング

難易度】低

宿泊施設の料金設定の悩みを解消 MagicPrice(株式会社空)とホテルシステムのDynalution(ダイテック株式会社)が業務提携

https://prtimes.jp/main/html/rd/p/000000006.000019984.html

人工知能技術】MagicPriceはホテル宿泊施設データを用い、最適な料金設定をAIで行っている

【何が変わったかデータの定期的なアップロード作業必要だったが、宿泊施設データ管理システムDynalutionとの連携により不要に。利用者からはより簡単に利用でき、分析をするMagicPrice側からデータフォーマットのブレがなくなり分析やすくなった。

ユーザーがChatbotでリアルタイム試合情報を取得、AI×人の相互コミュニケーションによる新しい観戦スタイル

https://prtimes.jp/main/html/rd/p/000000027.000017379.html

サービス名】Live Sports Chatbot

概要日本チーム選手情報や、リアルタイムでの試合の実況情報などユーザーリクエストに対し、チャットボット自動応答。また特定選手についての質問や、過去の成績についても応答が可能

技術データスタジアムの「一球速報プラットフォーム」のデータベースから質問に対してチャットボットが応答。

本文引用一般的対話システムには、想定質問とそれに対する応答のQ&Aデータが予めインプットされており、ユーザーリクエストに対しそのデータベースから適する応答を返すというものが主流ですが、本サービスでは試合中、常に変化する実況情報リアルタイムユーザー配信します。』

この「リアルタイム」は「データベースリアルタイム更新されているだけ」であり、応答のセリフなどの部分については従来通りだと思われる。

【開発】Nextremer

英語学習AIロボットMusio(ミュージオ)、髙島屋と共に親子で英語に親しむ新しい体験提供

https://prtimes.jp/main/html/rd/p/000000012.000017199.html

サービス名】英語学習AIロボット「Musio」

技術音声認識(英語)、自然言語処理(英語)、対話モデル

英語対話データをもとに受け答えを行う。

本文引用会話内容だんだん覚えていく』

これはりんねプレミア(https://twitter.com/premieresao)と同じく、相手発言内容を記録していっている。

【開発】AKA

2017-03-02

LINE世界で負け続ける理由は、ニュースタブのことじゃねえよ、馬鹿

http://blogos.com/article/212112/

----------------------------

僕はLINEを愛してる。

愛してるがゆえにLINEをどんどん駄目にするLINE経営層が許せない。

はっきり言うが、彼らのやってることはグダグダだ。他社のチャットサービスが成長してる中、LINEが初めてユーザー数が減少したと言うがそれは当然だ。

説明しよう。

----------------------------

微妙にバズっているこの記事

多分に自己愛思い込みの強い著者が、アプリってのはこうグロースさせるもんなんだからそれをやれてないお前ら間違っている

一方的断じているもので、共感できるところは各タブに名前が入っていないことくらいのぶっちゃけ大して価値のない記事であった。

そもそもニュース領域twitterと違い、LINE株式会社側にLivedoor由来の編集チームがいてリソースが確保されている点、すでにLINENEWSという

基盤が存在している点で突然何の前触れもなくニュースを始めた日本twitterとはわけが違うだろう。

さら噴飯ものタイムラインについての評価で、まず誰も見ていないと断じているが、

リサーチベースではこんなものも出ている(http://gaiax-socialmedialab.jp/post-1891/

大体、広告事業としてのLINE ADS Platformは、このタイムラインベースにしたインフィードアドが中心であり、それで十分にマネタイズできている

ということは、タイムライン一定使われていて、広告インプ一定以上発生していることの証左だろう。

まり、この著者自体が、自分の見ている物事からしか評価判断のできない典型的な「マーケティング知らない人間なのだろう。

何をしてきた方かは存じ上げないが、いわゆるユーザーグロースのみをマーケティングであると思い込んでいるIT野郎

LINEニュースタブは、すでにユーザー一定以上グロースしている国内LINEユーザーに対してより多くの広告インプを発生させるためのレベニューグロース

としての側面が強いわけで、それも含めてマーケティングであるのだから、十分LINE現場も、経営陣もマーケティングを、経営理解していると言っていいだろう。

あ、後ユーザー数が減少と書いているけど、これはニュースタブを追加していない国についての話であって、そもそもの前提からしてもうめちゃくちゃ。調べずに書いてる感満載。


からこそ失望したのが、これなわけで。僕もLINEを愛しているけど、これはマジでないんじゃないか

http://jp.techcrunch.com/2017/03/02/line-clova/

----------------------------

スペインバルセロナで開催中のモバイルカンファレンスMobile World Congress(MWC) 2017」。そのキーノートにも登壇したLINE3月2日クラウドAIプラットフォーム「Clova(クローバ)」を発表した。

今後はClovaを搭載したアプリ「Clova App」を提供するほか、初の自社デバイスとなるスマートスピーカーWAVEウェーブ)」を今夏にも日本韓国で発売する予定だ。

今冬にはスマートディスプレイ「FACE(フェース)」の提供も控えるという。

----------------------------

要はAmazon Echoとか、Google Homeとか、スマートスピーカー領域(というか、音声会話をベースにしたインターフェース領域)に打って出るというわけだ。

これは一面ではすごく合理的に見える。つまりチャットサービスとしてユーザー間、ユーザー企業間でのコミュニケーションインフラ提供しているLINEが、textingから音声を介した

コミュニケーションインフラに舵を切るということ。事業の成長の向く先としてわかりやすい。

が。これ。マジで間違いなくうまくいかない。頓挫する。てかこれこそ、挑戦の美名に酔いしれてマーケティングを忘れた経営判断だろ、と思う。

何が問題か。答えは明白だ。 言語である

音声インターフェイスの要は、自然言語処理であり、発話された音声を正確に理解する技術にあるはずだ。

この点、AmazonGoogle基本的に「英語」という話者が圧倒的に多い言語に優先して開発を進めればよかった。現に英語自然言語処理はめちゃくちゃ進んでいる。

しかし、LINEは違う。英語圏ではまったく使われていないサービスなのだ。それどころか、LINEが浸透している主要国は日本台湾タイインドネシアの4カ国である

もうおわかりだろう。どの国も公用語がバラバなのだ

サービスを普及させるためには、地の利を生かすほかない。そういう意味英語圏は端から勝負しようがない。一方中華圏、圧倒的人口を誇るメインランドにはWeChatという

巨人存在し、市場に入ることすらできていない。

であるからして、浸透している主要4カ国で普及させる、という選択肢にせざるを得ないだろう。しかし、この4カ国ぶっちゃけ日本インドネシアしか1億を越える人口の国はない。

その上、GDPベースで考えてもスマートスピーカー短期的に人口膾炙するほど普及させられるマーケット日本と台湾しかない。

さらさらに、R&Dの視点からいって、4カ国それぞれの言語にあわせて自然言語処理一定水準まで高めるには、英語1つに絞って開発するのと比較して単純に4倍のコストと労力がかかる。

典型的な、労多くして実り少ない状況なわけだ。

どう考えても八方塞だ。

コミュニケーションプラットフォームである以上「言語」は避けて通れない問題。これを攻略する方法は正直、僕にはわからない。

からもはやLINEは、チャットサービスとして浸透している国の中で、その土台の上で、ニュースタブとかその他もろもろで、

きちんとレベニューグロースを続けるのであれば、ぜんぜん負け続けることなんてないのになーと僕は思います

事実世界でこんなに儲けているメッセージングアプリはないのだから、その時点で十分世界で勝ってんじゃん、と思うわけで。

経営陣には、熱病に浮かされることなく、着実に一つ一つできることを勝負して行っていただきたい、そう思う限りです。

2016-12-14

一部の層に"できない子"の存在が見えなくなっているのではという話

今秋、人工知能による東大合格を目指していた「東ロボくん」がその目標を断念したというニュースがあった。AI文章の読解(意味理解)が苦手である、というのが大きなネックだったようだ。

このニュース自体は、現在自然言語処理限界という観点からはそれほど驚くにはあたらない。だが同時に一つの問題が提起された。

「AIの性能を上げている場合ではない」──東ロボくん開発者が危機感を募らせる、AIに勝てない中高生の読解力 - ITmedia ニュース

AI研究者が問う ロボットは文章を読めない では子どもたちは「読めて」いるのか?(湯浅誠) - 個人 - Yahoo!ニュース

文章意味理解できない東ロボよりも、得点の低い高校生がいるのは、どういうことだ?」

「この高校生たちは、文章意味理解できているのだろうか?」

義務教育で、教科書文章を読める力は本当についているのだろうか?」

その実例として挙げられているのが次のような問題である

例えば「仏教東南アジア東アジアに、キリスト教ヨーロッパ南北アメリカオセアニアに、イスラム教北アフリカ西アジア中央アジア東南アジアにおもに広がっている」という例文からオセアニアに広がっているのは(   )である」という文の空欄にあてはまるものを選ぶ問題がある。

文章をしっかり読めば、答えがキリスト教であることは明白だ。しかし、全国約1000人の中高生のうち、約3割が正答を選べなかったという。他にも問題文に回答が書いてあるような同様の問題で、文章を正しく読み取れない生徒が一定割合存在しているという。

複雑な論理関係や推論の必要ない、むしろほとんど同語反復に近いこの問題に、中高生の3割が誤答したという。

この問題は文中の語の意味理解することを必要とせず、文中の語と語の関係だけから答えを導くことができる。すなわち"AIが解ける"レベル問題なのに、である

この事実は、ある種の人々にとって衝撃的なニュースとして受け止められたようである

だが個人的にはむしろ納得のいく結果であると感じている。自分公立中学校に通っていた時の実感と合致するからだ。"そういう子"は間違いなく、そして少なからずいた。

この"実感"を言葉説明するのはなかなか難しい。音読は(一応)できる。目で文字を追って発声することはできる、が、その文の意味が明らかに理解されていない。あるいは会話をしていて「アルファベータカッパらったらイプシロンした」くらいならまあ通じるが、「アルファベータカッパらったらイプシロンしたけどデルタがゼータにイオタしたかベータデルタシグマった」みたいになるともう通じない。時間をかけて一つ一つ説明すれば通じるのだが、とっさには理解されない。中学の段階でそういう子は間違いなくいたのである

40人のクラスで3割と言えば十数人というになろうか、決して盛りすぎとはいえないと思う。

しかし、ある一定の層、特にある程度以上の学歴があって、社会でもリーダーシップを取っているような層の人にとってこの結果が衝撃的だというのは、つまりそのような人たちに"そういう子"の存在が見えていなかった、ということだろうと思われるのだ。

ある種の人達に、別のある種の人達存在が見えなくなっている、それは社会にある種の分断を生んでいるのではないか

"そういう子"が見えなくなる背景には、中学受験存在があるように思う。少なくとも都市部では、親に経済的余裕があって子ども学力一定以上なら中学受験は当たり前になっている。それも今に始まったことではなく、もう数十年に渡ってそうなのである

中学受験してしまえば周囲は一定以上の学力の子ばかりになる。彼らはそれ以降"そういう子"とはぜんぜん関わらずに過ごすことになる。

もちろん中学受験組も、小学校公立であればその間は読解力の低い子らと一緒くたに過ごすことになる。だが、小学生の段階ではそういう観点から相手客観視するまでには至らないだろう。

そして思春期以降は一定水準以上の仲間たちに囲まれ小学校の頃にいた "(なんとなく)できない子" の多くがその読解や学習上の困難を克服できぬまま中学を巣立っていくことも知らず、やがてそういう子らの存在を忘れてしまう、こういうことがひょっとして起きているのではないか

もしそうだとしたら、それは社会的な分断以外の何物でもない。

学習に困難を抱える子どもをどうケアするかというのはもちろん大きな課題であるが、もし社会にかような分断が生じているとしたら、その克服も一つの社会的課題だろう。

2016-12-12

誰かアフィまとめキュレーションを徹底的に避けたgoogleに代わる検索エンジン作れない?

・アフィ対策

文面がかなり似通った感じになるので自然言語処理クラスタ化してまるごと排除

まとめサイト対策

まとめ先が時系列で先行してることが確定できていたら除外

趣味まとめ系は結構有用なのが少し悩むが…

キュレーションサイト対策

同上

記事類似性から時系列的に先行してる一次資料特定できる場合自動的に除外

2016-11-24

トランプ大統領になって一番困ること。

自然言語処理界隈ではトランプカード大統領

分類することに困っている。

2016-09-29

http://anond.hatelabo.jp/20160928204948

書いてあるスキルだけなら600万ぐらいで妥当じゃないかな。むしろ多いぐらいかもしれない

後はどういうことができるかで年収プラスされる

分析の仮説設定、実施内容の設計ができる

データサイエンスチームのマネジメントができる

マーケッターやエンジニア主体的コミュニケーション取れる

分析すべきテーマ自分で発掘できる

あとは求人出してる会社が求めてるスキルを持ってるかとか(画像解析、自然言語処理、DeepLearningなど)

技術的なスキルを活かせるビジネススキルがあれば年収結構伸びると思う。

2016-08-22

貧困女子高生問題に対して、はてなの「トピック」がクソな点

こんなトピックがあって驚いた。

トピック名を残さないためにここには書かないが、個人名が出てる。

http://b.hatena.ne.jp/topic/300605028622716658

もちろん彼女名前NHK放送されたもので公になっているし、

トピック見出しは、自然言語処理技術を用いて自動生成しております

ということだけど、個人名を含んだ中傷的なトピックはないんじゃないか

8/23追記:さすがに「貧困女子高生」になったか

2016-07-16

断言はしないが、チャットボットも関連ビジネスも機会はあるよ

はじめに





先日、はてな匿名記事で大きくバズってる記事があったので、拝見したが、何とも言い難い気持ちになった。

匿名記事なので、あえて私についての説明を加える必要はないかと思うが、某記事と近い立ち位置であることはご理解頂きたい。

チャットボットに関する議論方向性が見えないのは、チャットボットというワードによって、様々なものを一緒くたにしてしまっているかである

現状は、切り分けると実に多様である

チャットUIのものの「チャット」なのか、Facebook MessengerLINEなどのプラットフォーム依存の「チャット」なのか。

人工知能を用いた「ボット」なのか、単純に応答を返す「ボット」なのか。

今回は、プラットフォーム依存の「チャット」、単純に応答を返す「ボット」という意味でのチャットボット実用性についてお話したい。

そもそも、昨今のチャットボットブームというのは、Facebook MessengerLINEなどがプラットフォームを公開したことに依るもので、そこに新規性があるはずで、今しなければいけない議論はここにある気がしている。



チャットボットユーザーフィットするか



よく言われるのが、ユーザーは使うのかどうか、という話であるが、プラットフォームがβ版の最中で、今これを議論するのは時期尚早である

だが、在米時代Uberボットを使ってみたり、在中時代WeChatで色々とボットを試してみると、これがかなり便利なのである

私はそもそも電話が嫌いであるし、ウェブアプリを横断するのも面倒くさい。

その中で友人などとメッセージをやり取りし、そこからアプリを動かずに予約をしたり、企業に問い合わせたり、というのは手間が省けて実に良い体験であった。

では日本ではどうだろう。

ここは、まだユースケースが出ていないことが問題である

だが、若者世代含め、チャットアプリ生活の大きなパイを占める時代においては、当然求められても納得出来る。

であるからして、予約や定期的に購買するECデリバリーサービスメディア諸々、チャットだけで完結するようなユースケースは必ず出てくると思う。

そういったケースが増えていくと、「これはなんでチャットで出来ないんだ」という時代が来てもおかしくはない。

いろんなものネット可能になった時に、「なんで今の時代ネットで出来ないんだ」と思われたと同様に、だ。

チャットじゃなきゃダメなんですか?」ではなく、「チャットじゃダメなんですか?」という問が来る日もそう遠くはないかもしれない。

課題



一方で、課題は山積みである

今回、人工知能型ではないものに重点を置いたのは、人工知能型には課題が多すぎるからである

自然言語処理も精度は高くないし、無論、感情を読むなどはまだ先の話になるだろう。

そして、まるで人間ですよ、というものに対し、ユーザーが対人コミュニケーションを望むのは間違いない。

人間に話しているのに、およそ意味不明な回答が来たらユーザー離脱するだろう。

一方で、そもそも人間ではなくただのシステムだと認識していたらどうだろう。

今は、ユーザー企業も、雑談人間らしさはさておき、ちゃんと言ったことをこなすコマンド型のボットに期待すべきだ。

いわば、アプリチャットUIにして、コモディティ化しているプラットフォームで公開する、ということだ。

今までユーザーアプリに対して人間らしさ、などというものは微塵も期待していないはずで、そのようなボット像を目指すべきではないかと考える。

また、ユーザーに広く使われるためには、チャットボットと言えども、UXは非常に大切である

この点においては、プラットフォーム解決しようと頑張っている。

FacebookがQuick Replyという機能実装したことから見えるのは、

⑴そもそもユーザー発言に揺れが出ないように、最初から選択肢を用意しよう

ユーザーテキストタイプする手間を省いてタップだけで済むUIにしよう

ということであり、チャットボットが広く使われる上でのUIを見越していると思われる。

その上で、企業側も前述のようにプラットフォームが用意したUIいかにフル活用して、いかユーザーが使いやすものを作れるか、が非常に重要だと考える。





最後



多様なものが混合しているワード漠然差して、「これはない」というのは暴論だろう。

1VCさんが、この領域絶対ない、というのは新規投資スクリーニング有用だと思うが、それならば実名にし、そのVCではチャットボットサービスには投資しません。

と言ってしまった方がコスト削減になるのではないだろうか。3割もの方がチャットボットサービスについて話し、毎回同じ議論をしているのだとすれば、それこそ無駄である

なんなら、事業内容を聞いて、「チャットボット」というワードが入れば「事業内容を変えなさい」と返すチャットボットでも作ってみてはいかがだろうか。

こういった機会は、毎回必ず様々な議論を生み出すが、全員の意見が一致しないからこそ、投資価値があり、それを見抜いたものが勝つ業界だと思っている。

から、是非ともチャットボットサービスを考えている皆さんは、ちゃんと自身サービス価値を見極めた上で、頑張ってほしい。

チャットボットが来るかどうかは分からないので断言はしない。

だが、その不確実さこそ、次なるサービスが生まれる絶好の機会ではないだろうか。

2016-07-15

http://anond.hatelabo.jp/20160714211518

WEB企業研究開発してるけど、概ね同意

対話システムの分野では、タスク型と非タスク型に分けられる。

タスク型というのは、「テレビ付けて」「テーブルからりんご取って」

とか、指令を出すタイプロボカップとかはこっち。

それ以外の非タスク型は、いわゆるコミュニケーションロボットチャットボットで用いられるような、コミュニケーション自体目的としているもの

前者は、限定されたシチュエーションであれば結構良く出来てきてる。

多少のことばの揺れがあっても、ちゃんと認識してくれる。

ちゃんと使いどころさえ考えれば、ユーザーの期待を超えてサービスとして成功する可能性も高いだろう

だが非タスク型、テメーの出番はまだ先だ。

自然言語処理の現状の研究成果じゃ、それっぽい答えを返すのが関の山だ。

タスク型は、リラックスストレス低減、萌えなどの効果が期待されてるが、現状それっぽいことを返して、使用者勝手意図を推測してもらう使い方しかできない。

りんななんかも、ユーザーJKだと思って想像を膨らませて勝手に話してるだけ。だからこそ、コミュニケーション系でうまくいくには、

キャラクターの背景を綿密に設計

シチュエーション限定

③変な回答しても許して貰える対策

などが必要になってくる。

はっきり言って、これは人工知能の分野ではなく、ギャルゲーアニメドラマなどの経験があったほうがユーザーにいい体験を与えられるものが作れる。そんな段階。

からコミュニケーションできる何かを作りたいんなら、ゲーム開発者でも雇ったほうがいいよ。

2016-07-14

断言しよう、チャットボットブームは去るし関連ビジネスも失敗するよ

会社名を明かせないが、業界大手ベンチャーキャピタル所属している。

主な出資先は所謂ドルレイターと呼ばれる「成長、拡大期」のベンチャーである

私自身も一回事業立ち上げ、売却した経験を持つ。

さて、そんな私も最近起業前、もしくは新規事業を立ち上げようとしている方にアドバイスをすることが多い。

そしてその中でもここ1ヶ月は会う人の3割がチャットボット系のサービスアイデアを語るのである

「やめたほうが良い」と毎回アドバイスするのだが、毎回伝える3つの点についてここに記したい。

願わくばこの記事が広まり、浅はかな「対話サービス未来」を考えているベンチャーが断念し、より可能性の高いビジネスに切り替えて欲しい。

そしてこの記事を受けても尚、私の予測を上回り成功するチャットボットサービスが出てきてほしいとも思う。

前置きが長くなったが、以下3点がチャットボットが失敗する理由である

1. ユーザーの利用シーンが無い

一番の理由がこれだ。

ここで注意したいのが、 クライアント ではなく ユーザーである点だ。

よくあるチャットボット簡単ECサイトに導入できますサービスを事例に出してみよう。

彼らはこういった切口で法人クライアントに売り込む。

「今まで大変だった顧客対応チャットボット代替できます。」

チャットボット商品アピールをすることで売上が上がります。」

確かに正論に聞こえるし、無料キャンペーンや優先登録などに興味を示すクライアントは多いだろう。

プレスリリースを出せばクライアントの問い合わせは殺到するだろう。

しかし、その先のユーザーのことを考えているだろうか?

ユーザー商品についてわからないことがあった際に、いきなり得体の知れない自動応答システムに話しかけるだろうか?

そもそも埋込み型の顧客問い合わせサービス(zopimやolarkなど)について、ユーザーの利用率が5%未満に過ぎない事例が多いことを知っているだろうか?

私もこれらの問い合わせサービスに関わったことがあるが、日本人性質としてチャットボットにいきなり話しかけるしかも想定された問答を想定通りの言い回しで)例は少ない。

ユーザーが使わなければクライアントも離れる。

無料期間でクライアント数は増えるだろう。

また、少ない額であれば導入する事例も増えるだろう。

しかし、ユーザーチャットボットを使うシーンは少ないだろうし、結果として売上にもコストダウンにも繋がらないケースがほとんどだろう。

厳しい言い方をすると、話を聞くチャットボット関連サービスは現状、ユーザーのことを考えず提供者側の視点しかない マスターベーショナリサービス」

なのである

2. そもそも自然言語処理の精度はそこまで高くない

自然言語処理簡単説明すると、コンピュータが会話を理解し適切な回答を返す処理」である

この技術は現状、正直言ってそこまで高いレベルに達していない。

言い換えるならばユーザー期待値提供できる技術レベルの均衡が取れていない。それどころかユーザーの求める自然対話レベルにはほど遠く失望させるものなのである

よく非技術者創業者流行ものが大好きなコンサルが「Deep Learningの登場で自然言語処理の精度が高まり自然対話を実現できる」とドヤ顔で語るのだが、これは大きな勘違いだ。

画像認識については、「文脈」などその対象以外の外部要因が発生することは少ない。

その為、その特徴量を見出しやすDeep Learningを使用することで精度をかなり高めることが可能である

しかし、「対象のもの」以外にも文脈や発する人間パーソナリティなど様々な外部要因が発生する対話において、特徴量見出しづらい。

特に日本語主語が省略される、漢字の読み方で大きく意味が異なる、「空気」を重視する等のハイコンテクスト文化であり、自然言語処理は難しい。

その為にDeep Learningが自然言語処理を圧倒的に成長させ、機械であることを感じさせない自然な応答」可能にさせることはほぼ不可能なのである

そんな精度をユーザーが求めていないのでは?と思うのは提供者側のエゴだ。

自然対話自分の想定していない回答が続くようであればユーザーサービスから離れてしまうだろう。

3. 対話である必要性が無い

飲食店などの予約がチャットボットでできる」系サービスも良く聞く。

彼らには必ず「それってチャットボットである必要性ってあるんでしたっけ?」質問するのだが、納得のいく回答を得られたことは無い。

対話のほうがかっこ良い、対話でできたら未来っぽい、アメリカ流行っているから、実際にそんな浅はかな考えで通用するほどビジネスは甘くない。

対話によりニーズを深掘りできる」等もよく聞くが、2で挙げた通りそんなに自然言語処理の精度は高くなく、深掘りする以前に離脱してしまうだろう。

「なぜ対話なのか」

「なぜ対話でなくてはいけないのか」

「なぜ対話サービスが従来型のリストサービスを上回るのか」

これらの質問に自信を持って答えられるだろうか。

それができない限りはビジネスは成立しない。

今すぐチャットボット事業を畳み、↑の質問に答えられる別の何かの可能性を考えたほうが良い。


以上である

チャットボットブームは、クライアントが導入した後に「ユーザーに全く使われない」と気づきその悪評が広まる、あと半年寿命といったところだろう。

そんなチャットボットだが、現状で可能性があるとしたらチャネルの1つ」として使う程度だろう。

LineFacebookメッセンジャー組み込み、「既に展開しているサービス広報役割として活用する」、「メディア記事配信させる」役割であれば優秀なツールとなるだろう。

繰り返しとなるが最後にもう一度。

願わくばこの記事が広まり、浅はかな「対話サービス未来」を断念し、より可能性の高いビジネスに切り替えて欲しい。

そしてこの記事を受けても尚、私の予測を上回り成功するチャットボットサービスが出てきてほしいとも思う。


追記


一部コメントについて返信させていただきます

BtoBでの事例

そんなステマ記事をよく反例として書けますね...

導入事例のステマ記事メディアクライアントと内容は詰めている)はこの半年で沢山出てくると思いますが、実際の導入でコストが下がった、売上に繋がったという話は決して多く出ないだろう(むしろネガティブな話ばかりだろう)と私は予測します。

>「二次元アイドルとの会話」みたいな路線なら弾けるとこあると思うよ

これは私もそう思います。ただそのサービスだけでのマネタイズは難しく、記載した通り「チャネルの1つ」としての活用だと思います


>いま成功している企業に対して、過去の時点で成長すると断言できたのかな?

私の担当案件は同僚と比べてROIが高いほうだと自負していますが、それでも100%ではありません。

当然予期できていないものもありますが、ここで挙げた3つの課題クリアできない、もしくは突破できる切口が見つからない限り難しいだろうと考えています

また同時にそのようなサービスが生まれて欲しいという期待もしています

本名で書けばいいのに、VCなら。

君なら知っていると思いますが、VCといってもサラリーマンです。

君みたいなネットタレントでも私は承認欲求が強いわけでもないので、実名で注目されることでのメリットが無いのです。

>概ね合っているとは思うがこの人自然言語処理理解してなさそうだ

私のもともとのバックグラウンドエンジニアで、セキュリティソフト迷惑メールフィルタリングシステムを開発していました。

自然言語処理業務で取り扱ってきましたが、どういった点が自然言語処理理解が足りなそうか教えていただけますか?

まり冗長にならないように書いたのですが、不足している箇所があれば修正したいのでご教示いただければ幸いです。

>1.多くのユーザーは凸る前にカタログやQ&A等を見るでしょ普通ボットはその中間でしょ。2.検索性の悪いQ&Aよりはマシな可能性は? 3.何故に二者択一よ。

カタログやQ&A等を見るでしょ」

これがなぜ対話になるのですか?なぜチャットである必要があるのですか?いきなり不明点を話しかけると思いますか?

検索性の悪いQ&Aよりはマシな可能性は?」

検索性の悪いQ&Aよりはマシレベルのものビジネスとして成立すると思いますか?

チャットボットはゆらぎも含めた大量のインプットデータ必要です。

そのメンテナンス費用考慮すると検索性の悪いQ&Aを直せと言いたいですね。

「3.何故に二者択一よ」

対話システムとしてビジネスをするのであらば、対話である必要があるのか、なぜ対話なのかといった観点必要になると思いますいかがでしょうか?

なかなかご理解していただけないようなので、この質問をさせていただきます

あなたユーザーとしてチャットボット質問しますか?まだ使ったこと無い場合質問ができそうでしょうか?」


>まずもって中身のサービスが素晴らしく、それをチャットUI(また、それが載っているプラットフォーム)をもってレバレッジかけるような感じ

私もこれは完全に同意です。

既存製品の新たなチャネルとして、そのUIがフィットするのであれば良いかなと思っています

ただ、チャットボットですという売り方では難しいと考えています

(実際チャットボットでこれから生きていくみたいなビジネス相談が多いのです。)

>ナゼに増田にとは思うが、社員ならしゃーないとも。

理解いただきありがとうございます立場上、実名発言が難しいのですが、この「チャットボットで俺は生きていく」層が多くそれに警鐘を鳴らしたい、鳴らさなければいけないと感じ増田に書きました。


LOHACOチャットボット人件費削減に成功

ネットメディアの導入事例系はマーケティング的な要素が強く、またあの記事人件費削減の根拠曖昧です。

サービス広報としては優秀だったと思いますが。


ユーザー側が求めてるサービスの質次第なんじゃないかな。未成熟技術分野だからこそ、提供者側が工夫すれば良いだけ。

工夫というのは同意です。

ただ現状、完全自由対話インタフェースを用意すると、ユーザー期待値サービスが超えることは無いと考えています

ある程度選択肢を絞らせる、スタンプを使うなど「工夫」がなければ難しいでしょう。

またその工夫でもこのインタフェースだけでビジネスとして成り立つかというと...我々は慎重に考えています

複数人が入っている部屋での稼動があると思うんだ。

アイデア面白いと思います

趣味Slack上で司会進行的に喋るBotを仲間内で開発しましたが、これは非常に面白かったです。

ただ、やはりビジネスとなり例えば1,000社が有料で導入するレベルのものかというと...

成功しそうなの教えて

そうですね、ポジティブな話もしないとですね。

個人的にはBIツール可能性がまだまだあると考えています

からあるものですが、どうもインタフェース特殊で事例が中小企業規模まで降りてこない。

Google Analyticsの焼き直しや、他の埋込み型トラッキングサービスも伸びています

コンシューマ向けだと、所謂CtoCにはまだ可能性があると思っています

炎上しましたが、個人の写真売買など「今までプロ提供してたけど素人でも提供できる、かつ流通量が多いもの」に可能性はあると思います


更に追記

うご覧になる方はほとんどいないと思いますが、最後の追記です。

予想以上の反響をいただいて驚いています

活用方法や実際の導入の声など、参考になるコメントもたくさんいただけて私自身も勉強になりました。

はてなの方から他のシリーズもやってくれとコメントを頂いたので、IoTやVRなど他のトレンドについての課題も今後「増田で」挙げていこうと思います

これらの意見をいただいても尚、ビジネス化をしていくには難しいだろうと私は考えています

それほど、私が挙げた3つの課題クリアしかビジネスとして回していくことは難しいからです。

そして、同時に未来はどうなるかわからんぞ」といった意見には賛同します。

Webアプリも「こんなもの流行るわけがない」という世論があった中で、ここまでの発展を遂げています

「若くチャレンジしようとする芽を潰すな」という意見もありましたが、そもそもこの意見を聞いて諦めるような起業家ではその先にある苦難に立ち向かえないでしょう。

もともと「チャットボットが新たなインタフェースになるんだ」と確信し強い気持ちを持っている起業家は、こんな意見を聞いても全く諦めようとはしません。

私も実際、起業前の方に「止めておいたほうが良い」と伝えたことは何回もありましたが、それでも彼らは起業サービスローンチしています

私自身もそうでした。みんなに反対される中、当時全く広まっていなかった人工知能系のベンチャーを立ち上げました。

勝手ながら彼らの信念がいつの日か実り、少しでも世の中に良い影響を与えられる存在になってほしいと思っています

VC的にはIPOか売却というゴールを期待してしまます(笑)

私が本当に警鐘を鳴らしたかったのは、どちらかというと「チャットボットが万能だ」、「チャットボットで何でもできるようになる」と伝えるメディアコンサルの方です。

口々にチャットボットだと言って誰にも使われないサービススタートアップを量産しようとしている話を聞くと心が痛みます

過度な期待をしたくなるのはわかりますが、私が挙げた3つの課題はどうしても避けては通れません。

起業家の方々が「周囲の過度な期待」に流されず、これらの課題から目を逸らさず、新しいインタフェース開拓してくださることを期待しています

上から目線のようですみません。ただ立場抜きにして1ユーザーサービス享受する1人の人間としても期待しています

最後

過激表現などを使ってしま申し訳ありませんでした。

多くの方にご覧いただきたいということもあり、こういった表現使用してしまいました。

特にけんすう氏にも良くない表現を使ってしまいました。申し訳ありませんでした。

ここにお詫びいたします。

2016-06-04

[]よくある質問

真面目に答えず、出来る限り嘘と虚構を織り交ぜて答えていきたい。

Q.ネットで滅茶苦茶な文章をよく見るのですが、あれは何なのでしょうか。

広義的にいうならスパムだな。

で、この文章がどうやって作られているかというと、主にコンピューターによって自動生成されている。

自然言語処理には「形態素解析」や「構文解析」などの技術が用いられているのだが、よく分からないのでスキップしよう。

で、それらが文法を解するのだが、致命的な弱点がある。

文章意味”を解さないんだ。

まり、それで出来上がる文章文法的には正しく見えるかもしれないが、文意がないので支離滅裂になる。

言語障害を「ワードサラダ」と通称することがあって、そこからこのスパムはそう呼ばれるようになった。

これの厄介なところは、検索エンジンがそれら支離滅裂文章スパムとして弾くことが困難なことだろう。

ザックリいうなら、コンピューターが書いたものなのだから、それはコンピューターにとって「正しい文章」だと判断される、と考えてくれ。

SEO(検索エンジン最適化)にとって、ワードサラダ対策永遠課題……らしい。

このようなことをする目的としては、労力なしに広告収入を得るため、SEO妨害とか愉快犯など、人によって目的は様々のようだ。

誤解してはいけないが、自動文章を生成する技術自体が悪いのではなく、それの利用方法問題であることは知っておいたほうがいい。

2016-05-13

はてブ不適切な「トピック」を変更できるようにしてほしい

トピック機能→割と最近はてブエントリーに吹き出しマークと一緒に表示されるようになったアレ。

http://i.imgur.com/iN43DgH.png

例えば三菱記事には「三菱自燃費不正」のトピック自動付与される。自動付与される。大事ことなので(ry

 

インターン生に死体蹴りを浴びせた挙げ句自称本人から反省文を投下して盛大に炎上しているMTRLとかい会社

たくさんの関連記事はてブに上がったので、めでたくトピック付与された。…が、そのトピックがこれ。

 

http://b.hatena.ne.jp/topic/300602783541852586

“【#ゆとりですがなにか 】MTRL世代のゆとリアル

 

なんだこれ?まるで「これがゆとりリアルだ!(会社は悪くない!)」と言わんばかりではないかトピック主題)として不適切すぎる。

無関係ドラマタイトルTwitterタグのように入っちゃってるし。

このトピック名は、5/12(木)付けでMTRLブログに書かれた記事タイトルだ。ブクマしたユーザ数は5/13(金)現在わずか6人。

同日にはあの青春基地彷彿とさせる自称本人から反省文が投下されており、こちらをブクマしたユーザ数は465人。ちなみに大元炎上記事は701人。

他の関連記事ほとんど6人以上のブクマを集めている。なぜよりによって「MTRL世代のゆとリアル」をトピックとして選出したのか疑問だ。

もちろん、自然言語処理自動的に付けられたものから仕方のない部分もある。問題は、不適切トピックを変更(あるいは通報)する手段が、ざっと調べた感じ見当たらないことだ。

これははてな的にも問題ではなかろうか。仮にこの先三菱自動車ポジティブ話題があったとして、皆がおめでとうおめでとうとブクマする中、

間違って「三菱自燃費不正」みたいなトピックが付いたら一気に冷めるだろう。トピックだけ見て、あーあまたやらかしたのかと勘違いする人もいるかもしれない。軽く営業妨害だ。

 

という訳で、ある程度ユーザからフィードバックを受け付けてトピックを変更できる仕組みなんか導入できませんかね。

マイナス評価の多いトピック自然言語処理解析をやり直して、2番目に妥当判断したトピック名に自動で切り替えるとか。お願いします。(エアリプ

2016-04-15

イケてる人工知能研究者の見つけ方

ちまたでは人工知能ブーム

多くの企業人工知能を使ったサービスをやりたいと思っていることだろう

しかし大体の企業人工知能研究者なんか抱えていないのでアカデミックにいる研究者リーチしてくるはずだ

ではどういう研究者リーチすればいいんだろうか?

今だと新聞にも人工知能機械学習研究者へのインタビュー記事が良く掲載されている

そういう研究者リーチすればいいんだろうか?

答えはノーだ

新聞インタビューに出てくるのは「昔すごかったけど今はあんまりタイプ」か「研究派閥がすごいタイプ」のどちらかだ

現役でバリバリやっている研究者を見つけるには業績が一番てっとりばやい

特に人工知能を含むコンピュータ科学の分野では国際会議(カンファレンス)が重要視されている

なかでもトップカンファレンスものすごくレベルが高くグーグルマイクロソフトリサーチなどIT巨人たちが切磋琢磨している世界

分野ごとのトップカンファレンスは大体以下のような感じだと思う

(*がついているものは第一線からすこし落ちる印象)

若手に限らず日本トップカンファレンスに通せている人は多くはない

上の会議に2本以上通せている人がいたらその人はホンモノだ

※細かことをいうと著者順も重要だがそれは省略

2015-10-12

プログラム自動生成した増田投稿するのが楽しすぎる

過去増田教師データにして、文章自動生成するプログラムを書いた。基本的には、増田に付いたブクマ数に応じてトピックに点数を与え、ホッテントリ入りしそうな記事を生成するという仕組みだ。自然言語処理に関する既存ライブラリに、最近論文誌や国際会議で発表されたいくつかの研究成果を独自に組み入れた環境ベースになっている。

自動生成した文章を立て続けに投稿することはスパム行為に当たると思うので、投稿は一日当たり数件程度にとどめているが、これまでの成果は上々。ブコメには、増田の内容に合わせて、真面目な意見とか批判とか共感とか大喜利が書き込まれている。

あなたドヤ顔ブクマを付けたその増田、うちのプログラム勝手に書いたやつですよ。

2015-09-28

[]トピック見出しわけわかめ

はてなブックマーク10周年新企画として導入されたトピック機能

トピックリスト上の見出しと、個別トピック開いた時の見出しが違ってわかりづらい。

http://b.hatena.ne.jp/topiclist

  

VWディーゼル排ガス不正問題を例にとる。

  

トピックリスト上では「独VW排ガス不正」、個別トピック開くと

vwって何? - はてなブックマーク

http://b.hatena.ne.jp/topic/300615183698808978

トピックリスト上では「BMW排ガス制限超え」、個別トピック開くと

フォルクスワーゲンって何? - はてなブックマーク

http://b.hatena.ne.jp/topic/300597687033236877

トピックリスト上では「欧州でも不正認める」、個別トピック開くと

vwって何? - はてなブックマーク

http://b.hatena.ne.jp/topic/300597724437095345

  

トピックリスト上の見出しと、個別トピック開いた時の見出しをわざわざ変える理由は何?

そもそも個別トピック見出しが「vw」「フォルクスワーゲン」「vw」ではニュース内容の説明に全くなってない。

  

自然言語処理技術を用いたタイトル自動生成がウリらしいが、その結果がこれ?

はてなブックマーク10周年新機能トピック」 - はてなブックマーク

http://b.hatena.ne.jp/10th/topic

自然言語処理技術を用いたはてなブックマークの新機能トピック」をベータリリースしました - はてなブックマーク開発ブログhttp://bookmark.hatenastaff.com/entry/2015/02/05/190331

はてなブックマークトピックページの裏側 - Hatena Developer Blog

http://developer.hatenastaff.com/entry/2015/02/12/165918

  

ベータリリースらしいが、2月リリースして半年以上経ってこの状態

リリースしただけで満足して放置してない?

実際に自動生成された見出しを人の手でチェックし、十分でないなら人力で見出し修正

また、自動生成の見出しが人力修正相当になるようプログラムを改良したりしてますか?

  

トピック機能のコンセプト自体は素晴らしい。

トピック見出しを追うだけでニュースの経過がざっとわかるようになれば嬉しい。

しかし今のままでは、使いづらい→利用者増えない→サービス需要ないんだ→開発放置、の悪循環になりそうで。

  

まずは個別トピック見出しトピックリスト上の見出し統一してもらいたい。

アーカイブ ヘルプ
ログイン ユーザー登録
ようこそ ゲスト さん