はてなキーワード: ビッグデータとは
マーケティングというのは煎じ詰めて言えば、「人々の欲望についてきちんと把握し、その上でその欲望を適切に刺激できるような製品や広告などを打ち出す」という行為のことである。
しかし人類が都市型文明を獲得して以来今日に至るまで、マーケティングは極めて初歩的で幼児的な段階から進歩できていなかったのではないだろうか。テレビやラジオ、インターネットといったメディアは発達してきたものの、しかしマーケティングの方法論が見違えて発達したかと言えばそうではなく、何なら19世紀的と罵倒してもいいくらいには幼稚な状態のままだった。
特に、「人々の欲望についてきちんと把握する」という行為においてその幼稚さは目立っている。「欲望を刺激しうる製品や広告」を作れないのはままあることとしても、前者の行為はやはりコンスタントに達成されていなければならないところのものであろう。
一言で言えば「ビッグデータの活用」なる行為はマーケティングの歴史にブレークスルーを起こしたのではないだろうか。
例えば天下のtsutayaなんかはこれらの「ビッグデータ」を使うことをほぼ公然と行っているし、あるいは米グーグルはクロームブラウザを利用する人々のブラウジングの傾向を個人単位で事細かに記録しまくっている。年代ごとの嗜好傾向、個人個人の嗜好傾向、こういったものが暴かれることによって、更なる洗練されたマーケティングが現代において達成されるのではあるまいか。21世紀はようやく来たり。
流行キーワードの移り変わりの速さがやはり軽薄さを醸し出してるのだと思う
今やクラウド、ビッグデータに次ぐキーワードになったDevOps。だが前者2つが通過したようにDevOpsも言葉だけが先行している段階にあり、その意義や価値に対する理解はまだ浸透しているとはいえない。ではなぜ今、DevOpsが必要なのか? DevOpsは企業や開発・運用現場に何をもたらすものなのか?――本特集では国内DevOpsトレンドのキーマンにあらゆる角度からインタビュー。DevOpsの基礎から、企業や情シスへのインパクト、実践の課題と今後の可能性までを見渡し、その真のカタチを明らかにする。—
そのslideshareの人はただのgiftedなのでもう少し他のを参考にした方がいいと思う。
機械学習に興味を持ってビショップ本に行くのもあまりお勧めできない。
過剰にベイジアンだし実際問題あそこまで徹底的にベイズにする必要は無いことも多いから。
よく知らんけどMRIとかの方面もだいぶ魑魅魍魎なので(DTIとか微分幾何学的な話がモリモリ出てくる)、
近づくなら覚悟と見通しを持ってやった方がいいんじゃないかなあという気はする。
オライリーの本は読んだことないけど悪くなさそう。「わかパタ」とか「続パタ」とかは定番でよい。
ビッグデータがどうとか世間では言ってるけど、データのビッグさはあんま気にしなくていいと思う。
ビッグデータを処理するためのインフラ技術というものはあるけど、数理的な手法としては別に大して変わらない。
(オンライン学習とか分散学習とかの手法はあるけど、わざわざそっち方面に行く意味も無いと思う。
超大規模遺伝子データベースからパターン検出したい、とかだとその辺が必要かもしれないけど…)
数学については、線形代数は本当に全ての基礎なのでやはり分かっておくとよい。
「キーポイント線形代数」とか「なっとくする行列・ベクトル」とか、他にも色々わかりやすいいい本がある。
(まあ固有値と固有ベクトルが計算できて計量線形空間のイメージがわかって行列式とかトレースとかにまつわる計算が手に馴染むくらい。ジョルダン標準形とかは別にいらん)
プログラミングはそのくらいやってるならそれでいいんじゃないか、という気はする。行列演算が入る適当なアルゴリズム(カルマンフィルタとか)が書けるくらいか。かく言う俺もあまり人の事は言えないけど。
処理をなるべく簡潔かつ構造的に関数に分割したり、抽象化して(同じ処理をする)異なるアルゴリズムに対するインターフェースを共通化したりとかのプログラミング技術的なところも意識できるとなおよい。
ggplot2は独自の世界観ですげえ構造化してあるんだけどやりすぎてて逆に使いづらい…と俺は思う…。
遺伝子のネットワークとかなんかそれ系の話をし出すと離散数学的なアルゴリズムが必要になってきて一気に辛くなるが、必要性を感じるまでは無視かなあ。
プログラミングの学習は向き不向きが本当に強烈で、個々人の脳の傾向によってどうしたらいいかが結構異なる気がしてる。
向いてるなら割とホイホイ書けるようになっちゃうし、向いてないなら(俺もだけど)試行錯誤が必要になる。
まあせいぜい頑張りましょう。
ちなみに現2chユーザーで、Jimが降臨したスレにも何度か出くわしたことがあります。
Jimはそもそも、最初潰したいのはログ速のような過去ログのミラーサイトだった。
ミラーサイトはまとめブログの影に隠れているものの広告をバッチリ掲載しており、特にログ速のような巨大なサイトは多額の広告収入を得ていると考えられる。
で、元々ひろゆき体制の時はモリタポや●が主な収入源だったのだが、Jimは広告を収入源とするビジネスモデルに転換したいと考えていた。
(その後新たにモリタポと似たシステムの「浪人」が出てくるからややこしくなるのだが、当初はそのように説明していた)
そこで、ビジネスモデルの転換に伴って今までモリタポか●が無ければ見られなかった2chの過去ログを自由化することで、現行スレに加えて過去ログの方からも広告収入を得ようとしていた。
しかし現状は多くのミラーサイトがあり収益性が悪いので、Jim体制になってからはミラーサイトを積極的に潰そうとしている。
現にUnkarやRead2chのようなJim体制になってから潰れたミラーサイトもあって、ログ速も何度か機能停止に陥ったことがある。
今はログ速側が対策したのか、ログ速やデスクトップ2chのようなミラーサイトは普通に機能している状態だけど。
で、ここからが状況を非常にややこしくしている原因なのだが、Jimは言語の壁もあってか当初まとめブログ=ミラーサイトと勘違いしていたのだった。
だから、はじめのうちは「まとめブログを潰そう!」と意気込んでいる2ch住民にJimも強く同調していた。
しかし、Jimの言うまとめブログはミラーサイトだったので、ミラーサイトへの対策は厳しくされるものの、2ch住民などが言う本来の「まとめブログ」への対策は一向に成されないのであった。
(ちなみにそのJimの誤解は、住民との交流の結果今は解けている)
そもそも2chの広告で儲けるJimのビジネスモデルと、2chの書き込みを再構成して広告で儲けるまとめブログのビジネスモデルは今のところあまり競合していないんだよね。
むしろ、まとめブログのおかげで2chへの流入が増えるのなら、JimにとってまとめブログはWin-Winの存在にすら成り得る。
まあ、住民的にはまとめブログに強い反感を持っている者が大半なので、住民の意向を無視し続けるとν速→嫌儲のような大移動が起こる可能性は0ではない。
(もっとも今の2chの住民数をカバーできるだけの強いサーバーを持っている掲示板なんてそうそう無いのだが)
だから、移住が起こらない程度に住民の溜飲を下げるために、Jimは「対策するよ」と口では言っている。
また一応、実際にスレッドのタイトルに「転載禁止」の言葉を付けるような仕様にはなった。
だけど、住民が移住しない限りはSCやまとめブログを潰すメリットが殆ど無いので、まとめブログに対する根本的な対策はこれまでしてこなかったしこれからもしないんじゃないかと思う。
あと住民もなんだかんだ不満は持っているものの積極的に動く案もあまりなく、一枚岩になって動くことも出来ないので消極的ながらも現状を容認しているのが今の状況です。
だから、元増田のブコメのid:sisyaさんの指摘はかなり的確だと思う。
全員探られたくない腹持ちながらも利益奪い合ってる同士なのだから、利益そのものをつぶしたいユーザの声を聞く人間などどこにも居ないことなど最初からわかっていたことなのになと思ってみていた。
今後大きく変化する可能性があるとしたら、Jimがtogetterのようなまとめブログの役割を持つプラットフォームまで運営しようとするか、あるいは2chの所有権を本格的に裁判で争うかのどちらかだと思うけど。
ただ、現状はJimが2ch、ひろゆきがビッグデータとまとめブログ(?)からの収益でそれぞれ甘い汁を吸えてるので、まあ当分は大きく変わらないんじゃないんですかね。
「人工知能が人間の職を奪うについて」と日記をはじめると非常にSF的ではあるんだが、思考実験として一つやってみる。
実を言うとこんな人工知能、すでにある。適当なところからコピペして自分のblogに記事を転載するbotなんて、ちょっとプログラムをかじればすぐ作れる。
そしてこれはちょっと本腰を入れて研究すれば、すぐにかなり高性能になるだろう。
「どんなふうな記事がより注目(=ブックマークとかアクセスとか)を集められるか?」というのは評価関数を作るのがとても簡単なので、ベースとなるデータの巨大さと機械学習で順調に成長させられる。記事のまるパクリ問題も、何も真っ正直に「人工知能として本当に文脈を理解して人間的な意味で記事を書く」必要なんてない。
http://graphics.cs.cmu.edu/projects/scene-completion/scene-completion.pdf
この論文みたいなアプローチで記事を一つの画像だと見立てれば部分を差し替えることは可能だろうし、語尾や語彙の置きかけは、それこそ巨大置換でどうとでもなる。
人間が日ごろ、ほう、ふむふむなんて巡回できるblogの数なんてたかが知れているし、機械がクロールで回収できる記事の数は莫大だ。年末年始の記事やどこそこの店に行って何々がうまかったなんて記事は毎年のようにループしている(学習ネタとして最適だ)。
この種の(人工知能と呼べるほどに高度になった)botはそのべらぼうな処理能力にあかせて、アホみたいな数のサイトを運営できる。登校時間やバナーの位置やサイトデザイン、コピーの文章もリアルタイムで評価関数をぶんぶん回すbotは阿呆みたいな速度で自己進化できる。もちろんプロバイダやらが何らかの対処をする可能性もゼロではないけれど、しかしそれもほとんど意味がないだろう。回線の向こう側からは規制する根拠に乏しい。もちろんコピペもととなった記事を書いた人間からすればパクリであり著作権違反だが、それを証明するのは手間だし、照明をあきらめるほど飽和攻撃を行う処理速度がbotにはある。また、人工知能的な記事合成、変換、結論変更、文章アレンジは、しばらくすればパクリをパクリだと証明するのさえ難しくしてしまうだろう。何せblogの記事というのは画像と比べて10%とか5%以下の情報量しかないのだ。
まあ、とにかく、こういうbotはすぐ開発できるだろう。現在の技術でもほとんど可能だし、数年以内には実用化できる。
で本題なのだが、こういうbotができたらどうなるか? そりゃ、投入するでしょう。ちょっぴり初期投資をしてあとは寝てるだけで、阿呆みたいな数のアフィサイトを運営できるようになる。なんらかのステマサイトも似たような手法で運営できるようになる。ちょっとの技術でネオニート生活! 投入されないわけがない。
そしてひとたび投入されれば、それは加速度的に高性能になっていくだろう。機械学習の結果出力っていうのはだいたいサンプルにする学習母体データの大きさや質に左右される。Webに解き放たれたクローラーはありとあらゆる泡沫Blogまで咀嚼を始めるので、その出力の制度はどんどん上がっていくだろう。
PVを金に換えるビジネスというのは一時的に大好景気になって、次の瞬間に価格破壊されるだろう。人件費が限りなくゼロに近づいてゆき過当競争になるからだ。
その世界では「人間がblogの記事を書く」という行為の価値が果てしなく低くなるだろう。そこでははてなスター獲得競争の相手がbotになってしまうからだ。相手はたしかに人間よりも記事を書く技術が低いかもしれないが、無尽蔵の体力を持ってるし、blog記事なんてそもそも10本書いて1つが注目集めればそれでいいような世界なのだ。1万本書いて9999本はずれでも構わないやつが出てきたら、体力勝負で勝てやしない。
この状況が長引けば、アフィリエイトというビジネスモデルそのものも破壊されるだろう。いやそもそも、アマチュアが公開の場所で記事を書くという文化そのものが破壊される可能性もある。
Webの世界は会員制のFacebookやGoogle+みたいなもので分断され、今度はその内側から個人の記事をビッグデータにぬいていくBotが蔓延するだろう。
こういうBotは廉価なサーバーマシンで動かすことができる。実際作ってみないとはっきりとは言えないが、それこそ数百体動かせる可能性もある。性能が十分に周知されれば、「日本語のBlog記事を書く人」よりも「日本語のコピー合成記事を作成するBot」のほうが多くなることは、けっしてありえない状況ではない。
事ここに至って、人工知能は「あるジャンルの職を奪う」ことに成功する。奪われるのはアフィリエイトで暮らしていた人間のBlog書きだけではない。それを端緒に広報を生業にしている多くの人も職を奪われる可能性がある。状況はおそらく大混乱にちかくなるので、今の時点では、この種のムーブメントにおいて電通博報堂のような広告代理店が大きく成長する可能性もあるし、致命的な打撃を受ける可能性もある。成長するにした所で、今のような体育会系的営業の会社で居続けることはできないだろう。開発や分析の理系部署が今の10倍以上の大きさになるだろう。グループインタビューなんかやるよりも、匿名掲示板のログから消費行動の傾向を出したほうがよほど精度が高い企画が作れてしまう。
人間の職を奪う、というのはこういう光景を雇用面から減少を表現した言葉であって、実際に起きることは雇用の減少だけではない。文化や消費行動の破壊ともいえる変化だ。
★地方公共団体とか国とかの公的団体は、所有している普通預金口座・当座預金口座、郵貯口座を、
ネットでリアルタイムで開示するシステムを入れてみてはどうか?
(但し、個人との間の入出金取引は、個人情報の関係で個人名だけマスキングする。
★例えば
「茨木市名義の、関西アーバン銀行当座預金口座の、10月3日の入出金状況」を、
「こういう業者に市は34万円支払ったんだ」
と全てガラス貼りになる。
★恐らく全法人の法人税・固定資産税・消費税等の納税情報が、全てガラス張りになる結果になる。
つまり、全ての企業の納税額や対政府・自治体取引が開示されることになる。
「それは問題だ」という意見もあるだろうが、そもそも法人税納税情報は、隠すべき情報なのか?
★全ての政府・自治体の入出金情報をガラス張りにするだけじゃなく、
そのデータをCSV形式で自由にダウンロードできるようにすれば、それを使った各種ビッグデータ解析が生まれる。
企業の与信調査とか、こういうガラス張りシステムがあれば、ものすごく捗る
極々一部に本当に優秀な方もいるが、その他大勢がお察し。
「私はプログラミング全くわかりませんがマネージメントやっています!」なんて嬉しそうに言っている社員がいる時点で気付くべきだった。
「ビッグデータやクラウドに注力していきます!」なんて言っている社員が統計もサーバーに関する知識もない時点で気付くべきだった。
「グローバルに頑張って行きたい」とか言っている同期が実は海外にツアー旅行しただけだったと気づいた時にはもう遅かった。
個人情報のトレーサビリティなんて無理がある。例えば既に出回っている情報には対応できないし、悪意のある業者には対応できない。住所と氏名と電話番号というのは、通販を一度使うだけで漏れてしまうので、その流通を防ぐのは難しい。
個人情報の販売を禁ずることも難しい。そうすれば大手企業だけがビッグデータを独占することになって寡占を生みかねない。もし名簿販売を禁止したら、学習教材でも成人式のレンタル着物でもなんでもいいが、そういうビジネスが大手企業に極端に有利になってしまう。
いろいろ考えてみると、ベネッセの件で個人情報流出が発覚したのはマンション名を少し変えていた用心深いユーザーがいたことにある。それと同じように住所のエイリアスを使えるようにするのはどうだろうか。
例えば「千代田区千代田1-1-1-201 BNS」とか「千代田区千代田1-1-1 千代田コーポ201 HATENA」といった住所を使えるようにする。
もちろん悪徳業者はエイリアスを削除するだろうが、それは現在と変わらない。重要なのはもしエイリアス削除は違反にすれば、少なくともジャストシステムのような大手企業がやることはなくなる。利用者の使い方にもよるが、DMが来たのはどの会社に登録したものなのか、いつごろ登録した情報なのか判別できるようになる。今すぐコストをかけずに個人情報のトレーサビリティが行える。エイリアスを使い続けば、「うわ、なんのエイリアスもないDMが来た。超怪しい」といった判断もできるようになる。
とりあえずアイデアとして考えてみた