「ビッグデータ」を含む日記 RSS

はてなキーワード: ビッグデータとは

2015-07-26

DMMあたりが、ソフトバンクペッパーを真似て、エロロボット販売してくれないかなあ。

オッパイデバイスとかつけて、クラウドでみんなの変態趣味ビッグデータ収集すんの。

2015-06-10

アプリとかで、痴漢報告してもらって、時間GPS情報取ってビッグデータ集めるだけでも

かなり対策できそうなもんだけどなあ。

2015-05-26

数学を避けてきた人が機械学習勉強とか

むりじゃね?

http://qiita.com/daxanya1/items/218f2e3b922142550ef9


記事タイトルからして思いっき違和感あるんだけど、なんで数学を避けてきたやつが機械学習なんかやろうとするんだ

couseraの講義ですら途中で挫折すると思うわ

線形代数もおぼつかないような奴らがプログラマとして生きていけるのかよとまでは言わないが

数学日常的に扱ってきたような人じゃないとこの分野は厳しいと思う

deep learningや人工知能ビッグデータなんかの言葉にあてられて入門記事ブクマ乱れ打ちしてるそこのお前

断言するが、いつまでたっても実用レベルの知識は身につかんよ

本当にやりたいなら数学から逃げるなよ

2015-05-24

http://anond.hatelabo.jp/20150524165143

ビッグデータの有名な話に「本人すら気づいていない妊娠を購買履歴から発見した」という逸話があるんだ

2015-03-02

マーケティング19世紀から21世紀

 マーケティングというのは煎じ詰めて言えば、「人々の欲望についてきちんと把握し、その上でその欲望を適切に刺激できるような製品広告などを打ち出す」という行為のことである

 しか人類都市型文明を獲得して以来今日に至るまで、マーケティングは極めて初歩的で幼児的な段階から進歩できていなかったのではないだろうか。テレビラジオインターネットといったメディアは発達してきたものの、しかマーケティング方法論が見違えて発達したかと言えばそうではなく、何なら19世紀的と罵倒してもいいくらいには幼稚な状態のままだった。


 特に、「人々の欲望についてきちんと把握する」という行為においてその幼稚さは目立っている。「欲望を刺激しうる製品広告」を作れないのはままあることとしても、前者の行為はやはりコンスタントに達成されていなければならないところのものであろう。

 しかし昨今ではそういった状態も改善されている感がある。

 一言で言えば「ビッグデータ活用」なる行為マーケティング歴史ブレークスルーを起こしたのではないだろうか。

 例えば天下のtsutayaなんかはこれらの「ビッグデータ」を使うことをほぼ公然と行っているし、あるいは米グーグルクロームブラウザを利用する人々のブラウジングの傾向を個人単位で事細かに記録しまくっている。年代ごとの嗜好傾向、個人個人の嗜好傾向、こういったものが暴かれることによって、更なる洗練されたマーケティング現代において達成されるのではあるまいか。21世紀はようやく来たり。

2015-03-01

http://anond.hatelabo.jp/20150301005942

流行キーワードの移り変わりの速さがやはり軽薄さを醸し出してるのだと思う

言葉で焦がれて言葉に踊る。まさに山師です

今やクラウドビッグデータに次ぐキーワードになったDevOps。だが前者2つが通過したようにDevOpsも言葉けが先行している段階にあり、その意義や価値に対する理解はまだ浸透しているとはいえない。ではなぜ今、DevOpsが必要なのか? DevOpsは企業や開発・運用現場に何をもたらすものなのか?――本特集では国内DevOpsトレンドキーマンにあらゆる角度からインタビュー。DevOpsの基礎から企業情シスへのインパクト実践課題と今後の可能性までを見渡し、その真のカタチを明らかにする。—

2015-02-18

http://anond.hatelabo.jp/20150218162522

そういう間違った「ビッグデータ」の使い方が、不幸を招くんだよ。

既にビッグデータの失敗事例も多数報告されているから、ちゃんと勉強してからコメントしなさい。

2015-01-28

http://anond.hatelabo.jp/20150127103835

そのslideshareの人はただのgiftedなのでもう少し他のを参考にした方がいいと思う。

機械学習に興味を持ってビショップ本に行くのもあまりお勧めできない。

過剰にベイジアンだし実際問題あそこまで徹底的にベイズにする必要は無いことも多いから

よく知らんけどMRIとかの方面もだいぶ魑魅魍魎なので(DTIとか微分幾何学的な話がモリモリ出てくる)、

近づくなら覚悟と見通しを持ってやった方がいいんじゃないかなあという気はする。

オライリーの本は読んだことないけど悪くなさそう。「わかパタ」とか「続パタ」とかは定番でよい。

ビッグデータがどうとか世間では言ってるけど、データビッグさはあんま気にしなくていいと思う。

ビッグデータを処理するためのインフラ技術というものはあるけど、数理的な手法としては別に大して変わらない。

オンライン学習とか分散学習とかの手法はあるけど、わざわざそっち方面に行く意味も無いと思う。

超大規模遺伝子データベースからパターン検出したい、とかだとその辺が必要かもしれないけど…)

数学については、線形代数は本当に全ての基礎なのでやはり分かっておくとよい。

キーポイント線形代数」とか「なっとくする行列ベクトル」とか、他にも色々わかりやすいいい本がある。

(まあ固有値固有ベクトル計算できて計量線形空間イメージがわかって行列式とかトレースとかにまつわる計算が手に馴染むくらい。ジョルダン標準形とかは別にいらん)

プログラミングはそのくらいやってるならそれでいいんじゃないか、という気はする。行列演算が入る適当アルゴリズムカルマンフィルタとか)が書けるくらいか。かく言う俺もあまり人の事は言えないけど。

処理をなるべく簡潔かつ構造的に関数に分割したり、抽象化して(同じ処理をする)異なるアルゴリズムに対するインターフェースを共通化したりとかのプログラミング技術的なところも意識できるとなおよい。

ggplot2は独自世界観ですげえ構造化してあるんだけどやりすぎてて逆に使いづらい…と俺は思う…。

遺伝子ネットワークとかなんかそれ系の話をし出すと離散数学的なアルゴリズム必要になってきて一気に辛くなるが、必要性を感じるまでは無視かなあ。

プログラミング学習は向き不向きが本当に強烈で、個々人の脳の傾向によってどうしたらいいかが結構異なる気がしてる。

向いてるなら割とホイホイ書けるようになっちゃうし、向いてないなら(俺もだけど)試行錯誤必要になる。

まあせいぜい頑張りましょう。

2015-01-03

http://anond.hatelabo.jp/20150102012804

Jimのスタンスに関して結構違うところがあるので指摘。

ちなみに現2chユーザーで、Jimが降臨したスレにも何度か出くわしたことがあります

 

Jimはそもそも、最初潰したいのはログ速のような過去ログミラーサイトだった。

ミラーサイトまとめブログの影に隠れているもの広告バッチリ掲載しており、特にログ速のような巨大なサイトは多額の広告収入を得ていると考えられる。

で、元々ひろゆき体制の時はモリタポや●が主な収入源だったのだが、Jimは広告収入源とするビジネスモデルに転換したいと考えていた。

(その後新たにモリタポと似たシステムの「浪人」が出てくるからややこしくなるのだが、当初はそのように説明していた)

そこで、ビジネスモデルの転換に伴って今までモリタポか●が無ければ見られなかった2ch過去ログ自由化することで、現行スレに加えて過去ログの方から広告収入を得ようとしていた。

しかし現状は多くのミラーサイトがあり収益性が悪いので、Jim体制になってからミラーサイト積極的に潰そうとしている。

現にUnkarやRead2chのようなJim体制になってから潰れたミラーサイトもあって、ログ速も何度か機能停止に陥ったことがある。

今はログ速側が対策したのか、ログ速デスクトップ2chのようなミラーサイト普通に機能している状態だけど。

 

で、ここからが状況を非常にややこしくしている原因なのだが、Jimは言語の壁もあってか当初まとめブログ=ミラーサイト勘違いしていたのだった。

から、はじめのうちは「まとめブログを潰そう!」と意気込んでいる2ch住民にJimも強く同調していた。

しかし、Jimの言うまとめブログミラーサイトだったので、ミラーサイトへの対策は厳しくされるものの、2ch住民などが言う本来の「まとめブログ」への対策は一向に成されないのであった。

ちゃんちゃん

(ちなみにそのJimの誤解は、住民との交流の結果今は解けている)

 

そもそも2ch広告で儲けるJimのビジネスモデルと、2ch書き込み再構成して広告で儲けるまとめブログビジネスモデルは今のところあまり競合していないんだよね。

しろまとめブログのおかげで2chへの流入が増えるのなら、JimにとってまとめブログWin-Win存在にすら成り得る。

まあ、住民的にはまとめブログに強い反感を持っている者が大半なので、住民意向無視し続けるとν速嫌儲のような大移動が起こる可能性は0ではない。

(もっとも今の2ch住民数をカバーできるだけの強いサーバーを持っている掲示板なんてそうそう無いのだが)

から移住が起こらない程度に住民の溜飲を下げるために、Jimは「対策するよ」と口では言っている。

また一応、実際にスレッドタイトルに「転載禁止」の言葉を付けるような仕様にはなった。

だけど、住民移住しない限りはSCまとめブログを潰すメリット殆ど無いので、まとめブログに対する根本的な対策はこれまでしてこなかったしこれからもしないんじゃないかと思う。

あと住民もなんだかんだ不満は持っているもの積極的に動く案もあまりなく、一枚岩になって動くことも出来ないので消極的ながらも現状を容認しているのが今の状況です。

から元増田ブコメid:sisyaさんの指摘はかなり的確だと思う。

全員探られたくない腹持ちながらも利益奪い合ってる同士なのだから利益のものをつぶしたいユーザの声を聞く人間などどこにも居ないことな最初からわかっていたことなのになと思ってみていた。

 

今後大きく変化する可能性があるとしたら、Jimがtogetterのようなまとめブログ役割を持つプラットフォームまで運営しようとするか、あるいは2ch所有権を本格的に裁判で争うかのどちらかだと思うけど。

ただ、現状はJimが2chひろゆきビッグデータまとめブログ(?)から収益でそれぞれ甘い汁を吸えてるので、まあ当分は大きく変わらないんじゃないんですかね。

2014-12-04

人工知能人間の職を奪うについて

人工知能人間の職を奪うについて」と日記をはじめると非常にSF的ではあるんだが、思考実験として一つやってみる。

今回は「blog記事を書く人工知能」。

実を言うとこんな人工知能、すでにある。適当なところからコピペして自分blog記事転載するbotなんて、ちょっとプログラムをかじればすぐ作れる。

そしてこれはちょっと本腰を入れて研究すれば、すぐにかなり高性能になるだろう。

「どんなふうな記事がより注目(=ブックマークとかアクセスとか)を集められるか?」というのは評価関数を作るのがとても簡単なので、ベースとなるデータの巨大さと機械学習で順調に成長させられる。記事のまるパクリ問題も、何も真っ正直に「人工知能として本当に文脈理解して人間的な意味記事を書く」必要なんてない。

http://graphics.cs.cmu.edu/projects/scene-completion/scene-completion.pdf

この論文みたいなアプローチ記事を一つの画像だと見立てれば部分を差し替えることは可能だろうし、語尾や語彙の置きかけは、それこそ巨大置換でどうとでもなる。

人間が日ごろ、ほう、ふむふむなんて巡回できるblogの数なんてたかが知れているし、機械クロールで回収できる記事の数は莫大だ。年末年始記事やどこそこの店に行って何々がうまかったなんて記事は毎年のようにループしている(学習ネタとして最適だ)。

この種の(人工知能と呼べるほどに高度になった)botはそのべらぼうな処理能力にあかせて、アホみたいな数のサイト運営できる。登校時間バナーの位置やサイトデザインコピー文章リアルタイム評価関数ぶんぶん回すbot阿呆みたいな速度で自己進化できる。もちろんプロバイダやらが何らかの対処をする可能性もゼロではないけれど、しかしそれもほとんど意味がないだろう。回線の向こう側から規制する根拠に乏しい。もちろんコピペもととなった記事を書いた人間からすればパクリであり著作権違反だが、それを証明するのは手間だし、照明をあきらめるほど飽和攻撃を行う処理速度がbotにはある。また、人工知能的な記事合成、変換、結論変更、文章アレンジは、しばらくすればパクリパクリだと証明するのさえ難しくしてしまうだろう。何せblog記事というのは画像と比べて10%とか5%以下の情報量しかないのだ。

まあ、とにかく、こういうbotはすぐ開発できるだろう。現在技術でもほとんど可能だし、数年以内には実用化できる。

で本題なのだが、こういうbotができたらどうなるか? そりゃ、投入するでしょう。ちょっぴり初期投資をしてあとは寝てるだけで、阿呆みたいな数のアフィサイト運営できるようになる。なんらかのステマサイトも似たような手法運営できるようになる。ちょっと技術ネオニート生活! 投入されないわけがない。

そしてひとたび投入されれば、それは加速度的に高性能になっていくだろう。機械学習の結果出力っていうのはだいたいサンプルにする学習母体データの大きさや質に左右される。Webに解き放たれたクローラーはありとあらゆる泡沫Blogまで咀嚼を始めるので、その出力の制度はどんどん上がっていくだろう。

PVを金に換えるビジネスというのは一時的に大好景気になって、次の瞬間に価格破壊されるだろう。人件費が限りなくゼロに近づいてゆき過当競争になるからだ。

その世界では「人間blog記事を書く」という行為価値が果てしなく低くなるだろう。そこでははてなスター獲得競争の相手がbotになってしまうからだ。相手はたしか人間よりも記事を書く技術が低いかもしれないが、無尽蔵の体力を持ってるし、blog記事なんてそもそも10本書いて1つが注目集めればそれでいいような世界なのだ。1万本書いて9999本はずれでも構わないやつが出てきたら、体力勝負で勝てやしない。

この状況が長引けば、アフィリエイトというビジネスモデルのもの破壊されるだろう。いやそもそも、アマチュアが公開の場所記事を書くという文化のもの破壊される可能性もある。

Web世界は会員制のFacebookGoogle+みたいなもので分断され、今度はその内側から個人の記事ビッグデータにぬいていくBot蔓延するだろう。

こういうBotは廉価なサーバーマシンで動かすことができる。実際作ってみないとはっきりとは言えないが、それこそ数百体動かせる可能性もある。性能が十分に周知されれば、「日本語Blog記事を書く人」よりも「日本語コピー合成記事作成するBot」のほうが多くなることは、けっしてありえない状況ではない。

事ここに至って、人工知能は「あるジャンルの職を奪う」ことに成功する。奪われるのはアフィリエイト暮らしていた人間Blog書きだけではない。それを端緒に広報生業にしている多くの人も職を奪われる可能性がある。状況はおそらく大混乱にちかくなるので、今の時点では、この種のムーブメントにおいて電通博報堂のような広告代理店が大きく成長する可能性もあるし、致命的な打撃を受ける可能性もある。成長するにした所で、今のような体育会系的営業の会社で居続けることはできないだろう。開発や分析理系部署が今の10倍以上の大きさになるだろう。グループインタビューなんかやるよりも、匿名掲示板ログから消費行動の傾向を出したほうがよほど精度が高い企画が作れてしまう。

人間の職を奪う、というのはこういう光景雇用から減少を表現した言葉であって、実際に起きることは雇用の減少だけではない。文化や消費行動の破壊ともいえる変化だ。

まあでも俺はだから人工知能研究が怖いとか規制すべきとは思ってないんだけどね。いいぞもっとやれって思う。

流行語大賞ビッグデータ

ビッグデータ活用が叫ばれるようになってきている昨今において、密室の中で決められてしまう「流行語大賞」になんの意味ああるんだろうか。

インターネット情報供給力テレビ番組凌駕するようになってきている現代、「これが流行語大賞でした」とテレビから言われて「へ~、そうなんだ」と真に受けるほど、僕らはもうテレビマスコミを信用していない。

よく報道関係者が「マスコミの役目は政治監視することだ」と言うが、それなら、そのマスコミ監視する勢力は国民でなければならないだろう。

別に政治的意味合い左翼右翼かいった意味合いではなく。

政治暴走を許すな」と口にするマスコミ、そのマスコミ暴走を、昨今の「流行語大賞の発表」から感じてしまった。

2014-11-26

しまむらな女

俺の重要仕事の一つにパンツ柄チェックというのがある。

まだ誰にも任せる予定のないトップシークレット業務である

パンツの柄を素早く正確に安全にチェックするには熟練の技が必要だ。

創業当時から継ぎ足し継ぎ足してきたビッグデータがあり、今ではチェックしなくても大体の柄が出勤前に予想できるようになった。

だがしかし両思い中の40半ばのシングルマミーはこのビッグデータを覆した。

今までのデータではシングルマミーの今日パンツピンクのヒラヒラのはずなのだが、なんとしましまの紫おパンツだった。

パンツに透けないようにガードルでガードしているが俺には全てまるっとお見通しだ。

しまむらの280円おパンツワゴンには到底並ばないようなシルクでツルツルテカテカお高そうなおパンツだ。

昇給したらすぐこれだからな。

仕事はいえおパンツ代も馬鹿にならんな。

いね

2014-11-04

個人情報を守るのに疲れた

TSUTAYAアウトプットは結局しなかった

はてぶを見ながら皆と同じように強い拒否反応を抱いてきたけど

このままずっと戦い続けるのはもう無理だと思うようになってきて

とうとうTSUTAYAの件はアウトプット申請はしなかった

政府まで「ビッグデータ」を使って商売しろといいだして

この戦いはもう負けたんじゃないかと思うようになってきた

もちろん今までの戦いの結果、ルールアウトプットが整備されつつあることは知ってる

そういう戦い、団体戦みたいなものは今後も応援する

でも、自分自身個人情報のために多くの手間をかけることはもうやめようと思う

いろんなもの諦めてきたけどまたひとつ追加された そんな独り言

2014-10-03

国・地方自治体の口座情報オープンデータしろ

地方公共団体とか国とかの公的団体は、所有している普通預金口座・当座預金口座、郵貯口座を、

 ネットリアルタイムで開示するシステムを入れてみてはどうか?

 (但し、個人との間の入出金取引は、個人情報関係で個人名だけマスキングする。

  個人情報とは関係ない法人名は100%開示される)

★例えば

 「茨木市名義の、関西アーバン銀行当座預金口座の、10月3日の入出金状況」を、

 市民市民以外もネットで閲覧できる。

 「こういう業者に市は34万円支払ったんだ」

 「こういう業者から市に42万円入金があったんだ」

 と全てガラス貼りになる。

 最初からガラス張りのシステムを用意しておけば、

 そもそも情報公開手続きとか、開示申請云々は不要になる。

★恐らく全法人法人税固定資産税消費税等の納税情報が、全てガラス張りになる結果になる。

 つまり、全ての企業の納税額や対政府自治体取引が開示されることになる。

 

 「それは問題だ」という意見もあるだろうが、そもそも法人税納税情報は、隠すべき情報なのか?

★全ての政府自治体の入出金情報ガラス張りにするだけじゃなく、

 そのデータCSV形式で自由ダウンロードできるようにすれば、それを使った各種ビッグデータ解析が生まれる。

 今までにないサービス生まれる。

 企業の与信調査とか、こういうガラス張りシステムがあれば、ものすごく捗る

システムとしても、そんなに難しいシステムじゃないでしょ?

 銀行預金データの中から公的機関所有口座に関する情報だけ

 「外部から読み出し可能」な状況にして、SaaSサービスで外部からデータ取り出しできるようにすればいい。

 ビッグデータ革命起こしたいのなら、公共団体の出納データは相当インパクトあるのだが。

2014-08-01

コピペで作られたものを、コピペであると判断するには、相当な情報量必要だと思うけど…

論文ビッグデータベリファイ(?)かける?(そんなの、あるかどうかは知らないが)

2014-07-29

友人のSIerから聞いた話

2014-07-27

http://anond.hatelabo.jp/20140727113356

ビッグデータを用いた学術研究は実は人文系研究と同じ難しさを抱えている。

ビッグデータをいわゆる科学仮説検証に使えると思ってたら

科学を舐めているとしか思えない。

ビッグデータ分析対象とした研究あるじゃん!という人もいるかもしれないが

それは方法論の研究科学じゃないかのどっちか。


煽ったつもりが無知晒すパターンは見飽きたので

知らないジャンルのことをうかつに書き込むのは止めて下さい、マジで

http://anond.hatelabo.jp/20140726140248

なんで文系はこのビッグデータ全盛の時代に、「と思う」くらいのチラ裏の話しかしないの?

まじめに研究してんの?研究ナメてんの?

2014-07-20

情報学部から大手SIer入社した結果www

入る前に気づけってツッコミはなしで。痛恨のミスなので。

ホントSIer狂ってますわ。どんだけガラパゴスなのこの国…

グローバルグローバル言っておきながら、やってることは結局今まで「日本だけ」で成立(!=成功)していたビジネスモデル

仕事後の呑みは全力出す社員たち。

IT系とか言いながらパソコン携帯電話スマホですら無い)も使いこなせないお年寄りの方々。

海外の最新技術を学ぼうとか言っているのに、翻訳しないと読めない一人鎖国している方々。

そもそもプログラミングが何かわかってない社員が多すぎる。プログラミング研修ガチ動物園かと思った。Javafizzbuzzが書ける諸君!君たちはSIerにいる人たちの上位半分以上に入るよ!

資料作成だけは執着する。ネ申Excel方眼紙。必殺スクショペタペタ。Word?何それ美味しいの?LaTex?新しい服のブランド名ですか?

技術なんかよりも顧客との対話大事なんだ!とか言ってる同期。大学時代にやってきたことは試験前に優秀な友人にノートを融通してくれるよう対話すること。

極々一部に本当に優秀な方もいるが、その他大勢がお察し。

「私はプログラミング全くわかりませんがマネージメントやっています!」なんて嬉しそうに言っている社員がいる時点で気付くべきだった。

ビッグデータクラウドに注力していきます!」なんて言っている社員統計サーバーに関する知識もない時点で気付くべきだった。

グローバルに頑張って行きたい」とか言っている同期が実は海外ツアー旅行しただけだったと気づいた時にはもう遅かった。

情報系に限らず、優秀な皆様にお願いです。「大手から」「親が喜ぶから」という理由で会社を選ぶのは辞めましょう。

転職活動をやるのは、ネガティブ動機ではダメです。私のように。

2014-07-11

ビッグデータとの戦い

表記ゆれとか区切りスペースがたまに全角だったり半角だったりタブだったりして微妙に異なるあやふやフォーマットデータ

統一的に扱えるようにするための泥臭くつまらない苦行のような仕事が99%

知的でかっこいい統計的分析は1%

データサイエンティストデータ土方に改名するべきだねっ☆

2014-07-10

http://anond.hatelabo.jp/20140710103430

個人情報トレーサビリティなんて無理がある。例えば既に出回っている情報には対応できないし、悪意のある業者には対応できない。住所と氏名と電話番号というのは、通販を一度使うだけで漏れしまうので、その流通を防ぐのは難しい。

個人情報の販売を禁ずることも難しい。そうすれば大手企業けがビッグデータを独占することになって寡占を生みかねない。もし名簿販売を禁止したら、学習教材でも成人式レンタル着物でもなんでもいいが、そういうビジネス大手企業に極端に有利になってしまう。

いろいろ考えてみると、ベネッセの件で個人情報流出が発覚したのはマンション名を少し変えていた用心深いユーザーいたことにある。それと同じように住所のエイリアスを使えるようにするのはどうだろうか。

例えば「千代田区千代田1-1-1-201 BNS」とか「千代田区千代田1-1-1 千代田コーポ201 HATENA」といった住所を使えるようにする。

もちろん悪徳業者エイリアスを削除するだろうが、それは現在と変わらない。重要なのはもしエイリアス削除は違反にすれば、少なくともジャストシステムのような大手企業がやることはなくなる。利用者の使い方にもよるが、DMが来たのはどの会社に登録したものなのか、いつごろ登録した情報なのか判別できるようになる。今すぐコストをかけずに個人情報トレーサビリティが行える。エイリアスを使い続けば、「うわ、なんのエイリアスもないDMが来た。超怪しい」といった判断もできるようになる。

とりあえずアイデアとして考えてみた

ログイン ユーザー登録
ようこそ ゲスト さん