「ビッグデータ」を含む日記 RSS

はてなキーワード: ビッグデータとは

2013-03-07

なぜ国内Perlが急速に萎んだのか

2005年 Railsの襲来

2005年に突如現れたRailsによって国内Ruby利用者が急増したのがPerl滅亡への第一歩となった。書きやすさに作者がとことんこだわって作られたRubyの魅力を一度知ってしまうとPerlの古くさく読み辛く書き辛い文法に誰もがうんざりし始める。

2007年 JavaScriptブーム

Ajaxで再発見されたJavaScriptのブームもPerl終焉に若干ながら貢献している。ブラウザというPerlが全く手を出せないジャンル王者JavaScriptの持つ華やかさに誰もが憧れ、そして手元のPerlの古くささに反吐が出始める。不器用で不細工なところも含めて愛していた女房とつつましく送っていた人生に、突然ぴちぴちボイン女子大生が転がり込んで来たようなものである

スマホ/ソーシャルゲームバブル

iPhone市場が本格的に立ち上がり、Perlとは全くの無関係であるスマホアプリ全盛期がやってきていよいよPerl滅亡へのカウントダウンが始まった。そして極めつけはソーシャルゲームバブルである。ここでもPerlかい言語は全くの蚊帳の外で大絶賛凋落中。

2012年 ビッグデータ/Hadoopブーム

Perlなんぞ全くお呼びでない世界の話。段々とwebテクノロジー世界に高度な数学的知識を持ったアカデミック層が跋扈しはじめ、専門学校プログラミング言語を学んだだけの人間ハッカーなどと名乗ると恥ずかしい時代になってきてきた。

2013年 Pythonの本格的な浸透

遂にPerlにとどめを刺したのはPythonである守備範囲は当然ながらPerl駄々被りで読みやすく書きやす世界的なシェアうなぎ上り。完全にPerlが不必要な世の中になってしまった。

結論

2005年までのPerlはまさに我が世の春を謳歌していたが今や目も当てられない惨状でプログラミング言語シーラカンス・COBOLとすら比較され出す始末。昔Perlの人として売り出していたハッカーも、いつのまにかPythonの人になっているケースも海外では多い。10年でここまで時代は変わる。今のメインテクノロジー明日は我が身だ。小手先技術に乗っかってモダンだのハッカーだの聞こえのいい言葉を汚い口でまき散らして消えて行ったPerlエンジニア達の死を無駄にしてはいけない。変化の速い時代に生きる我々に必要なのは本質を学ぶ事だ。コードの書き方とかどうでもいいんだ。もっと1020年たっても色あせない情報工学を身につけなければならない。

[][][][][]

統計の世界には Garbage in, garbage out という格言がある。これは、「ゴミのようなデータを使っていくら解析しても出てくる結果はゴミばかりだ」という意味

統計学はビッグデータを不要にする

相関関係と因果関係 - Wikipedia

統計的消去で擬似相関を見抜こう! - ほくそ笑む

相関と因果は一致しない 女性平均寿命 NHKの放送受信契約数

「相関が無い事の証明」は可能か - Interdisciplinary

バタフライ効果 - Wikipedia

風が吹けば桶屋が儲かる - Wikipedia

スパコンへの出資と費用対効果の問題: 異端的考察

コストパフォーマンス - Wikipedia

期待された発電量が得られず、消費電力が発電量を大幅に上回ることを説明しなかった

視聴率10パーセントの時の誤差は±2.4ポイント、視聴率20パーセントの時の誤差は±3.3ポイントである。

1)犯罪者の98%はパンを食べている

2)パンを日常的に食べて育った子供の約半数は、

  テストが平均点以下である

3)暴力犯罪の90%は、

  パンを食べてから24時間以内に起きている

4)パンは中毒症状を引き起こす。被験者最初はパンと水を与え、

  後に水だけを与える実験をすると、2日もしないうちにパンを

  異常にほしがる

5)新生児にパンを与えると、のどをつまらせて苦しがる

6)18世紀、どの家も各自でパンを焼いていた頃、

  平均寿命は50歳だった

7)パンを食べるアメリカ人ほとんどは、

  重大な科学事実無意味統計区別がつかない

DHMO - Wikipedia



例えばフォーブス世界長者番付ランクインするような億万長者が1万人の市に引っ越してくれば

平均年収はつり上がってしまうが、年収中央値はほとんど変わらない。

ビル・ゲイツ等の大金持ちが引っ越しただけで、「普通の人」の生活水準が変化するとはいえず、

中央値のほうがより直感に近い事が納得されるであろう。

中央値 - Wikipedia

2013-02-28

バズワードの異常な乱用 または私は如何にしてバズるのをやめてイライラするようになったか

これを読んで思ったこと、またはその反応に対して思ったこと。

http://d.hatena.ne.jp/yomoyomo/20130228/bigdataisdead

Web2.0からクラウドビッグデータまで、様々なバズワードが生まれ、おっさんたちを虜にし、また一部から揶揄される状況が繰り返されている。当然ビジネスの上でも、これらのバズワードは多用され、一部では本質的意味のある事業が進んでおり、また一部では知的ゴロツキの餌となっているのが現状だろう。

このようなバズワードに対し、一般的な反応は大きく分けて2つだ。「我が社もビッグデータ事業だ。その方が時代に乗っていて格好いいだろう、ぐはははは」と「またバズワードか。食傷気味だ…一年で何回聞くことになるんだろう…」である

ここで、問題にしたいのはバズワードの対象自体が有用有用でないかではない。基本的に正しく捉えればクラウドビッグデータ有用だ(だからこそ、バズっているともいえる)。では、なぜこれらのバズワードが飛び交う時に、嫌な気分になったり、攻撃的になったりする人たち(自分含む)がいるのだろうか。

考えてみたのだが、バズワード言葉自体がもつ情報量が圧倒的に少ないことに起因するのではないか?ということだ。これはバズワード定義曖昧ということとは異なる。そうではなくて単語が発言されるときにその単語がもつ情報量の問題だ。通常の会話ではある単語が発言されたときに、その人の知識量やバックグラウンドを示す単語があればその人の能力をある程度推測することができる。

卑近な例だが「Excelだと100万行以上あると開けないですよね」という発言があると少なくともこの人は100万行のデータを扱ったことはあるんだなという情報受け手は得られる。技術的会話とは本来そういうもので、その人の発言する技術用語である程度の技術力を推測するものだろう。いや、コード書かせてみないとわからないだろ、というツッコミはおいてください。あくまで最低限の推測、例えばこれまで付き合いのない企業間での打ち合わせのような場合でのスクリーニングの状況を想定してほしい。

このときバズワードによって、なんかよくわかってない人も「ハドゥープでノーエスキューエルでアレですよ」みたいな発言をするようになると、これまでどちらかというとマイナー技術者かどうかを識別する単語につかえていたHadoop統計手法名をまた一から考え直さなきゃいけなくなる。一番最初スクリーニングの仕方をこちらが変える必要がある。それが激しくめんどい。だからバズワードは嫌いだ、という思考を自分がしていることに気がついた。

というわけで、ビッグデータうんぬんにイライラしている方々、この仮説は如何でしょうか?

蛇足だが、なんでこの思考に辿り着いたのかというと、あまり親しくない他社との打ち合わせ時に相手がビッグデータビッグデータ連呼するので、ほんとに技術力があるのか(またはほんとにビッグデータに関心があるのか)よくわからなかった。そこで、関心あるならそれなりにビッグデータに関する情報フォローしているはずだという仮説のもとでユバタスについて話題を振ってみたところ、ユバタスどころかPFIも知らなかった。世の中そんなもんである

2013-02-06

anond:20130206113306

普通統計分析となんか違うの?

この仮説の論証には普通統計分析で十分でしょ。

ビッグデータを解析する場合の特有なポイントというのは、データ件数が莫大なこととかモデルの複雑さに起因する、計算量の発散への対処、ということになるので、基本は仮定を入れて計算量を下げるとか並列実行を可能にすることなんだよね

で、今回の場合はというと、件数は精々数千万〜億のオーダで仮説モデルも単純なので、この件で「ビッグデータ解析()」とか出る幕なし。

そもそも、数千万程度のデータ件数でビッグデータとか、その道のプロは間違っても言わないと思うけど。

余談:

真顔でビッグデータとか言う奴初めて見た。

見聞が狭いね

http://anond.hatelabo.jp/20130206112635

真顔でビッグデータとか言う奴初めて見た。

ビッグデータ解析」ってなに…。普通統計分析となんか違うの?

http://anond.hatelabo.jp/20130206111034

その可能性も確かにある。

ここでデータなしで議論しても仕方ないので、何かエビデンスとなるデータないの?という話。

国勢調査とか、住民基本台帳の各人データを、氏名住所をマスキングして、

民間に提供してくれれば、ビッグデータ解析でスグわかるのだが・・

2013-01-05

「ルナルナ」ビッグデータから日本女性を解剖しろ

日経によれば、スマホ健康管理アプリの、人気1位・3位・4位は女性の「月経周期管理アプリ

(例:ルナルナ)なんだそうだ。

月経周期という、もっとセンシティブ個人情報を、

女性が「惜しげもなく差し出している」というのもなんだか面白いが、

これって、一種の「ビッグデータ」だよね?

ルナルナ登録女性がどれくらい存在するのか知らないが、

結構母集団になっているから、この母集団を用いれば、

日本女性健康状態とか、ある程度分かっちゃったりするのでは?

女性が数人共同生活していると、互いの月経周期が近似する」との学説があるが、

別に共同生活していなくても、日本全体でも、「1月5日は月経女性が多い」

「12月20日は排卵日の女性が多い」のような傾向が、ある程度現れるかもしれない。

日本全国の傾向もあるだろうし、あるいは

今日北海道エリア月経女性が多い、四国エリア排卵女性が多い」

今日は20代女性月経女性が多い、30代女性排卵女性が多い」

のようなエリア別、年代別傾向があるかもしれない。

「それがどうした?」と言われるようなデータだが、これって、女性向けの商売している会社にとっては、

非常に貴重なデータじゃないか

直接的な商品(生理用品)はもちろん、ダイエット食品化粧品

下着や通販売上なども、月経周期と売行が相関するだろうから、そういう商品の販促に役立つ。

あるいは、社会的大変動と、月経周期との相関関係もわかるかもしれない。

「3・11の影響で、女性ストレスが加わり、月経周期が長くなった(短くなった)」のように、

公衆保健の研究寄与するかもしれない。

従来だったら、そういうデータ解析はまず不可能であったが、

女性自ら個人情報差し出している」のだから、それを活用しない手はない。

・・・でも、ひょっとして、既にルナルナはそのようなビッグデータ活用を、実施していたりして。

2012-10-18

http://anond.hatelabo.jp/20121018161448

Web3.0の中核を担うとされている次世代手法で、

ビッグデータから閲覧者の趣味や関心、現在地人間関係などをロードしてきて、

それに合わせたコンテンツ自動的に生成するサイトデザインのこと。

ターゲティング広告サイト全体に拡大したようなものだと思えばわかりやすい。

2012-09-03

http://anond.hatelabo.jp/20120903011542

もう一回言い直すけど、その原理を認めず将来の予測が可能であると仮定をおいているわけ。

これを前提といっている。

「その前提はおかしい、よって議論の価値なし」というのであれば、あなたはその原理現実世界でも完全性をもつことを示すことによって反証すべき。

ケインズ読め、では的外れ

あと統計学がうんたらのレッテル張りは何なんだろう?

最初ビッグデータバズワードと断って抽象的な話をしようとしているのにね。

http://anond.hatelabo.jp/20120902232749

いや市場効率的でなくて予測可能って前提での話なんですけど。

意味不明

あと、これまでは技術的な制約があって予測不可だったものが、制約をクリア出来るようになったのではと言っている。

から予測不可能なのは技術的な制約じゃなくて原理的な制約だっつってんの。

技術的な制約の否定にRを持ち出すのも的外れ

そうじゃなくて、君は統計学データマイニングも(あと当然ビッグデータwも)何も分かってなさそうだから、とりあえず体験くらいしてから来いよって言ってんの。

2012-09-02

http://anond.hatelabo.jp/20120902183732

証券取引所もしくは証券会社って、今となっては高い精度で株価の変動を予測できるんじゃないだろうか。

できるわけねーだろ。ケインズ名言を1000回音読することをお勧めする。

あとビッグデータ(笑)という単語イメージだけで妄想するのはやめて、少しでいいか自分の手を動かせ。

ほら、今これを読んでるブラウザ検索フィールドにCRANと打ち込んでRをインストールしろ。とりあえず。

ビッグデータ株価

ビッグデータというバズワードからふと思ったこと。

証券取引所もしくは証券会社って、今となっては高い精度で株価の変動を予測できるんじゃないだろうか。つまり、彼らは過去の売買や板の情報をすべて記録しているはずだから需給の偏りを分析できるはずで、需給がわかれば価格の推移も予測をたてられるだろう。

あくまで市場は完全に効率的ではないとの前提ではあるが。

この分野の研究ビッグデータ投資に関するところって聞いたことがないんだけど、誰かやっているんだろうか?俺が知らないだけかな。

と思ってググってみるとIBMがやっているみたい。証券取引所とか証券会社の持つデータというわけではなさそうだけど。

他にも知ってる人がいたら教えてください。

2012-06-12

ビッグデータから何を作るのか!というキャッチコピーをみた。

・・・ ビッグデーター(GoogleからiPhone(Apple)は生まれない。

消費者動向を どれだけ追いかけたところで作れるのは2番煎じ(Android)だけ。

2012-05-14

武雄市図書館問題 個人の特定は誰にでも起こりうると言う話

偏差値3でもわかる!武雄市図書館問題

http://anond.hatelabo.jp/20120511124327

論点1,論点2について。

レアケースとして、難病、特殊な性癖等、それ単体で自分で珍しい属性と思えるよって個人の特定が発生するという話になっています。人に寄っては「自分はそんな特殊な属性なんか持ってないその他大勢だから問題ない」と考えている人がいるかもしれませんね。また、武雄市市長

僕が言っているのは、「5月6日20時40分、42歳の市内在住の男性が、「深夜特急」「下町ロケット」「善の研究」」を借りた。」ということそのものについては、個人が特定できない

と述べています。(http://hiwa1118.exblog.jp/15827483/)これを見て「この程度の属性ならば個人情報は特定できない。安心だ」と思っている人も多いかも知れません。

が、実際にはそんなこと無く、普通属性の人でも、いくつかの条件を組み合わせていくと簡単に個人が特定できるよと言う話をします。図書館からCCCに対して、上記武雄市市長が挙げている情報が渡ると仮定した場合、ある程度の行動に法則性がある人であれば、かなりの確率で個人の特定ができます

例えば、

これらはみな高確率で本人の特定が可能です。

簡単に言うと

  1. 深夜特急を借りた
  2. 下町ロケットを借りた
  3. 善の研究を借りた
  4. 42歳
  5. 市内在住
  6. 男性

これらはそれぞればらばらには該当する人間は多数いますしかし、これが組み合わさると(さら5月6日20時40分に図書館を利用、タイムスタンプ情報が組み合わさると)どんどん対象は絞り込まれていきます非常に尖ったそれ単体で個人を特定できる様な属性がなくとも、複数の属性が一致する人というのは少ないため、さらにそれを通常のTカード利用履歴データと照合すると、本人の特定ができてしまと言う事です。

一番分かり易い例から、以下に順次説明しましょう。

なお、私も武雄市の市政の問題と言うより、プライバシーセキュリティの問題にのみ関心があるので、以下は架空の市「武雌市」を舞台としておきます

学校帰りで本を借り、通学路経由のファミマで大抵買い食いをする人の場合

武雌市立中学校に通う武雌太郎君(14)は、学校帰りに図書館に寄ることがあります。両親共に仕事が夕方シフト仕事帰宅も遅く食事も遅いので帰宅途中にあるファミリーマート軽食を買って帰るのが日課です。

ある日、太郎君は図書館で本を借りました。この場合図書館から出て行く情報は、仮に以下の様になるとします。

△月○日16時32分、14歳の市内在住の男性が、『暗黒神話体系シリーズ クトゥルー 第1巻』『這い寄れ!ニャル子さん(1)』を借りた。

次に彼はいものようにファミマで買い物をします。するとこちらは以下の様な情報が記録されると思われます

△月○日16:48分

会員IDxxxxxxxxx

購入品目

当然ながら後者ファミマの利用履歴にある会員IDを照合すると、登録時に申告した個人情報、氏名や年齢、住所、電話番号などと結びつきます

この時、時間16時台で、年齢14歳男性武雄市内または周辺で使われたTカード履歴』と言う、図書館から得られる範囲の条件でTカードの利用履歴からデータを引き出してみます。利用状況にも寄りますが、この時点で確率的にそんなにたくさんが引っかからないと思われます。まず武雌市の14歳男性国勢調査によると約300人でした。さらにこの中から、16時台に武雄市周辺でTカードを利用した人というのはどれだけのいるのでしょうか。

さらに「クトゥルーニャル子さんを借りている事から、彼はオタクが好むアイテムを購入している可能性がある」としたとき、ヴァイシュスバルツ(アニメゲームなどのキャラクターを題材にしたカードゲーム)を購入しているので引っかかります。こうなると、ほぼ間違いなく誰が借りたか特定ができてしまうでしょう。このオタク属性等と言うのはレア属性でもなんでもありません。またこの他、例えばここで車好きでもいいし、スポーツ好きでもかまいません。そう言うありふれた属性で良いのですが、年齢と性別、時間地理という条件が重なると、絞り込みの条件になって、特定がより簡単になっていくのです。

次に彼がまた同じ行動をとったとします。

図書館で本を借りて、ファミマで買い食いして以下の履歴が残りました。

△月×日16時28分、14歳の市内在住の男性が、『暗黒神話体系シリーズ クトゥルー 第2巻』『這い寄れ!ニャル子さん(2)』を借りた。

△月○日16:48分、会員IDxxxxxxxxx

購入品目

この時、前回と同じ条件『時間16時台で、年齢14歳男性武雄市内または周辺で使われたTカード履歴』でTカードの利用履歴情報を引き出します。さらに、これを以前の記録の中から、ほぼ同一の行動パターンをとっている人物を引き出してきます。すると、ほぼ一人が浮かび上がってくるのではないでしょうか。

この時点で逆のアプローチが可能になります。つまり『会員IDxxxxxxxxがファミマを利用するとき、同一の属性の人物が同じ時間帯で図書館を利用している場合、高確率で同一人物である』と言う事が言えるようになります。これでファミマで利用が合った時、図書館から出された情報検索すれば彼の利用履歴が作れる事になります

さらに何回も似たような行動を繰り返します。するとどんどん彼の行動パターンができあがっていきます。行動パターンの積み上げにより太郎君を特定するための情報がどんどん積み上がっていきますこうして積み上がった情報から、例えば彼がファミマを利用しなかったとしても特定が可能になっていくでしょう。「16時台に、同一シリーズニャル子さん4巻を借りている。履歴から照合すると高い確率で会員IDxxxxxxxxの情報である」と判断することができる様になっていくのです。

次に、もう一つのケースを例にしてみます

毎週火曜日は定時退社日。この日は会社帰りで買い物をしたり所用を済ませている。たまに図書館も利用する。

武雌市内にある和平電機につとめている女性小町花子さん(29)。在所は隣接する小町町で、勤務先の和平電機は毎週火曜日がノー残業デー、定時で退社する日と決まっています。協定でいつも1時間程度は必ず残業があるお仕事ですが、この日は17時に退社できるので、いつもこの日に用事を済ましています

彼女節約上手なのでポイントカードの提示を忘れません。Tポイントカードも例外ではなく、たくさんポイントを貯めるためにあちこちでポイントカードを使っていました。勤務先のある武雌市の図書館も利用しています

この条件の場合、上記太郎君の場合パターンでも特定が可能ですが、実はさらそれより一発で特定ができてしまう可能性があります。それは、普段が彼女がTカードを使って作り上げた、行動パターンがあるから

花子さんの利用履歴では、最近カメラのキタムラで高価なカメラを購入している情報地元TSUTAYAカメラ関連の本を購入していたりする履歴があると、花子さん最近カメラはまっているようだ、と言う事が見えてきます。またガストではドリンクバーは2つのことが多いだとか行った情報から2人暮らしである事、一度名義を変更していることから結婚している事、ウエルシアでは愛犬用の用品をよく買っている事、などから犬を飼っている事、等々、どんどん情報が見えてきます

これらの情報図書館の貸し出し情報と照らし合わせます

△月×日17時20分、29歳の小町町在住の女性が、『デジタルカメラ入門 -2- 愛猫、愛犬を撮る』『なぜか夫婦がうまくいく3つの習慣―二人の危機を救う本』を借りた。

この時Tカードデータベースからデジカメ好きの30前後女性ペットを飼っている。既婚者』という検索条件で検索した場合花子さんのTカード利用情報から情報と、図書館の利用履歴の両方が抽出される事になります

ここから小町町の住人の29歳女性、と言うカテゴリで見ると、ほぼ間違いなく同一人物の情報だという事が分かる事になります。ちなみに小町町に在住する29歳女性国勢調査によると約40人でした。

ここで彼女のTカード情報には「図書館利用者である」という属性が蓄積される事になります。この後は豊富に蓄積された情報を元に、彼女図書館利用履歴のトラッキング比較的簡単に、高精度にできることになります

興味があることがあったので、Yahoo!を使って調べていたが詳しい事が分からない。そこで図書館で調べ物をして本を借りた。その後Yahoo!でその本の内容を元にさら検索した

武雌市に在住の、武雌和也さん(41)は、最近母親難病にかかってしまいました。何しろ情報が無いのであらゆる手段を使って調べていますYahoo!検索して見たりしているのですが、欲しい情報が見つからりません。普段は全然利用していませんが、思い立って図書館に行ってみることにした。図書館では興味深い話を見つけましたが、情報が若干古いのでさらYahoo!検索をして新しい情報も仕入れたりもしています。ちなみに和也さんは、普段は奥さん任せでほとんど買い物などはしない人です。

和也さんの場合ほとんどTカードを提示する機会は無い人ですので情報が少なくて照合などできないように見えます。が、ここで出てくるのがYahoo!IDです。和也さんは以前、Yahoo!趣味釣りの道具を購入したことがありました。その時、市が図書館カードとしてアピールしていた時に惰性で作ったTカードと結びつけを行っていました。

それによって、Yahoo! IDにTカード情報が結びついている状態になっていたのです。

実はこのように、Tカードというのは非常に広範囲に利用域が広がっています。一度しか使ったことが無くても、使用した時に別のIDと結びつくような形になっているのであれば、TカードIDのものを利用しなくても、芋づる式に情報がつながってしまうと言う事が起きます

これらを踏まえ、個人の特定を避けるには?

Tカードは絶対に図書館以外で使わない、と言うのが一番シンプルです。図書館専用のTカードと、図書館以外のTカードを別けてもあまり意味がありません。Tカードによって記録されるデータベースに、図書館以外の部分で乗るような事をしてはいけません。従って、今、Tカードを利用している人が、図書館でTカードを利用し、尚且つTカード図書館データを結びつけたくない人は、どちらかあきらめる事が必要です。図書館をあきらめるか、Tカードの利用を停止するか、どちらかになります。すでにTカードを利用しながら、結びつけたくない人は、図書館にて利用を開始する前に、一度CCC個人情報保護法に基づく情報削除を依頼しておくことも忘れてはいけません。

想定される論点

おそらくこれらの指摘に対しては

と言う異論がでるものと思います

情報分析については、コンピュータの大容量化高速化によって不可能ではなくなりつつあります。近頃「ビッグデータ」処理システムなどを用いることによって実際に行われています

これが「容易に」と言えるかどうかと言う事になるのですが、個人的な見解としては容易だと言って良いと思います。完全にデータベース上だけで照合が完結できてしまうと言う時点で、後はリソースの問題であるからですコンピュータリソースなどは数年もたてば倍にと言った世界です。そして毎回膨大なデータを処理しておかなくても、あらかじめデータをあらかじめ整理してあれば、許可を受けた店舗マーケティング担当者レベルでも情報を引き出せるようになるでしょう。さらに言えば、観覧したい個人がすでに決まっていて、本人を知っている場合(標的を絞っている場合)はもっと簡単に情報を引き出せます。そこにダイレクトに個人を特定するID名前も含む)が含まれているかどうかは関係ありません。

また情報を際限なく結びつける事を許さないので問題ない、と言う話についてはまず、Tカード利用規約がすでにそれを許す形になっていることがあります。もちろん企業の内規等でそれができないようにしている可能性はありますしかし、そこは行政が直接的に知る事も、コントロールする事もできません。何しろTカードの加盟店は膨大ですのでそれら全てに行政が行うべき情報保護に対する規律を求める事ができるのか、と言うと不可能でしょう。

であれば、共通的にTカード規約を変更する等が必要になるでしょう。また技術的な原則論を超えて、特別な条例を作ってそれによってCCCを縛る事をするだとか、そういった政治的解決法はありますしか裾野が広いだけあって、規約だけでは駄目で、実際には不可能な形にしておかないと不十分である、と私は思います

これはプライバシー問題の特殊さ、難しさが絡んでいますプライバシー問題の難しさは、観覧された時点ですでに侵害が発生しており、さら原状回復が不可能である(予防しかない)事、さらに発覚しにくいためです。

ちなみにこれは、公共サービスをそのような民間ベースID認証に付け加えると、毎回このような情報の取り扱いについて問題が発生していくことになりますし、それらが適正に処理されているかの確認は行政側が行わなければなりません。住基ネット住民票コードが民間利用禁止されているのもこう言った難しい問題があるからです。

次に「これらの事は民間ではすでに当たり前である」という話もあります。何を今更、と言う事ですね。これは全く持ってその通りで「俺はそうであっても気にしない」と同じような立場になりますしかし、事問題が行政サービスに関わる事であると言う事を忘れてはなりません。また、気にする気にしないと言う話は本質的には個人情報かどうかには直接関係はしないと思います

まとめ

もはや落としどころとしては、Tポイントカードを単なるユニークIDが振られたカードとしてのみ図書館で利用する形にするしかないと思います情報の流れを一方通行にする。図書館からは一切CCC情報を渡さない事ですね。

ではポイントの付加はどうするのか、と言う事になりますが、これはあきらめるか、さもなくば独立したシステムポイントを加えるしかないでしょう。これでも「このID図書館を利用した」という情報は発生することになります。これも解釈によっては個人情報ですが、独立したシステムにすることによって、情報を渡したくないかポイントをつけない、と言う選択肢も可能にするべきです。当然Tカード以外のカードでも利用可能になっていないといけません。

こうなると「図書カードとTカードを別々に持つ必要がない」程度しかメリットが残りませんが仕方が無いでしょう。

最後に。セキュリティ論じゃないところに踏み込むと…正直CCC戦略を誤ったとしか思えませんね。Tカードの話なんか出さなけりゃ良かったんですよ。あとポイントも。分かり易いメリットのつもりで市長に売り込んで、市長がそれを大々的に宣伝してこうなったのです。本を買わずレンタルで済ます層の情報に商売としてのうまみがそれほどあるとは思えませんし。CCCグループTSUTAYAを始めとした幅広い販売チャンネルから得られるPOS情報に、自前の取次MPD、流用出来るノウハウなども多数持っているんだからそっちで責めれば良かった。その上で競争入札に入れば良かったんですよ。

確かに「Tカードを全面に出さなければならなかったと言う事は、その他のメリットがなかったためでは?」と言う話はありますけど、それならば他の既存の業者を選んだ方が市のためになるわけですから今より悪い事にはならないはずです。

追伸

きちんとセキュリティの事を勉強した人間ではありませんので、専門の人、お時間があればツッコミをお願いします。

2012-03-29

http://anond.hatelabo.jp/20120329162912

最近はやりのビッグデータでもてはやされている大規模分散処理にマジで興味ない。びっくりするほど興味がない。

あれを楽しそうにやってる方々は何が楽しいと思ってるんだろう。

こんな書き方しておいて教えてくれる人がいると思うんならコミュニケーション能力がなさすぎだよ。

ちなみに、指摘されてもどこが悪いのか分からなかったらもっと致命的だから

ビッグデ~タ

最近はやりのビッグデータでもてはやされている大規模分散処理にマジで興味ない。びっくりするほど興味がない。

あれを楽しそうにやってる方々は何が楽しいと思ってるんだろう。教えて欲しい。

2012-03-27

http://anond.hatelabo.jp/20120327002411

分析対象のデータ量は年間約100ギガバイト、約2億レコードに及び...』

この数ヶ月「ビッグデータ」という造語IT系雑誌でよく目にするが

こういう分析が対象だったわけか(少なくとも大いに含まれてるだろう)。

カードポイントは、個人情報売却の対価と考えるべきではないか

はまちちゃんがいい事言った

ネットを利用するときに気をつけたいこと - ぼくはまちちゃん!(Hatena)

http://d.hatena.ne.jp/Hamachiya2/20120228/social

情報は紐付く

ちょっとした情報を元に、

ネットAとネットBが紐付くのはもちろんだし、

リアル情報まで紐付くこともよくあること。

ひとつひとつは大したことない情報でも、

情報が紐付くと、さらに色々なことが芋づる式に誰かにわかるよ。

ポイントとは何か

最近東日本の元国鉄会社CMやってるんだけどちょっと腑に落ちないんだ。

・まだオートチャージにしてないの?(イラついた顔で)

カードポイントたまるのに(まだやってないの的な顔で)

要は「ビューカード一体型suicaにすりゃ、便利だしポイントまりまっせ。」とよく聞こえる。

でもこれをやることで、定期券に記載されている名前と年齢と電話番号以外にも様々な情報suicaにひもづけられてしまうことに気がついて欲しい。

紐付けられたデータの行く末

尊敬する高木先生PASMO関連でakkyよろしく派遣できていたサポセン素敵女子いじめていたそのころ、ペンギン会社は紐づいた情報で水を売っていた。

JR東日本子会社が2億件のビッグデータで商品開発、「移動中に飲む水」訴求 - ニュースITpro

http://itpro.nikkeibp.co.jp/article/NEWS/20120125/379281/

VT-10では単品・時間別売り上げが把握できるのに加え、Suicaスイカ)などの電子マネーカードを利用した場合は、カード固有番号(IDi)を基にリピート購買の回数が分かる。さらに、Suicaポイントクラブ会員(約140万人)については、入会時に登録された性別や年代、居住エリア郵便番号)を把握できる。

VT-10ってのは、自販機についてる黒くて大きい方のカード受信機ね。)

Suicaポイントクラブなら上記の情報が紐付く。ビューカードならさらに信用情報まで紐付けることが可能だ。約款には書いてないかもしれないけど、改定されちゃったらできる。約款なんて読まないし。

この記事では水だったかもしれないが、Suica最近どこでも使えるから行動範囲や趣味嗜好までペンギンにはお見通し。悪用なんて、しないよね?

まとめ:どうして

・どうしてあの家電量販店カードを提示すると10%ポイント還元されるけど、よくわからんクレジット付きカードへのアップグレードを提案するのだろうか?

・どうしてコンビニでもどこでも青と黄色カードがあるか聞かれるのだろうか?そしてどうしてあのカード免許書の提示がないと入会できないのだろうか?

・どうしてアマソンは送料が無料なのだろうか?

2012-03-16

そうだ。メモリ利用効率な。それはさすがに2種類に分かれる。

コードメモリフットプリントという意味なら、CPU内部にキャッシュがあるCPUについてはコアなアルゴリズムキャッシュの中に乗り切るようにすることによって高速化はする。これは効果があるがあまり適用されるケースがない。

大抵はボトルネックはIOだからな。

 

次に一般的に言われるデータ構造の利用効率だが、これは実はこの分野は大富豪プログラムでいい。理由はメモリハード的特徴。メモリ中途半端に70Mとか90Mにするほうが難しい。64M128Mのほうが簡単。

から、増やし方は2倍 2倍。が簡単。エルピーダが逝ったように廉価販売の嵐というのも相まって、OSが256ぐらいつかうからという理由で512M積むというのも当たり前になってきてる。

残念ながら100M級メモリが空いていれば データ構造で詰まるということはないだろう。

確かにメモリをけちれば消費電力が下がるが 設計上 メモリケチ構造CPUに負荷がかかるのでCPUの消費電力のロスのほうが大きいと考えるのが今風。

それにデーターを圧迫するのは大抵は画像や音声や動画などのコンテンツ

 

データが圧迫するのはビックデーター系だが・・・これまた、ビッグデーターで処理という流れのほうが大きくて もしくはSQLの固有技術サーバー設計技術という話になってきてプログラム単体の話からそれてくる。

だいいち、どちらかというとメモリ利用効率じゃなくてCPU効率だしな。

最後に残るのは組み込みマイコンCPUだが、もはや別次元すぎる。

 

というわけで、メモリに関しては富豪的プログラムでいいと思うよ。量のあるデーターに対して ざるくバケツソートとかそういうことじゃなければ。

ただ、それも仰るとおりCPUが速くなれば、バッテリー進化すればすべて解決。あとは、誰にでも簡単にプログラムできるようになって、高レベルプログラマが今より不要になる。栄枯盛衰だね。

からCPUのことを時にするのばバカだといわれれば、まぁ、世界規模で見ればそのとおりだ。

 

消えろってうん、ごめん。

2012-03-13

書き直したって、いいんだよ

http://www.yamdas.org/column/technique/hatenablog.html

 なお、タイトルに PART I とあるが、このネーミングはメル・ブルックスの『珍説世界史 PART I』にちなんだもので、PART II 以降は存在しない。つまりあなたソフトウェア企業)が絶対すべきでないことは、Joel Spolsky にとってこの文章に書かれることだけなのだ。それは何か?

 プログラムスクラッチから書き直すことに決めることだ。

まぁ、そんなわけないんだけどね。

最近はてな体たらくへの失望感名前を付けたい」というだけの文章にマジレスするのも我ながらどうかと思うし、気持ちは分からなくもないんだが、最近は「はてブ」以外全く使ってない俺でも、長年お世話になってきたはてなに対してそれなりに愛着というものがあるわけで、ディスられるばかりの流れに少しばかり反抗を試みたい。これは、それだけのエントリだ。

というわけで、以下に書くのは、技術の話でも倫理の話でもない。どうか気軽に読んでほしい。

書き直してはいけないのか

実例を挙げる。

今やワールドワイドな影響力を持つ勝ち組ソーシャルサービスTwitterだが、彼らは、ここ数年でバックエンドの大半をスクラッチから完全に書き換えたしかも、RubyからJavaへと、使用言語すら変更してしまった。

http://d.hatena.ne.jp/teppei-studio/20110709/1310168002

もう一つ。Tumblrも、LAMPアーキテクチャからJVMベースへ切り替えた。その過程で、Twitterオープンソース化した技術を取り入れたりもしている。

http://blog.kyanny.me/entry/2012/02/19/002256

『「古いコードクズだ」というのは錯覚だ』というJoelの意見は、一面では正しいが、他の面では間違っている。なぜなら、あるソフトウェアに求められていること(要件)は、時間と共にどんどん変化するから

書き直そうが、書き直すまいが、一番ダメソフトウェアとは「ユーザの要求に応えられないソフトウェア」だ。規模や環境の変化によって古い技術技術限界に直面したり、ビジネス環境の変化に追随する必要が出てきたのなら、「スクラッチから書き直す」のは立派に一つの選択肢だ。

技術の変化

はてなダイアリー最初バージョンがどういうものかは俺もよく知らないが、おそらく「LAMP」がエッジなキーワードとして持て囃されていた頃に書かれたプロダクトなんじゃないかな(間違ってたら突っ込みを)。それから時代下りRuby on Railsに代表されるCoCフレームワークの登場を経て、今や大規模分散や非同期を前提としたアーキテクチャが当たり前の時代。当然改修はしているだろうけど、MySQL職人芸で負荷分散していた時代から大分遠いところに来たのは間違いない。

何より、はてなダイアリーといえば「はてな記法」とカスタマイズ自由度の高さがウリだったわけだが、これらの存在が、今や機能追加や改良の妨げになっているとしても不思議じゃない。

はてなブログ開発の動機として「今どきの技術で、最初からやり直す」というのがあるのは間違いないが、それは「スクラッチからの書き直し」だから悪手なのだろうか。結局のところ、レガシーコードメンテナンスを続ける場合と比べてどちらがより低コスト、という話の結論によるとしか言えない。

ビジネス環境の変化

はてダソーシャル要素といえば「トラックバック」と「idコール」と「キーワードリンク」だったわけだが、全部Twitter(とTogetter)に持っていかれたよね、という話。

から、「はてダver.2」や「ブログ2.0」を望む声が大きいのは理解できるけど、ぶっちゃけ、そんなもんに開発リソースを突っ込んでも勝ち目なんか無い。んで、それに代わるアイディアを持ってる奴はどこにもいないと。だから既存コードの改良ではなくスクラッチから書き直し、スモールスタートでフィードバックを受けながら方向性を考えていく、という方向性はそんなに間違っていないと思う。

ただ、現状を放置すると「それTumblrでできるよ」という話にしかならん、というのはその通りで。それ以外だと、もしgithubblogサービスを始めたりすると、かなり客を持っていかれるのではないかという予感はする。いっそのこと、Tumblrのデッドコピーから始めるのが一番早いのかもしらんね。

技術の体系化の弱さ

少し別の話を。

https://github.com/twitter

これは、Twittergithubレポジトリだ。上でも書いた通り、Twitterサービススクラッチから書き換えた。で、その過程で開発した内部向けのフレームワークを、どんどんオープンソース化している。彼らが、内部の技術をきちんと体系化して再利用可能にしていることの証左と言える。

一方、はてなgithubレポジトリ。正直、サンプルとかプラグインばかりですね、と。

https://github.com/hatena

色々と理由はあるんだと思うが、一つ思うのは職人芸頼りで自分たちの技術を体系化するという部分が弱いんじゃないか、ということ(はてな発のオープンソースで広く使われてるのって何かあったっけ?)。

先ほどから散々「書き直していい」と主張しているが、誰かが言っていた通り、技術本質を捕まえきっていない状態でフルスクラッチをやっても、失敗する可能性は高い。はてなブログがどちらなのかは、中の人しかからないことだけど。

マネタイズ

はてな経営的にあまり状況がよろしくない、という推測はおそらく当たっているのではないかと思う。

タイムラインで、誰かが「まっとうな方法収益化する方法を真面目に考えるべきだった」と言っていたのを見た。それをしていれば、今回のような事態を招くことは無かったのだろうか。

だが、「まっとうなビジネスモデル」とは何だろう。実際問題として、ここ最近成功しているネットサービスビジネスモデルで「ターゲティング広告」と「マスなユーザベースから抽出したビッグデータを解析して売る」以外で何か有力なものはあっただろうか。FacebookにせよTwitterにせよ、収益化の原動力はユーザ行動解析だったりするわけだ(彼らがオープンソース化に積極的なのはインフラ技術差別化の源ではない、という面もある)。

まぁ、あとはガチャだが、どちらにせよ現状では高木先生逆鱗に触れるようなものしかないよね。

そんなわけで、それらに代わる第四のマネタイズモデルを思いついた人は、ぜひ近藤さんに教えてあげると良いんじゃないかな。あればだけど。

最後

今後はてながどうなるかは分からないけど、一つ希望したいことがあるとすれば、故伊藤計劃氏のダイアリーがこの先も保全されることを望みたい。

それは、エントリを全て魚拓しろ、という話ではもちろんない。彼の生前に書かれたエントリは、当時の「はてな」という生態系を構成する一部でもあるわけで、そこから切り離して文章だけをアーカイブしてもあまり意味がない。

まりネット過去を作ってきたものとして、現在適応しながら、未来へと生き残って欲しいと、そういうことです。

2012-02-16

おっさんIT用語

選択と集中
利益が出なかったので撤退、でも俺の間違いだったとは認めない」
「新規事業育てる体力がなくなった、でも俺は間違ってない」
のいずれかの意味
PDCAサイクル
反省しました」
「これからはがんばります具体案はないけど」
のいずれかの意味
「再発防止策」
「次に二度と同じ失敗をしないための仕組みづくり」
「俺のせいじゃないけど謝っておきます
「具体案を作りようがないけど次からは凄く気をつけます」
のいずれかの意味
ソリューション
受託開発」
「前の受託開発で作ったものちょっと改造して他の所に売ります
お客様と同業種の会社から開発を請け負った経験があります
のいずれかの意味
パッケージ
「前の受託開発で作ったものちょっと改造して他の所に売りますお安くしますよ」
意味
クラウド
アマゾングーグル
「レン鯖」
「クラサバ」
ホストダム端」
ブラウザ操作する社内グループウエア
外注をいっぱい使う」
のいずれかの意味
ICT
「イットと読み間違いが起こらないようにしたIT
「共有フォルダにおいたワードとエクセルをみんなで触って事務仕事する」
「今までと寸分たがわぬ帳票を前より簡単にいっぱい作って印刷できます
のいずれかの意味
ビッグデータ
2012年2月上旬までは「俺googleじゃないか研究に充分なデータ集められないという泣き言」
2012年2月下旬からは「違法だろうがなんだろうがプライバシー情報をまるごとぶっこぬいて分析して飯の種にします」
意味
ログイン ユーザー登録
ようこそ ゲスト さん