「クラスタリング」を含む日記 RSS

はてなキーワード: クラスタリングとは

2018-07-08

読中感想自作PCクラスター入門

読もう読もうと思うのだが、読み始めると眠くなる。寝てしまう。これの繰り返し

黒歴史とかコラムとか面白くてそちらは頭に入る。まとめが最後にあるし、最初アウトラインがあるので、理解やすいはずだが、肝心の本文が( ^ω^)・・・眠い。頭に入ってこない。マニュアル本みたいな面もあるので、PCクラスターを組んだ後に辞書的に使えばいいんだろうけど、何故こんなに睡眠導入的なんだろう?

PC自作経験はあるので、その辺は読まなくてもいいとして、クラスタリングしたあとに叩かなければならないコマンドが頭に入ってこない。PCどおしが何で通信するのかどうやってやりとりするのか?律速はどこか?そういうことも書いてあるはずだけど頭に入ってこない。辛苦だ。どこに書いてあるのかも今思い出せない。第3章(ノード内並列)に入って、エイリアスの次の所当たりで毎回眠くなる。

PCクラスターメンテ若者対象精神修養のチャンスっていう話は面白かった。

2018-04-25

任意の立ち上がり波形1ショット×n個を特徴別に分類したい

ざっと眺めた感じではコンデンサの充電曲線みたいなやつと矩形波の立ち上がりみたいなやつ

あとは指数関数みたいな立ち上がりのやつがそれぞれわちゃわちゃある感じ

見ての通り、自分はここらの分野については全くのド素人

10分だけネット眺めて考えた感じでは、フーリエ変換かまして級数の各項にかかっている数字を取り出して、

それでクラスタリングすればいいかなーとか

しかしこっちもとってもド素人なんだなあ

クラスタリング方法としてもk-meansくらいしか知らない

でもデータを眺めた感じでは各クラスタに入るデータ数は、必ずしも同じになるとは限らないんだよな

まあ最悪GWあるし、この仕事が向いてない、ってなっても戻る場所はあるので、

のんびり気軽に考えてみるか

2017-11-06

21世紀は「人間はけしてわかり合うことが出来ない」とクラスタリングが進んでいくのだろうか

高度情報化社会が到来して、あらゆる人間適当情報を発信し意見を表明できるようになってしまった結果

世界は1つでは無く70億存在し、それはけして交われない、たまたま重なることはあるがそれは刹那な偶然に過ぎない、

人は究極的には連帯和解不可能しかし一人で生きることも不可能というジレンマに苛まれてくる嫌な時代になっていくのだろうか。

そんなことを思ったよ、ここ数年。リベラル他者無理解絶望し、コンサバ勝手に内にこもっていくそんな時代

2017-04-14

http://anond.hatelabo.jp/20170414135334

マストドン分散と言うからP2Pみたいなクラスタリングの上に乗っかってるシステムなのかと思ったら、自前でサーバーを立てられるだけのTwitterなのかな。

今どきスケーリングしないシステムなんて古臭すぎるし、反中央集権にもなってない。

2017-01-11

ブクマカクラスタリング

特に説明するまでもない事実だと思うが、はてなブックマーカーには特定話題特定の同様のコメントをしがちなアカウントからなるクラスタ複数存在する。はてサニセ科学批判クラスタ・・・モヒカン?)

とすると、ある程度のブックマークが集まったページのブックマークコメント形態素分解し、同じようなページに同じようなコメントを付けるようなアカウントをあらかじめクラスタリングして、各ページについてその各クラスタブックマーカーによるコメント頻度や各クラスタごとのコメント傾向を表してくれると、ブックマークされたページがどういうものかあらかじめわかりやすい。Deep Learningならもっとうまくやれるのかもしれない。実装してくれないかな。最近暇がないから、無駄なページを読みたくないんだよ。

xevraやmidas、blueboyのようなブックマーカーをoutlierとしてクラスタリング除外する機能実装している必要がある。無論、midas閣下とxevra先生については独立して鑑賞したいのだが、それはお気に入りを使えばいい話である

2016-10-13

三浦弘行九段竜王戦出場停止について

どうも、id:BigHopeClasicです。

本当はこんな内容、自分はてなブログ投稿したほうが見た目もきれいになるしいいんでしょうが、持続できないブログを作るのも気後れするので、増田を使います

さて、掲題の件、はびこりそうな誤解がいくつかありそうなのが将棋ファンとして気になったので書こうと思ったものです。

カンニングはあったの?

本稿投稿時段階での報道を元にする限りでは、

日本将棋連盟三浦九段に対して、カンニングをしていないという悪魔の証明を求めた」

しか解釈できません。つまり将棋連盟三浦九段に対して、決定的な物証などを何一つ押さえないまま

「疑われているので潔白を証明しろ

というに等しい要求を投げかけたことになります

この点については続報を待つ必要がありますが、あくまでも現段階での私個人の感想としては

「下策中の下策、愚の骨頂」

というコメントに尽きます

なるほど確かに、三浦九段が疑わしいとする複数棋士から申し立てはあったのでしょう。

連盟がそれを黙殺すれば、その疑惑文春砲などで火を噴いた可能性も否定できません。

しかしながら、決定的な物証がなければ、いくら週刊誌が書きたてようが大きなダメージにはならないのは日本相撲協会週刊ポスト週刊現代顛末を見れば明らかです。

大相撲八百長問題警察から情報提供で明らかになる前、週刊ポストは30年にわたって角界八百長告発する記事を書き続けてきましたが、その内容は元力士らの極めて具体的かつ迫真性のある証言に基づくものはいえ、決定的な物証をおさえたものではなく、大相撲はそれによってはなんら決定的ダメージを負うことはありませんでした。

週刊ポストに対しては、日本相撲協会は徹底的に無視をし続けることで対応したのです。

また、週刊現代八百長報道に関しては相撲協会と各力士は、週刊ポストとの対応とは一転して大量の名誉毀損訴訟を起こしそのことごとくに勝訴しています週刊現代八百長報道週刊ポスト比較してもあまりにお粗末だった)。

日本将棋連盟は、こうした大相撲八百長問題におけるリスク評価対策から何も学ぶことなく、あくまでも現段階の報道に基づくところからは、およそ愚劣な対応をしたと言わざるを得ません。

スマホ将棋カンニングに使えるわけないでしょ?

さて、上記とは別にこの問題が深刻なのは、自宅にあるパソコン遠隔操作するまでもなく、2016年7月におけるスマホ将棋アプリの棋力は、渡辺明竜王佐藤天彦名人羽生善治三冠といったトップ棋士の棋力をすでに上回っているという有力な推測があるからにほかなりません。

そのような推測があるからこそ、将棋連盟12月中旬から

「対局室へのスマホを含む電子機器の持ち込み禁止、昼食休憩時における将棋会館外への外出禁止

を定め、これに違反したものは除名を含む厳しい処分を課すことを決め、さらに今週末から開幕する竜王戦では、対局者に対し対局前に金属探知機で持ち物チェックをするという対応を決めていたわけです。

新聞報道ではこの金属探知機での調査については渡辺竜王三浦挑戦者双方の同意の下とされています

(なお、上記のルール12月中旬から適用とある通り、仮にこの時点で将棋連盟不正に関する動かぬ物証をつかんでいたとしても、それを三浦九段に対して遡及適用できないことは当然です)

この件を報じた朝日新聞記事についていたブコメからいくつか代表的な反応を取り上げます

b:id:temtex 仮に事実としてもだ、たかスマホアプリでどうにかなるものなのか…と思ったら、別のとこで走らせたソフトの結果さえ判れば良いのか(但し"スマホ搭載"と記事にはある)。プロに勝てる有力なソフトってどんなの?

b:id:namnchichi スマホアプリタイトル取れるのか?

b:id:symbioticworm 現時点でスマホで走らせられる将棋ソフトなんてたかが知れてるから不正があったとすれば外部との通信必要なはずだけど。現段階では情報が少なすぎる……。

b:id:buu さすがにスマホ搭載のアプリじゃ参考にならないだろうが、協力者と連携すればカンニング可能だろう。人間よりもソフトが強くなるとどういう将棋界になるのかと興味深かったのだが、こうきたか

b:id:l0x0l スマホ将棋ソフトレベルで、プロ棋士の対局の参考になるかは疑問

b:id:kaitoster 『対局中、スマートフォンなどに搭載された将棋ソフトを使って不正をした疑い』←スマホ将棋ゲームすでにプロタイトルホルダーより強いソフトあるのかな?

なるほど、確かにプロ棋士とコンピュータ将棋が戦う電王戦ではコンピュータ将棋が大きく勝ち越しているとは言え、最新の事情を詳しくご存知でなければ上記のような反応は出てくるのが自然かもしれません。また、今回の当事者である三浦九段電王戦に出場した際の対戦相手が、東大駒場情報基盤センター学生用iMac680台をクラスタリングしたGPS将棋であったことも、上記のような反応につながるかもしれません。そこで、これらの誤解を解消するため、コンピュータ将棋の現況について説明したいと思います

ここ3年のコンピュータ将棋の強さの推移

まず、上記の三浦vsGPS将棋が行われて以降、ドワンゴ主催電王戦では使用されるCPUが制限されています。この制限に基づき電王戦で使われたCPUは、2014年がcorei7 4960X(6コア12スレッド)、2015年がcorei7 5960X(8コア16スレッド)とここまではその時点で調達可能なcorei7シリーズエクストリームエディションを使用していますが、今年2016年世代こそ最新のskylakeとなったものの4コア8スレッドcore i7 6700K、そして来年2017年使用CPUは同じく4コア8スレッドのcorei7 6700と、使用するハードウェアの性能は年ごとに抑制されるフェーズに入りました。

ではそれによってコンピュータ将棋パフォーマンスの伸びに制約がかかっているかというと、全くそんなことはありません。将棋ソフトponanza開発者山本一成さんは、2016年電王戦開幕前に「corei7 6700K1台で動くponanzaは、iMac680台をクラスタリングしたGPS将棋より遥かに強くなった」と宣言しています。これは根拠のないことではありません。

現在フリーで入手できる将棋ソフトについては、有志が統計的有意手法を用いてその相互間の強さをeloレーティングを用いて計測しています。その一例として、こちらのウェブサイトがあります。eloレーティングの仕組みについては[wikipedia:イロレーティング]を参考にしていただくとして、目安としてはレート上位から見て下位に100差あれば期待勝率64%、以下同じく200差で75%、300差で85%、400差で91%、500差で95%、600差で97%、となります

ponanzaフリーで公開されていないため、上記のウェブサイトにはレートは計算されていません。しかし、2016年電王戦に出場したponanzaは、このウェブサイトで「Apery twig」として掲載されているソフトに対し勝率97%を上げていることが、電王戦に出場した山崎隆之八段をサポートした千田翔太五段の調査によりわかっています。つまりこのponanzaのレートは「Apery twig」の3250に600を足した3850前後であろうと推定できます(なお、上記のサイト検証に用いているハードウェアIvybridgeおよびskylake世代の4コア8スレッドメモリ16GBであり、これは2016年電王戦における使用ハードと大きな差はありません)。

一方、2013年電王戦に出場して三浦九段と対戦したGPS将棋は、この表に掲載されているGPSFish(レート2879)をスレーヴとしてこれを680台クラスタリングしたものでした(厳密に言えば電王戦に出場したGPSfishはこれより一つ前のエディションですが大きな棋力向上はないもの仮定します)。この680台クラスタリングした際の棋力向上幅については、GPS将棋開発チームの田中哲朗東大准教授が、根拠は全く無く経験に基づく推測にすぎないとしながらもレートにして400程度と語っており、これを採用します。

そうすると2013年電王戦GPS将棋推定レートは3279となり、2016年電王戦ponanzaとのレート差はおよそ570、ponanzaから見た期待勝率は96%となりますわずか3年の間に、コンピュータ将棋は1台のデスクトップPCで、680台のパソコンクラスタリングした将棋システムに96%勝利する成長を遂げたのです。

(なお、コンピュータ将棋がかくも異常な速度で成長したのは、ドワンゴ電王戦において「使用ハードウェア制限」と「提出後対局まで6ヶ月間一切のアップデート不可その間棋士研究し放題」という条件をつけてしまたからだと考えています。こんな条件をつけなければ開発者はここまでしゃかりきに強化はしなかったはずです。ドワンゴがコンピュータ将棋大会に出してる優勝賞金の300万円なんて開発費の元手にもなりゃしないし、強いコンピュータ将棋を作ったって売り物にはならないので、モティベーションはこんな厳しい条件のもとで恥をかかないためにはひたすら強くするしかない、ってとこだけなんですから

将棋ソフトプロ棋士の強さの関係予測

もうひとつ、これらの将棋ソフトプロ棋士の強さの関係はどうなのだということも前提として必要になります。まず、プロ棋士レーティングについては、こちらのウェブサイト現在最も信頼され参考にされています。eloレーティングは、基準となる値を何点に設定するかで絶対値はいくらにでも設定できますが、上記の点差と期待勝率関係基準値を何点にしようが変わらないので、異なる基準値をとる異なるレート表間での比較可能になります

さて、コンピュータ将棋の公開対局場として、GPS将棋の開発チームが開設しているfloodgateというサイトがあります。ここでも参加者の対戦成績に基づいてレーティングが計測されています。また、この対局場は、コンピュータ将棋だけでなく人間も参加することができます。このfloodgateに、一時期上記の千田五段が参戦されていました。その際に記録されたレートは2800ほどでした。千田五段が参戦されていた時期のプロ棋士レーティングにおける数値と、その当時の羽生三冠との数値の比較から羽生三冠がfloodgateに参戦した場合予測されるレートは3000から3100程度だろうと見込まれています。また、先に紹介したコンピュータ将棋レーティングサイトのレートは、floodgateのレートの数値と大きく変わらないようにする工夫がされています。なお、羽生三冠のここ数年のプロ棋士レーティングは時期による前後はあれど概ね1900プラスマイナス50程度であり、佐藤天彦名人渡辺竜王の棋力もほぼこの幅に安定していて、現時点ではこの3人が名実ともにほぼ拮抗した最高レベルの棋力といえます

ここから考えた際に、2016年電王戦ponanza羽生天彦渡辺といったトップ棋士の棋力差はおよそレート差800、ponanzaの期待勝率は99%超、という推測になります第2期叡王戦本戦PV千田五段が、羽生ponanzaに対する勝率を0.5%と仮定しているのは、まずこの推測に基づくものと考えて相違ないでしょう。もちろんすべての基準となるfloodgateでの千田五段の数値は、普通プロ棋士公式戦ではありえない短い持ち時間の下で行われたものであるため、実際の羽生ponanzaの実力差はこの通りではない、という反論は容易ですが、そもそも持ち時間が9時間に増えたからと言ってレート800の差は埋まるものではなく、コンピュータ将棋も持ち時間を長くすればそれだけ強くなることを考慮すれば本質的議論とは言い難いでしょう。

やっと本題、スマホにおける将棋アプリの強さ

ここまで長い前置きを置かないと、なかなかこの本題に説得力が出ないと思いましたが、いよいよここから現在スマホ将棋アプリ話題です。

これだけ強くなったコンピュータ将棋ではありますが、これまでは基本的パソコン上で動かすものでした。スマホ用の将棋アプリも多数出てはいましたが、プロ棋士最上位に匹敵すると見られているものはありませんでした。

ところが今年の7月、android用の将棋アプリとしてshogidroidがリリースされます。これ自体将棋ソフトのGUIであって思考エンジンはないのですが、このshogidroidの売りは、今年の6月に一般公開された当時の最強フリー将棋ソフト「技巧」をandroidスマホの上で動かせるようにしたことでした。技巧の強さは先のコンピュータ将棋レーティングサイトで4コア8スレッドで動かした際に3578。ponanzaの3850には及ばないとは言え、今年6月当時ではponanzaに次ぐ2番めに強いソフトで、人間から見れば驚異的な棋力です。

もちろん、この技巧といえど、その棋力がCPUの能力に依存することは言うまでもありません。しかし、スマホ今日日クァッドコアは当たり前、Huawei P9のようにオクタコアを搭載してGeekbenchを用いたベンチマークテストで高い数値を出すスマホもある時代です。第4回将棋電王トーナメントで3位になったやねうら王の開発者で、皆様もよくご存知のやねうらおさんは、2016年9月時点のハイスペックスマホに、一切のスマホ用のチューニングを行わず思考エンジンを搭載しても、レートの落ち幅は400程度推定しています。この推定を当てはめて技巧をshogidroidで動かした時のレートを推定すると3178。やはり羽生天彦渡辺を上回っていることになります。実際にはもちろんやってみないとわかりませんが、あくまでも推測上では、すでに電王戦プロ棋士スマホで十分に成立し、それでもプロ棋士の分が悪いことが予測される段階に突入しているのです。

※ちなみに、先の電王トーナメントで優勝し来年の電王戦に出場する最新のponanzaは、今年の電王戦に出場するponanzaに9割勝つとの開発者山本さんの発言がありました。これを信じるならponanzaのレートは4200となり、スマホに積んでも3800で、やはり羽生三冠の期待勝率は1%に満たないことになります

これが2016年10月における、スマホで動かすコンピュータ将棋の現状になります恐ろしいことには、shogidroidは無料アプリであり、その思考エンジンの技巧もフリーウェア。それを最高スペックで動かすHuawei P9は54000円で買える、というところにあります。この状況をどう考えるかは皆様のご想像におまかせします。

カンニングたか検証できる?

さて、お気づきの方もいるかもしれませんが、疑われた三浦九段の棋譜をソフト検証してみれば白黒はっきりするのでは?と思われるかもしれません。しかしそれは極めて困難であると申し上げましょう。

まず、Shogidroidの上で動かせるソフトは技巧に限りません。その他のソフトも動かすことが可能です。次に、同じ将棋ソフトであっても、ある局面検討させたときに導く最善手は、CPUの性能や検討させる時間によって異なります。そもそも将棋ソフトにはある特定局面において常に同じ結果とならないよう検討においては乱数使用されており、一局の将棋の棋譜からではその人がカンニングたかを導くのは容易ではありません。

さらに、将棋は二人零和有限確定完全情報ゲームである以上、ある局面における最善解というのが必ず存在します。ということは、その最善解を自力で導いたかカンニングたか区別は、着手から「だけ」では判定できないことになります

以上の理由からカンニングたか否かの実験第三者が行っても、その結果についてはいくらでも疑義をつけることができ、有効ではないと言えましょう。

取り急ぎ、私からは以上となります

2016-03-13

人工知能は近々宗教になる。既になってるのかも。

人類歴史は道具の歴史だった。

鈍器を作れば、人間が素手で殴るより力が出るし、破壊できないもの破壊することができた。

「素手」の時代が終わった。

火薬人間を超える力で、鉄の玉を投擲した。

蒸気機関は、人間や馬を超える効率で動き続けたし、人類やすやす超える「力」を提供した。

「力」の時代が終わった。

コンピューターが生まれて間もなく、人間の「演繹力」を超えた。

演繹力」の時代が終わった。

古代において知性の頂点であった系統学による「分岐分類」は、

いまやコンピュータによるクラスタリングで行われている。

「分類」の時代が終わった。

多くの「未来予測」はコンピュータ制御シミュレーションされているし、

アルゴリズムトレーディングも盛んに行われている。

大統領選挙ですら、専門知による予測よりもコンピュータ分析の方が正しい結果が出る。

未来予測」の時代が終わりつつある。

コンピュータによる音楽模倣は、20世紀の終わりには専門家区別つかないレベルになった。

記憶力」はGoogleなどの検索エンジンによって拡張された。

記憶力」の時代が終わった。

2000年代ディープラーニング発明され、徐々に結果を残し始めると人間を超える「認知」の力を手にいれた。

Alpha碁はメルクマールとして偉大だった。

碁は「演繹力」と「認知」の力によるゲームであり、それが人類を超えた。

とても素晴らしいことだ。

認知」の時代が終わるということなのだろう。

こうして加速度的に人類しかできないことが機械に置き換えられていくことの先に、

シンギュラリティ」を予測する人々がいる。

地球人類全員を合わせたよりも高い知性にコンピュータが到達する日だというのだ。

この日よりあと、コンピュータはより高い計算資源をみずから設計獲得し、さらに賢くなる。

その日よりもあとは人類理解できないスピード世界が発展していき、様々な問題が解決されるのだという。

これを渇望する人々の話しぶりは、一部プロテスタントの人々の渇望する「携挙」を思わせる。

ある日突然のキリスト復活とともに、信心深いものけが神の国にいき、残りの人々は終わることのない争いに巻き込まれるのだというものだ。

また、これはゴータマの入滅後の遥か未来弥勒菩薩が現れ、

人々を救うという弥勒信仰の類にも近い。

もっと俗っぽいものであれば、ノストラダムスの大予言人類が滅びるみたいのもそうだろう。

人類がまた何か人類よりも上手に行うことができる道具を手にするだけのことだ。

今までと何かががらっと変わるがある意味では何も変わらないかもしれない。それだけのことだろう。

だが、絶望が深いとその日が宗教的イニシエーションになる。

いつか来るその日のために人工知能に残すべき人類だと思われるように

Facebookに『ありがとう』と書くと善良な人間と思われて救われる」とか

Googleに1日5回の神への感謝検索しよう」とか

Wikipedia財団寄付すると徳が積まれる」とか。

「私はDeepMindにアクセスしてあなた未来を見ることができる。財産喜捨すれば、未来を書き換えれる」とか。

きっと今日のように、とても知的好奇心を掻き立てられて未来への希望が開くけど、

ちょっとばかり人類尊厳が減ったような気がするそんな日がさらっとやってくるだけだ。

2016-02-11

太鼓の達人自己承認欲求とは

ブコメで吠える人の欲求のそれと、同じものなのであろうか。マズロー自己承認欲求をクラスタリングをしなかったのか。不思議である

2016-01-16

http://anond.hatelabo.jp/20160116181821

ねえSVMクラスタリングと呼んでいる文献があったら教えてくれない?

http://anond.hatelabo.jp/20160116040726

クラスタリングってk-meansとかSVMとかDBSCANとかEMとかそういうイメージなんだけど合ってるかな?

どれも一長一短でいまいちだなーって思ってるので新しいアイデアは大歓迎だよ!

http://anond.hatelabo.jp/20160116152421

こういう知ったかぶりバカが偉そうに新参者を除外しようとするのは典型的パターンですが、非常に良くないですね。

ベクトルクラスタリングは奥の深い話ですし、現在考案されているアルゴリズムはどれも完璧とは程遠いものばかりです。

この分野ではアイデア勝負なのです。いきなり初心者ブレイクスルーする可能性はまだまだ十分ありえます

ある問題が単体で面白いと思えてそこで独自アイデアを思い付き、そのアイデア自分なりに調査して一週間かけて実装する根性のある人は実のところあまりいないので、それだけでも大いに価値のあることなのです。

皆さん色々な理由を付けてそういうことをやらない。この分野は焼け野原だ、とかね。

http://anond.hatelabo.jp/20160116040726

ベクトルクラスタリングですか。面白いトピックだと思います

是非そのアイデアだけでもどこかで共有していただきたいものです。

うまくいかなかったとしても一度はそれでいける!と考えたものだと思いますのでそこには何らかのヒントが含まれいるかもしれません。

研究は根気です。

自分面白いと思ったアイデアをひたすら考え続けていくといつのまにかその分野のトップになっていたりするかもしれませんよ。

慣れてくると最初に先行研究がないか調べている段階で自分アイデアおかしな部分に気付いたりするものですし、1週間のロスみたいなケースはあまりなくなると思います

その代わり、年単位でのロスは発生しますがそれは無駄になりませんのでご安心を。

研究職の人って失敗にめげず頑張っててホント凄いと思う

1週間前、あっ……これ良いかもっていうアイデアを思いついた

ベクトルデータクラスタリングに関することだったんだけど、ググったり関連文献あさっても同じような事してる人は全然いない

なので今までそういう経験はほぼなかったんだけど、自分で1から実装してみることにした

結果、大失敗、意味なかった、というか無理だった

3日目くらいまでは、凄い順調で、おお、これ凄いぞ!やばいやばい!って一人でテンション上がってたんだけど

5日目の終わりに、あれこれもしかしたら、この概念拡張したらアウトじゃない?拡張できなくない!?っていう疑問が湧いてきて

ただ、自分数学力ではそれを数式で証明なり検証するのは不可能だったので確認できるところまで実装を進めることにした

今日、というかさっき、自分が1週間前からやってたことは全部無駄だったというのが確定した

もう気分の落ち込みが半端じゃない、本当に最悪、何もする気おきない

フリーから24時間×7日間まるまる使ってるし、1週間もかけて残ったものゼロ

そりゃ今までだって1日かけて書いたコードを全部破棄とか書き直しとかそんな事いくらでもあったけど

なんかそういうのとは全然質が違う気がする

で思ったんだけど、研究者って日常的にこういう思いしてるんだよね?

自分がやってた実験が何の意味もなかった、半年かけたけど成果ゼロ最初の想定から間違ってた!とかさ

当然、結果が全ての世界からその半年の頑張りなんかもまったく評価されないし意味がないんでしょ

凄くない?

更にそういうの全部乗り越えて、結果を出すんでしょ

ほんと凄いよ

学生の頃、友達とキムワイパーとか言ってバカにしてたけど謝りたい

だって毎日失敗にめげず頑張ってるんでしょ

頑張ってるんだよね?

2015-07-05

http://anond.hatelabo.jp/20150705102837

俺があげたサイトの「次元呪い」のセクションには「計算はとっても時間がかかってしまます。」とあるんだがな。関数値を計算するのは簡単、というのは不正確な言い方で、真の関数値を計算するのが困難だからこそ、簡単に計算可能な関数代用して、近似的に真の関数値を計算するための仕組みがMCMCだろう。そりゃ、代用で使う関数の値を計算するのは簡単だよ、そのために導入したんだから

まぁ、計算量の話はどうでもいい。他に知ってる「次元呪い」の普通用法は、クラスタリングの際に、高次元空間だとほとんどのデータ点間の類似度が同じ値になってしまって、クラスタリングが失敗しやすくなるという話だな。この現象を「関数が望む性質を持たなくなる」と表現したのが伝わらなかったのかな。クラスタリングの際に使う類似度も関数の一種で、それが望む性質を持たなくなるのだから、間違ってないと思うのだけどな。

http://ibisforest.org/index.php?%E6%AC%A1%E5%85%83%E3%81%AE%E5%91%AA%E3%81%84

で、クラスリングでも計算量でもいいから、それが、遺伝多様性が確保できない問題と何の関係があるんだ?教えろよ。

俺があげたサイトは「次元呪い」と「遺伝多様性」について何も述べていない。少なくとも、「次元呪い」が、分野によって遺伝多様性とは関係ない文脈で使われる言葉であることは確かなわけだ。

そこ、ちゃんと説明してもらわないと、「遺伝多様性が確保できる」ことと「次元呪い」がどう関係しているかはわからないし、何の反証にもなってないぞ。

2014-09-30

http://anond.hatelabo.jp/20140929164425

クラスタリングには同意するが、兄弟という1対多の親族関係は成り立つので、元の図はかなり強引だと思う。

クラスタリングに関しても、自分メンタル志向性が一致しているというだけの話なので、

政治家になった人同士、境遇が近いから気が合うという面も十分にあるので、

クラスタリング理由にしてしまうと、単なる僻みになってしまうので除外した。

2014-09-29

http://anond.hatelabo.jp/20140929164027

その「友達の友達友達の友達」は友達っていう1対多が成り立つ関係からこそであって、血縁関係場合は1対多はそんなに多くならないのに加えて

結構クラスタリングされてるってのがあるから10世代たどっても日本人全員とはいかない筈だぜ。おそらく27~30世代くらいは必要なはず。

2014-03-25

http://anond.hatelabo.jp/20140325144022

マジレスする。

プログラミング必要とされるパラダイムなんてのは要件によりまちまちで、それこそ一つのプログラマーの心」なんてのでカバーできるものじゃあない。

コードの見やすさを命としたりするのもあれば、処理がシンプルであるのを是とするのもある。

それらは「思想」というレベルクラスタリング化している訳で、高い技術を有している者の間でもそれぞれに思想は違う。

自分が専門としている分野に対して一家言を持つのはいい。だが、それを「プログラマー」全体にまで波及できるかと言ったら、大間違いだ!

2014-01-27

http://anond.hatelabo.jp/20140127114705

クラスタリングの時点で素人ではないと思ってたけど、やっぱりこっち系の人なんだね。

Mecab入れようと思ってたんだけど、pythonラッパーインスコが遅すぎ and Yahooの方がクオリティが高いらしい ということでYahooでやってた。

一応クローリングPythonで簡単なスクリプト書いてたんだけど、ページごとにざっくり取得してるんだわ。記事ごとに取得できるスクリプト貰えると嬉しい。

手元あるオライリーのペンギン本に記事の特徴を検出するサンプルがあった気がするから、できると思う。

増田流行語を調べてみたら、やっぱりお前らは○○コンだった


きっか

増田で「増田データクラスタリングしたら面白いんじゃね?」って話になった

■暇だからリクエストされたプログラム作るけど、需要ある?

クラスタリングメタデータとか必要だったので、まずは簡単な統計をしてみた。

流れ

とりま2014/1/1〜1/26のデータ収集テキストだけで6MBという鬼畜っぷり。(データ1) それをYahoo形態素分析API単語に分解、集計(データ2) 見てもらえば分かるが、ノイズがひどい。「トラックバック」とか「こと」「それ」みたいな、意味も無い言葉が混じっている。こっからは手作業でノイズ単語を除去していく。その結果がこれ。1位から10位までを勝手に解説

結果

1位 子供 == 1030

なぞ。子連れの奴が多いのか、少年愛or少女者が多いのか。はたまた煽り文なのか。

2位 今 == 951

これは某塾講師の影響だろうな。いつ言うんだよ?

3位 日本 == 932

右翼の方々かな?島の問題で色々あったもんな。

4位 匿名 == 909

まぁそうだな。

5位 女 == 901

これは自覚症状あるだろ?

6位 問題 == 846

7位 男 == 789

8位 相手 == 754

9位 意味 == 739

10仕事 == 717

偉大なるニート先輩の言葉だな。

11位〜20位
  1. 時 == 700
  2. 結婚 == 663
  3. 奴 == 655
  4. 普通 == 639
  5. 本当 == 605
  6. 女性 == 596
  7. 時間 == 593
  8. 必要 == 567

2014-01-26

http://anond.hatelabo.jp/20140126143215

クラスタリング!ビックデータだな。おもしろそう。

完全に特定できるかは分からんが、ひらがな割合とか、文章の構成順とかで、カテゴリ分けはできると思う。

例えば、ガチ高学歴グループ自称高学歴グループガチ中卒グループとか。

さっそくやってみるわ。できたら書く

http://anond.hatelabo.jp/20140126140935

増田に蓄積された文章の特徴をクラスタリングして何人くらいの人が書き込んでるのかを明らかにして欲しい

2013-12-18

*デザインプログラマーとやって来て、やっぱり自分に合わなかった事を書いた

初めまして。前回「Web系の会社を解雇されて思った事 」を皆さんに読んで頂いて大変うれしい。自分はと言うととりあえず会社らしき所で働いているが、もう辞めたい病発症中だ。以下辞めたい病の内容を職種別に話そうと思う。

デザイン系の会社に居て思った事

Webという仕事をやってて一番嫌いなのがこのデザインと言う仕事だ。大手企業入社できない大手病まっしぐら28歳の自分としては、どうしても事業規模の小さい会社仕事する事が多く、デザイン方向性から自分担当する事がある。ここで俺がデザインを嫌いな理由は「そもそも何でデザイン作成や改修をするんですか?」とやる目的が見えない時があるからだ。まずデザインや文章を書いていく上で重要な事を書くと、

1.相手に何を伝えたいか

2.どのような伝えていく事で、相手にどのような印象を与えていくか?

の2つ。例えばこの文章は「俺が仕事愚痴を書いて、皆さんに共感してもらう」事や「こいつはこういう仕事が向いていない奴」「こいつは仕事本体より愚痴になると心が踊る奴だ」と言う印象を皆さんに与える為に書いている。

相手に合わせた商品を提案する事も大切

さてAKB48だろうと「普通な女の子が歌う歌」と言う方向性があるし、西野カナにしても「失恋に悩む女の子」と言う方向性があって、それに則ってお金を取っているわけだ。その点を煮詰める事が一番肝心だし、そもそもの方向性が定まってないのにサイトを作るのは「敢えて言おう。無駄であると」と言いたい

それこそサイトを受注する料金がかかるのならば無料ブログでも良い。それこそキャバ嬢風俗嬢女の子個人サイトでも持って営業したからと言って、収益に結びつくのだろうか?否そうではない。要は見た目の良さや機能性のみだけがサイト商品の善し悪しを決める訳ではなく、相手に合わせ的確なものを選ぶのが肝要であり、そういう話が無いデザイン会社を受けるのは絶対に受験するのを止めろと言いたい。キャバ嬢から話を話して、千葉県Cafe GAKEのブログなどを見ていても思う事で、そのお店の雰囲気店長の人柄が伝わればそれで良いと思っている。

3社目は見てくればかりでとにかく苦手だった

さて3社目にいた時はどうだったか機能や見た目に浮かれるような上だったからこそ最悪だった。結論から言えば「Photoshopでスライスし、パーツ画像を作成するコツと方法(Webクリエイターボックス)」に書いてあるようなPhotoshopスライスの切り方や、各部分の間隔のそろえ方などデザインに関する技術を覚えられたのは良かったと思う。しかし企画としては明らかに失敗と思うケースは意外にある

具体的には「○○をユーザーによく見せる為に、△△なサイトデザインにしていく」と言う何故このデザインにするの?と言う説明が無いままいきなり作ってと言う流れに。そりゃあ慣れないプログラム言語を使ってデザイン部分〜データーベース部分に至るまでほぼ一人でやっていた訳だ。しかし終始上は上で俺が作ったページが最高だ!と言わん顔。クライアントとの打ち合わせ会議から帰って来ると「サイト画像エフェクトを使うという冒険をしたくないのか?」とクライアントを非難する事を陰で言ってるあたり、そもそも何の為に作っているのかをお互い摺り合わせていない事がわかった。

無論技術を見せびらかして「素人目に見てこうした方が凄い」とのたまっていたが、はっきり言って見る人は絶対に見ない。そもそも今の俺がそうだから。と言う訳でどうも俺はデザインが似合わない事が分かった。

ソーシャルゲーム系の会社に居て思った事

と同様に俺はプログラムと言う名の現場開発もどうも苦手だった。俺はエロ系のサイトの改修をやっていたときは「世界最強のエロサイトを作ってやるぜ」と息を巻いていた。しかソーシャルゲームはどうか?お姉ちゃんおっぱい関係ないし、かといってお尻も関係ない生活が3ヶ月続いた。そもそも無機質なカードを見て欲情できる奴らの気持ちが理解できず、なんでこんな物で満足できるのだろうと思っていた。

Coupon Collectors Ploblemとの素敵な出会い

しか会社をクビになる頃、俺はすばらしい数学の問題に出会ったのだ。Twitter経由で「コンプガチャの数理 -コンプに必要な期待回数の計算方法について-:doryokujin's blog」に書かれていた、Coupon Collectors Ploblemと言う命題に非常に感激した。これはnを自然数としてn種類のクーポンの出現確率が同じと仮定した場合、n種類のクーポン全てが出そろう枚数の期待値 E(n) = n(1 + 1/2 +1/3 + …… + 1/n)(枚)となると言うもの

この時マクドナルドで3種類のコーラグラスを集めるキャンペーンをやっていて、セットを幾ら頼めば良いかなんてのを暗算で弾いたのは良い思い出。n=3なのでE(3) = 11/2で、セット一種類当たりの値段が600円だから3種類全て出そろう期待金額= 600 * 11/2 = 3'300(円)なので、最初から3種類買って全て集めたのは良い思い出だ。これがソーシャルゲーム時代に一番感激したないようで、ソーシャルゲーム運用のやり方とこのCoupon Collector's Ploblemの証明どっちを取るかと聞かれたら、すかさず後者を取るだろう。それくらい俺は物を作ると言う仕事に向いていないらしいことが分かった。むしろ統計学データマイニングと言った数学を駆使してできる商売や、商品企画などもっと上流の過程仕事がしたいと思い探している。

現状

6月面接の段階で、機械学習クラスタリングと言った知識に穴があった。最近ではその点を補う為に「データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)」のような本を読んで、取り合えず次の会社面接官の話のタネになる知識を集めている最中だ。大学時代が贈処理の研究をしていて、クラスタリングと言う単語は聞いた事があった。しかし実際に触れてなかったので改めてここで復習をしているのだ。

最後にこの文章をはてな匿名ダイヤリーで書いたのは、顔を隠そうと思っての事だ。「明らか向かない仕事をどうしてやるのだろう?」「デザインに関しては俺はクライアントの要求以上の事は出来ない。寧ろ美術関係学校をでているような人に座を譲りたい。デザインに対する情熱が俺とは違う」「俺の好きな数学データを駆使するしごとにいきたい」としきりに思いながら仕事をしている。そして長々と愚痴を書いたが、こんな愚痴をここまでお読み頂いた皆さんには感謝だ。又こういった場を提供してくださった株式会社はてなの皆さんにも感謝する次第である

アーカイブ ヘルプ
ログイン ユーザー登録
ようこそ ゲスト さん