はてなキーワード: Csvとは
バイオ系は、つぶしが効かない。ポイントは、そうなんですよね…。
確かに主成分分析、流行りの統計的手法をなどを良くわかろうとするならば、線形代数とか知っている格段に良さそうですよね。
もしかして、普段から結構レベル高い人を相手に、されていますか。旧帝大系か、早慶レベルの人ですか。というか、アカデミックな仕事を得ようとするならば、当然ですかね…。
---
プログラミングといっても、csv file のサイズも、せいぜいExcelで開くことが出来る程度の量のデータです。
多くても5000行もありません。
でも、Rでloopで回して、ggplotでグラフを描く、optionを変更とかは、しています。
pythonは、プログラマーの人にも、手伝って貰って、csvから、matplotlibを使ってなんとか、望んだ形のグラフを書ける程度です。
(Learn python hard way なるものを途中で挫折のレベルです。)
業務で、それらのR, pythonの技術を使える環境にあるので、学んだほうが、自分の為にも、職場の人の為にも、なりそうですね。
プログラミングを書けるようになるには、Stack OverFlowとか、英語のドキュメントを読めるとやっぱり、違いますよね。
英語が出来る外国人っていいなぁって思います。もちろん、日本人でも。
—
はてなで、ブックマークがたくさんついていたので、あの記事も読みました。
「圧倒的に生産性の高い人(サイエンティスト)の研究スタイル、
http://d.hatena.ne.jp/kaz_ataka/20081018/1224287687」
経験が浅いうちは、経験のある人とのディスカッションやコールドインタビューという手法が大切、ということを思い出しました。
+++
はてなー技術的な動向としては、データサイエンスって流れみたいですね。
細分化が激しそうですね。
機械学習は、たとえば、slide shareで、パターン認識と機械学習入門
http://www.slideshare.net/mmktakahashi/ss-13694313
オライリー本の「入門 機械学習」Rで、書くやつです、これは、買いました。
そういうことならば、道としては、間違ってなさそうですね。
自分の興味で食べていけそうな感じも、ないわけではないですね。
--
ーーー
わざわざなんでCSVで保存しなきゃなんないのかベンダーに聞いた方がいいよ。
× 俗にいう「使えないシステム」ってやつをつかまされたのかもしれない。 ○ 俗にいう「必須機能を伝え忘れたまま完成しちゃった」から、「使えないシステムをつかまされた」という設定でいこう(ゝω・)テヘペロ
× 今、WEBアプリみたいので、業務ツール作っているんだけど完成が見えてきた段階で実はボロボロのものが出来上がってることに気が付いてきた。 ○ 業務ツールの作成を依頼したけど、完成段階まで必須機能を盛り込み忘れたことに今更気付いたどうしよう(ゝω・)テヘペロ
× 全部CSVっていう言語でしか出せない。 ○ 全部CSVっていう形式でしか出せない。カティア言語とか形式とかよくわかんないや(ゝω・)テヘペロ
× CSVをエクセルで開くとところどころ文字化けになってて全然使えないし、 ○ 何の文字コードで普段扱うかとか誰も気にせず完成しちゃったから文字化けで業務が回らず困った(ゝω・)テヘペロ
× そもそも罫線もないしページングもされてない。 ○ ただのデータの羅列なので罫線もないしページングも当然あるわけないんだけど、そこは作り手の問題にしちゃえ(ゝω・)テヘペロ
× ベンダーにそういったら「それは無理」の一点張り。 ○ ろんもちロハで作り直して(ゝω・)テヘペロ ってベンダーに頼んだら「それは無理」の一点張り。
× コンサルはベンダーの瑕疵だからなおさせろ、ベンダーはやらない、で膠着状態。 ○ コンサルはベンダーの瑕疵という事にして無料で直させろ、って難癖で膠着状態に持ち込むことにひとまず成功★(ゝω・)テヘペロ
× CSVだけじゃなくてほかにも必要な集計が画面上でできなかったり、そもそも機能自体が欠落していたりとかしてどうにもならない。 ○ 他の機能も必須なところを頼み忘れた・確認し忘れてたけど、まあ今頃言っても仕方ないよね(ゝω・)テヘペロ
× このまま話がすすまないで納期間に合わなくなったら大変なことになるって言っても ○ このまま話がすすまないで納期間に合わなくなったら大変なことになるって脅しても(ゝω・)テヘペロ
× 「仕様変更で納期が延びるのは当然だし、その場合再見積もりになる」とかサラッというし。 ○ 「仕様変更で納期が延びるのは当然だし、その場合再見積もりになる」とか当然のことを言われたので、イラッ★(ゝω・)テヘペロ
× 20代のクソガキが! ○ 理屈すっ飛ばして、相手が若造だから全て悪いことにしちゃえッ(ゝω・)テヘペロ
× つうか仕様変更じゃねーしおめーの能力不足でこっちが迷惑こうむってんの! ○ 必要な機能を後からお願いは仕様追加だし、それに今更気付いたのはこっちの能力不足だけどこっちが迷惑って事でヨロピコ(ゝω・)テヘペロ
× って、ベンダーに文句言ったところで何かが変わるとは思えない。だからといって追加で払う金もない。裁判する時間も金もない。死にそうです。 ○ って、ベンダーに無理筋通すしかないし、お金もないし時間もないしお金もないし、恫喝系で実績のあるコンサルお探し中。(ゝω・)テヘペロ
元々の仕様に「エクセルで出力するよ」って書かれてるなら、さっさと裁判して勝てば良いし、
元々の仕様に「エクセル」の「エ」の字も無いなら、さっさと裁判して負ければ良い。単純な話すぎる。
うちは、あまりITが専門じゃない業界向けに開発してますけど、
もちろん、CSVで出力するといっても、読むのはどうせエクセルになるんで、
業界の人かな?
業界内部ではそうかもしれないけど、我々のようなITが専門じゃない場合はちょっとちがうみたいですよ。
コンサルから言わすと、CSVは機械同士がやり取りするための言語で人がそのまま扱う性質のものではないそうです。
CSVのままで出力はひどすぎるとまで言っていました。
だから機能に「データ出力機能」っていうのがあれば、特殊なリクエストがない限り、ベンダーはエクセルで出力できるようにすると考えるべきとのことです。
CSVをダブルクリックで開くと、数字のあたまの0は落ちるし、日付じゃないところが日付になったりして使えない場合が多い。
テキストを読み込むでやると、ちゃんと開けるよ。罫線とか改ページはついてないけどw。つうか、コンサルいるならそいつに聞けばいいじゃん。さらにそいつにCSVを読み込んで罫線と改ページ付きのエクセルを生成するプログラム作らせればいいじゃん。
文字化けするのは、漢字コードの扱いが不適切な可能性が高い。ちゃんとShiftJISで出力されているか確認したほうが良い。
俗にいう「使えないシステム」ってやつをつかまされたのかもしれない。
今、WEBアプリみたいので、業務ツール作っているんだけど完成が見えてきた段階で実はボロボロのものが出来上がってることに気が付いてきた。たとえば月報とか日報みたいなアウトプットが必要なデータが10種類ぐらいあるんだけど、全部CSVっていう言語でしか出せない。CSVをエクセルで開くとところどころ文字化けになってて全然使えないし、そもそも罫線もないしページングもされてない。社外のコンサルに聞いても、CSVは機械同士がやり取りするための言語で、人が使うデータはエクセルで出せるようにするのが普通って言っている。ベンダーにそういったら「それは無理」の一点張り。コンサルはベンダーの瑕疵だからなおさせろ、ベンダーはやらない、で膠着状態。CSVだけじゃなくてほかにも必要な集計が画面上でできなかったり、そもそも機能自体が欠落していたりとかしてどうにもならない。
このまま話がすすまないで納期間に合わなくなったら大変なことになるって言っても「仕様変更で納期が延びるのは当然だし、その場合再見積もりになる」とかサラッというし。20代のクソガキが!つうか仕様変更じゃねーしおめーの能力不足でこっちが迷惑こうむってんの!って、ベンダーに文句言ったところで何かが変わるとは思えない。だからといって追加で払う金もない。裁判する時間も金もない。死にそうです。
★地方公共団体とか国とかの公的団体は、所有している普通預金口座・当座預金口座、郵貯口座を、
ネットでリアルタイムで開示するシステムを入れてみてはどうか?
(但し、個人との間の入出金取引は、個人情報の関係で個人名だけマスキングする。
★例えば
「茨木市名義の、関西アーバン銀行当座預金口座の、10月3日の入出金状況」を、
「こういう業者に市は34万円支払ったんだ」
と全てガラス貼りになる。
★恐らく全法人の法人税・固定資産税・消費税等の納税情報が、全てガラス張りになる結果になる。
つまり、全ての企業の納税額や対政府・自治体取引が開示されることになる。
「それは問題だ」という意見もあるだろうが、そもそも法人税納税情報は、隠すべき情報なのか?
★全ての政府・自治体の入出金情報をガラス張りにするだけじゃなく、
そのデータをCSV形式で自由にダウンロードできるようにすれば、それを使った各種ビッグデータ解析が生まれる。
企業の与信調査とか、こういうガラス張りシステムがあれば、ものすごく捗る
「大学教師が新入生に薦める100冊: わたしが知らないスゴ本は、きっとあなたが読んでいる」のCSVファイルを重複排除・ソート。出現数3回以上だけを抜き出してみた。記号が統一されていなくて漏れてしまっているのもあるかも知れない。(ゲーデル、エッシャー、バッハ─
の長音風記号はなぜか統一されていて、Amazonでも全く同じ表記)
世の中にはマニアがあふれている。
これに尽きます。
「僕は世の中を知っている大人だ。」なんて
こんな身近に知らない世界はありました。
中でも僕を驚かせたのは
嘔吐好きとか、
ゲロはいてる女性見て、なんで興奮するんですか!? Σ(゚∀゚ノ)ノ
そのゲロかぶって、なんで興奮するんですか!? Σ(゚∀゚ノ)ノ
キワモノ好きなんて、
裸の女性がミミズや昆虫にまみれて、それを食ってんですよ! Σ(゚∀゚ノ)ノ
さすがに気持ち悪くなりました。。。
男は半分の7千万人でしょ?
エロに情熱がある若者から中年層だとその半分強で4千万人として
その4千万のうち
ってどのくらいいるんでしょうね。。。
作る人がいて見る人がいるんだから、まあソコソコな人数いるんだろうなあ。。
【らぶらぶAVさーち】
AVの検索サイトです。
ちなみに、ワンクリックで検索できるピックアップ検索は私の趣味です。w
最近は、つぼみ、紗倉まな、ほしのあすか、臼井あいみがオススメです。www ぐう可愛い!(゜∀゜
Nginx + php-fpm + MySQL で動いています。
言語はPHP + Smarty + Javascript(jQuery) で書いています。
あと、スクレイピング用に .NET で windowsアプリを作りました。
すぐ誤動作してしまうのですよね。。。
PHPだと対応し直しが面倒なので .NET に逃げました。。。。ヽ(°▽、°)ノエヘヘヘヘ
データは、アフィリをやっている
動画サイトのduga さんと、MGS動画さんから持ってきています。
DUGA
データを常に最新にしておくために
個人的には
待ち合わせで暇なときに
てな感じで使っています。
んで、プログラマー()とか言ってる奴の仕事の大半はただただ命令通りにコードを書いてくだけなんだから一昔まえの事務仕事と一緒。
誰でも出来る簡単なお仕事。
なぁなぁ、それってどうやって実現してんだ?
SI界隈でメシ食ってるけど、見てきたコードの9割がクソコードなんだが。今日でも20年前より状況が良くなってる感じがしないぞ。
ヒープとスタックの区別も知らないスコープの意味もわかってない時間計算量も空間計算量も考慮されてなくて、
利用者が1人なら動くけど10人で利用すると挙動がおかしいとか、
データが100件ならすぐ終わるけど10000件だと24時間たっても終わらないとかメモリがあふれるとか、
月や年をまたいだはずなのに32日になってるとか13月になってるとか、月末締切のはずなのに月末の前日に締め切られるとか、
SQLインジェクションどころか認証もしてないのに他人のパスワード書き換えられるとか、
カンマやダブルクォートを入力したらCSVな出力データが壊れるとか、
マルチバイト文字列をバイト単位で分割して分割部分の文字を壊すとか、
そういうことがおきないんだよな? おまえのとこでは。
本当にどうやって実現してるんだ?
CSV読み込めるだけ立派だわ。
今後も表組みで管理していきたいので
非常に困ってしまいました。
できる方は日常的にやっておられるようです。
同様の処理を実現するシステムを構築することは、可能か不可能かで言えば可能ですが
表形式の編集画面はご提供できますが、Excelほど柔軟には作業できません。
列ごとコピーしてデータ貼り付けて表作るという一見簡単そうに見えることでも
レアな表を作成する場合はCSVで保存してExcelに取り込んで加工してください。
・・・とご説明申し上げたところ
担当者さんはげんなりした表情ですっかりやる気をなくされたようなんですが
この先大丈夫でしょうか…
うちの部署に入れる新しい業務システムの構築の担当になって、昨日から打合せが始まった。今までエクセルで管理してたものが多くて結構表組みで管理したいものがたくさんあったから、そういう要望を業者に伝えたら「いや~、、ハハハ・・(だったら今まで通りエクセルでやれば?)」みたいな反応。例えばフィルターとか超使ってるし、タブをドンドン増やしてハイパーリンクでつないで元データから引っ張ってきて計算して表組みを作成するとかいつもやってるような作業が新システムだと厳しい(=できないor莫大な時間と金がかかる)らしい・・。帳票は固定になりますね、帳票増やすと増やした分だけ金かかります、みたいな感じ。いちばんビビったのがコピーペーストができないって言われたこと。列ごとコピーしてデータ貼り付けて表作るっていう単純なことが、何百万だか払って作るシステムではできないとか・・。(CSVで保存してアップロードしてくださいとかなんとか言ってたけどそんなことしてられっか!みたいな・・・)なんかいきなりやる気なくなってるんですけどこの先大丈夫かな・・。
現在二十代後半の自分は小学校でのコンピュータ教育が始まったタイミングの世代です。
始めは「学校へコンピュータ導入しました」みたいな申し訳程度な感じだったと記憶しています。
小学校でのコンピュータ教育の内容としてはCD-ROMを配布され、ODへ挿れるとソフトウェアが書き込まれたISOが自動起動して、そのソフトウェア上でコンピュータを学ぶという形式だったはずです。
学習ソフトウェアは勝手にフルスクリーンになるわけですが、今思えば無知な小学生がOSの設定を変えてしまわない配慮だったのだと思います。
実はこのあたりの記憶は曖昧なので学習ソフトウェアの内容は以下のような感じだったはずです。
これ以外もあったような気がしなくも無いですが、前提として私は小学生男子なので興味のないものは記憶からすっぽり抜け落ちている可能性が高いです。
この中で一番出来が良いのはパラパラマンガツールで、おそらくはプレゼンテーションなどを学ばせるためのものだったのでしょう。
時代を考えるとFlashが出始めの頃でありユーザーインタフェースや機能はFlash作成ツールから影響を受けていたようです。
ポケモンの戦闘シーンを完全再現したことでクラス内でヒーロになったのでこのツールには思い入れが深いですw
感覚として元も近いFlash作成ツールはParaFla!で、ParaFla!とペイントを足して2で割ってタイムラインシーケンスが無い感じでした。
地図を学ぶゲームも比較的良い出来で、ユーザーインタフェースはシムシティな感じでしたね。思いっきり影響を受けてるようでした。
確かストーリー仕立てになっていてクリックしてるだけで進み、地図記号とか学べるんじゃなかったかなあ?と記憶が曖昧です。
この学習ソフトウェア、どうコンピュータ教育に活かされていたか?と言えば、何にも活かされていませんでした。
教師は軽くマウスやキーボードの使い方を指導するだけで、あとは良い言葉を選ぶなら生徒の自主性に任せて、変な設定等を行わないように監視しているだけでした。
どういう指導要領になっていたかは知りませんが、コンピュータによるオートメーションを過剰評価して授業もオートメーション化出来るかも?と国は考えたのでしょうか?
まあコンピュータ教育が導入された最初期ですから実験的な意味合いも多分に含まれていたと思います。
パソコンの起動方法から始まり、ローマ字入力(小学校はひらがな入力)、そしてMS Officeへと入りいます。
このあたりは民間のパソコン教室と変わりがないかも知れません。
小学校で行われていた学習のオートメーション化への期待は無惨にも崩れたらしく、教師は手取り足取り教えてくれます。
それは新規フォルダや新規ファイルの作成方法、メールやWebブラウザの使用方法、その他今現在皆さんが日常的に使うであろうソフトウェアの指導が全く無いです。
どうやら学習のオートメーション化は不可能だと気づいたため、今度は思いっきり実用に振ってMS Officeマスターを育てるという選択をしたようです。
Wordでは文字の大きさや色、背景色、ワードアートの使用法、図の挿入、印刷などが中心に指導されます。
ワードプロセッサソフトが大好きな方は気付いたと思います。そうですWordなのにマークアップの指導が一切ありません。
完全に見た目の変更の仕方と印刷だけの指導であり、Wordなのにアウトラインとか完全に無視です。
見た目中心の指導を行うことはWordと変わらないですが、Excel関数の指導に入ると関数の意味をほとんど教えず「B1へ=SUM(A1:A5)と入力してください。はいA1からA5が足された答えがB1に表示されました。次は...」といった感じです。
生徒は教師の指示通り入力するだけで応用とかそういうの全くわかりません。しっかり理解してるのは見た目の変更の仕方くらいです。
時代ですね。こうして互換性無視なオフィスファイルは作られていったのでした。国がそう教えてましたから。
あっそうそうPowerpointとかAccessは授業でやりませんでした。
端的に言うのならば同上。
しかしPowerpointが追加されました。流石にPowerpointも教えないといけないと気付いたのでしょうか?
高校によっては工業高校や商業高校、高専ではもっとマシな指導をしていた可能性はあります。
ただやっぱり社会人から見るとツッコミ入れたくなるような指導が一部で取られていたと思います。国も手探りですから。
この年齢くらいになると学校の授業で覚えたと言うよりも独学でパソコンを習得してる生徒が殆どになっていました。
全くと言って良いほど学校の授業からは得たものがなく、エロ画像探しのほうがコンピュータリテラシーを僕に与えてくれました。
そして大学時代は教授のゴリ押しからOSがWindowsからEmacsに変わりました。
はてブで小学生向けにビジュアルプログラミングScratchが流行り始めてるんだなと知ったくらいでコンピュータ教育の授業の内情がどうなっているか全く知らないです。
なので僕が少年期に受けたコンピュータ教育を前提として「こうだったら良かったのに」というのを書きます。
コンピュータを扱うにおいてデータ管理というのは非常に大事です。
何故判りやすいファイル名を付けるのか?何故フォルダを作るのか?そういうことをしっかりと指導しなくてはなりません。
とりあえず僕も誰かに教える気になって書いてみたいと思います。
今だけ使えれば良いデータはどうせ直ぐに破棄するデータなので用途に合致すればどんな風に作っても構いません。チャットやっててウケを狙うためにネットからダウンロードする時にファイル名を「a.jpg」にするとかそういうことです。どうせ消します。
注意しなければいけないのは残り2つです。残り2つは前提として後々見たり使ったりするデータです。
このデータのファイル名を「a.txt」とかにしたら何のデータか全くわかりません。
つまり後々使ったりするってことは探すってことです。探すのに判りにくいファイル名にしてたら意味もなく違うファイルを開いて探しまわることになります。最近流行の「名前重要」です。
このジャンルのデータはある特定のフォルダ(ディレクトリ)に保存すると決めておけば探すとき非常に楽です。
そのため各OSは、例えばWindowsならば「マイドキュメント」や「マイピクチャ」「マイミュージック」などを用意してくれてます(ソフトウェアも空気を読んでデフォルトの保存先をそういうのにする)。
せっかく用意してくれているので使うようにし、もし自分でフォルダを作るときは名前重要ですから判りやすいフォルダにしておきましょう。
例えばTwitterであるジャンルの話を同好の士に読んでもらいたい場合どうしますか?ハッシュタグを付けますよね?
そうやって名前を判りやすくしておけば自分以外の他人が使う時も非常に楽なのです。
「でもよく使うデータを深い階層に置いてたら面倒じゃん」っていう意見はもっともです。
実はそのために「デスクトップ」という階層や「ショートカット」があるんですね。
デスクトップがアイコンだらけの人ってたまに居ますけど、きっとそういう人はコンピュータ教育は受けたけど保存されるデータの種類を知らない人です。あなたは悪くないですコンピュータ教育が悪い。
世の中には目の見えない人が居ます。そんな人たちがコンピュータを使えるように「読み上げソフト」ってのがあります。
まあいろんな意味で"文字通り"読み上げるためのソフトウェアなわけですが、このソフトは何も編綴もないテキストデータを読み上げるとめちゃくちゃ棒読みです。
それが更に平仮名ばかりで句読点もないテキストだと読み上げソフトは棒読みで一気に読みあげて目の見えない人はものすごく聞き取りにくいです。こんなテキストは目の見える僕たちでさえ読みにくいです。
そこで僕達は漢字を使ったり句読点を使ったりして可能な限り読みやすくします。実はこれがデータの中身にとって重要なのです。
句読点は文章を判りやすくする目印ですが、これを付けることをコンピュータの世界では「マークアップ」と言います。
読み上げソフトはマークアップされた文章だと、何処がタイトルで何処が本文というのが判別できるようになり、更に強調マークアップされている部分では音量を上げたりするので目の見えない人は非常に聞き取りやすくなります。
もしここまで読んである点に気が付いた人はかなり賢いです。その点とは「目が見えないのは機械も同じ」という点です。
マークアップされた文章は機械にとっても非常に判別がしやすい文章であり、実例をあげるのであれば検索するときに使う「Google」が検索結果へWebページのタイトルを載せてくれるのも、マークアップされたタイトルを拾い上げているからなんです。
Wordでも「見出し」と指定された行は機械的に判別され、アウトライン機能で文書の管理が非常にしやすくなったりします。
PDFでも同じでアウトライン表示されたり、読み上げソフトがPDFに対応していたらマークアップに合わせて読みあげてくれます。
少しだけ専門的になりますが、データベースとして使われているCSVファイルやJSONファイルも特定の記号を使われているのでコンピュータは楽に判断できるのです。
更にしっかりとマークアップしておけばPDFを電子書籍でよく使われているEPUBに変換するなど、他形式への変換が失敗しにくくなる利点もあります。
今まで行なってきたコンピュータ教育は正直「コンピュータ教育をしてますよ」という体裁だけを保っている教育の仕方だと思います。
コンピュータが使われるようになったから教育に導入し、MS Officeが使われるようになったからMS Officeを教え、IT市場が大きくなったからプログラミングを教える。
高速に変わっていくコンピュータの状況に合わせてしっかり教育は対応して居るように見えますが、現状のコンピュータ教育が見ているのはコンピュータの上っ面だけです。だから教育も上っ面になる。
コンピュータ教育ではタブレット端末の導入を現在検討しているらしいですが、どうみてもこれは上っ面な判断です。
コンピュータで高速に変わっていってるのは上っ面だけであり基礎の部分は。ハッカーが使ってそうないわゆる黒い画面、つまり端末(コマンドプロンプト/ターミナル)の頃とあまり変わってません。
その基礎を教えずしてOfficeだのビジュアルプログラミングだのを教えても生徒が得るものは何もないと言って良いと思います。
正直この記事は総合職さんやプログラマさん、エンジニアさんから見たら「なにそんな当たり前の常識的なことをドヤ顔で記事にしてんの?」って嘲笑されるような内容です。
その嘲笑されるような内容をコンピュータ教育はできていないわけです。
これWindowsじゃなくたって教えられること、最新ハードじゃない中古のPC-98でだって教えられること、中学生以上は持ってそうなスマホでだって教えられることです。