はてなキーワード: csvとは
私はExcelおじさんだ。
往々にそうであるように、ちょっとした好意と、悪ノリだったと思う。
個人が勝手に作ったツールなんか、存在しないほうがいいと思う。
しかし、私が作らなくてもだれかが作るんだと思う。
あるいは、誰も作らずにExcel音痴たちが延々と苦しむかで、便利なシステムが導入されることはないと思う。
ChatGPTによってとってかわられるかと言えば、たぶんそうはならない。
Excel音痴たちは、データを整理できないのかわかってないし、そもそもどうしたいかを分かってないからだ。
要件定義ができないんだから、外部に作ってもらうことも、AIに頼ることも無理だ。
糞みたいな仕事
私は、統計解析おじさんでもある。
これも、なんでそうなったのかわからない。
「統計的に有意であった」とか「統計的に有意ではなかった」みたいな錦の御旗がほしいという悩みに答えて、データをこねくり回す。
統計的に有意であったとかそうでかったかなど、帰無仮説の立て方次第だとコミュニケーションを取ろうと努力するが、「結局どうなの?」
と、私の今までの説明を全く理解してない質問が飛んできて、頭を悩ませるのだが、可能な限り、欲しい答えに近い回答が出るように結果を返す。改ざんじゃないし嘘ではないけれど、ペテンだ。
やめたほうがいい。
AIに代わってもらえないかと期待するが、たぶんAIは、本人もなにが言いたいのかなにがしたいのかわからない問題に解答はしてくれないだろう。
弊社、分析機器は機器が吐き出すデータを専用ソフトで解析してレポートをするようなものが多い。
で、メーカーが潰れたり、製品が廃盤になったりして、ソフトが更新されず、x64 では使えないみたいな糞なことがしばしば起きる。
しらない拡張子でも、たいがいは中身はzipで、csvやバイナリーファイルの詰め合わせで、そこから専用ソフトと同じ数字が出るようにアルゴリズムをリバースエンジニアリングする。AIのおかげでコーディングが楽だ。でも、たぶん私以外にできない仕事だ。
しかし、これも、やめたほうがいい。なんで、メーカー非公式のアプリを作って、私個人が契約してるサーバーにデプロイして、みな会社のデータを無断でアップロードして分析するのか。アウトだろう。
メールに添付ファイルでExcelのファイルのアンケートが送りつけられ、そこに書き込んで返信して、それを集計するというアンケートが取られたりする。かなり偉い、役員クラスが一斉メールで数百人にメールして、それを集計したりするから頭が下がる。
だれもが、タイプライターの代わりにしかパソコンを使えない変な会社なので、私みたいな、40代にもなって部下なしの平社員がこんなことをしてる。コンプラ的にも長期的にもよくないし、人事評価という意味でも評価されない。
偉い人はExcelも統計処理もアプリも理解できないので、どれだけ便利なのかもわかってない。
マイナスにもならない。コンプラ的にどう問題なのかも偉い人は理解できない。
Chat GPTがいくら賢かろうと、偉い人たちは、報告書の言葉尻にケチをつけたり、パワポのフォントに口を出したり、Excelのセルを結合したりするのが仕事だと思って邁進し続けるんだろう。
最近、私は無能の烙印が押され、本業が干されているので、こういう糞みたいな雑用が増えてる。
PythonやVBAを操ったところで、それでIT関連に転職できるはずがない。40代未経験で雇ってもらえというのか。
RもPythonも、身内の統計解析をどんだけしたところで、これが職歴として評価される見向きもされないだろう。
医療系ならSASでも使わなきゃ、ビジネス系ならtableauとかSPSSを実務で使わなきゃ話にならない。
簿記や会計の知識が必要であったり、サーバーにデータベースを構築したりしたって、誰が評価してくれるというのだ。
まあ、仕事はやめるんだけど。
今、レシートをAIでCSV化するSaaS作ってるから、もうちょっと待ってほしい。
テストでは、90%以上の精度で構造化できたし、FineTuningも可能だよ。
あと、会計事務所用に、クライアント企業の社員が直接アップロードできる機能もつけるから、
10月半ばから11月ぐらいにかけて、何らかのリリース打つから、
興味あったら、チェックしておいてほしい。
記帳代行というのは、簡単に言えば紙の領収書や紙のレシートを分析して、それを帳簿につけるという仕事だ。
だいたい1枚あたり20〜60円ほどで行われる。20円はかなり安い。
これはいうならば全購入に対して20円かかっているということでもある。
個人事業主から大企業に至るまで、すべての物品購入に20円かかっている。
「20円 / 商品」はもはや税金だろ。冷静に考えてほしい。これはもう「固定消費税」みたいなもんだ。
個人事業主が確定申告のときにひぃひぃ言っているのもこれのせいだ。「固定消費税」を払いたくないから、自前で大量のレシートに対してひぃひぃ言いながら分類する。
これがめんどくさいということだ。そもそも紙はどこだなどと探すこともある。紙を管理するのがめんどいわけだ。
「めんどい」とか言っているが、固定消費税分の労働をしているわけだな。全員な。
OCRというのは、紙をスキャンして、その内容を読み取ることである。
だが冷静に考えればそのバカバカしさがわかる。そもそも領収書として紙を印刷しているわけだ。もともと電子データとして存在しているものを、レシートや領収書として出す。
もちろん手書きのこともある。手書きで領収書を出すわけだな。お釣りの計算を電卓でやっているようなところはそうだ。それはもうしょうがない。
だが、スマートレジとかを導入しているところ、そこも紙のレシートとはどういうことだ。
まずスキャンがめんどくさい。スキャナーあるいはスマホで撮るわけだ。めんどくさくないか?
紙のレシートを並べる。並べたりしてスキャナーでウィーンと動かすとか、スマホで撮影する。スマホで撮影したりスキャナーでとりこんだだけでは終わらない。
画像認識する機械学習や流行りのAIで分析し、会計ソフトに入れたりするわけだ。しかもレシートの形式もものによって違うから、画像認識が難しい。規格が統一されていない。
「電子データ→(各社頑張って印刷)→ 紙 → (各社頑張って読み取り) → 電子データ」
この流れアホだろ。しかもその紙は捨てる。何。頑張って印刷はまあ昔からの流れだからいいよ。でも頑張って読み取りしてるのマジでアホすぎる。資源の無駄遣いだろ。
紙は木を切り倒して作ってるんだぞ。
電子決済したあとスーパーアプリ化しようとしているみたいだが、そんなことよりやるべきことあるだろ。
レジと連携しろ。PayPayで払って電子レシート出てきたら革命だぞ。なぜ尽力してないのか。何してる?
POSレジは一応電子レシートを出しているところもある。だが全然流行っていない。ひっそりとやられている。
「PayPayで払ってfreeeやMoneyForwardと連携したらもう会計処理しなくていい」
もう覇権とるでしょ。なんならもう確定申告とかもやってくれるわけ。われわれ、もう買うだけでいい。何なら会社合併しろよ。まともに働いてんのか。
もうみんな電子決済使ってるじゃん。じゃあもう勝手に電子レシートにして連携しなよ。
できるでしょ。というかやってるけどしょぼいんだよ。各社が個別にやってるから。
個別にやるから各社バラバラにやってて統合めちゃくちゃじゃん。
なんで勝手にバラバラにやってんの。政府も進めているみたいだが、動きおっそ。
何?自信ないの?考え方正しいよ。みんなが乗ってくれないからって引っ込めるなよ。騒げ騒げ。ロビー活動しよう。
規格だけ作ってそれでドンッと通信すればいいよ。日付と商品名と金額と購入元だけでしょ。
既存の技術でいいよ。他の情報はなんか勝手にやっとけばいいけど、基礎レイヤーだけさっさと合意してそれで進めてもらえる????
実証実験済んでるじゃん。やりなよ。
規格考えたけど
{ "date": "YYYY/MM/DD", "item": "商品A", "tax_included_price": XXXX, "tax_excluded_price": XXXX, "source": "購入元" }
こんな感じのやつがv1でいいよ。追加したい情報は好きに追加して。これが日本中駆け巡れ。
ひっそり周り伺いながらやってるから遅々として進まないんよ。どーーーーんと堂々と進めなよ。
みんなわかってないんだって。利便性とか。みんながやってないから。
「いや俺は今まで通りとかでいいし……」とか言う感じ。他の人がやってないことやるとダセェと思ってる。ダセェのはテメェだろ。
「電子レシート便利だよ」と誰かが言っても誰も使わないって。みんな何が便利かわかってない。
そうじゃない。
消費者はアホなんだよ。何が便利かわからんわけ。自分が何を欲しがっているか理解していないわけ。
「電子レシート?よくわからないけどめんどくさそう。やり方とか覚えないといけないんでしょ?いいよ紙で慣れてるから」
そうじゃない。
「もうみんな電子レシート使ってますよ。まだ紙のレシートなんですか?遅れてるゥ!」
いいか、この流れだ。PayPayの死ぬほどのキャンペーンでQRコード決済が普通になった。
勢いでなんとかなる。別に会計ソフト使わない人もエクセルやスプレッドシートでいいって。
政府・総務省・経産省・財務省・環境省・デジタル庁で横断プロジェクトで進めたらすぐできるよ。
最悪CSVやjsonフォーマットで受け取ればいいじゃん。OSSで誰か作るって。簡単だから。
物品の購入履歴が電子化されて規格化されていくということは、レシートに留まらないわけ。
今ってPDFで請求書などを書いて送付してるけど(これも印刷されたりする。クソ)、あれも同様に効率化できるわけ。
これは基礎的な規格が存在すればいける。変に規格に余計なもんつけたら統一が遅くなる。TCP/IPのスマートさを見習って。
どっかがデファクトスタンダード作って、その上に自分たちの機能つけてよ。変な昔ながらの規格競争とかしないで。
現在の日本文明では、何がどこに行って誰の手にわたっていてどうなっているのか全然わかってない。
もちろん監視社会にすべきだというわけじゃない。プライバシーがあるので「これを買ったことは誰にもバレたくない」というのは会計処理に入れなくてもいいと思う。
(でもなんか企業はそういうことを考えずに容易に「うちのサービスの中に入れます!!」というのを堂々と言ってる。日本人の個人情報保護意識の無さが表れているよう)
いいよどうせ日本は個人情報興味ないから。どんどん進めて。EUやアメリカだとそこらへん障害あるから進まないけど日本ならいける。AIに著作権売り渡したみたいにGOGO。
それで、商品の行方がどうなっているのかわかっていないので、分析することもできない。誰が何ほしいのか、なんでほしいのか、誰が何作っているのか、何もわからない。
購入履歴がすべてわかればそれをリプレイすることで歴史を再構成できるわけだ(たとえば位置情報なども入れれば、どうやって会社が大きくなったのか見えるんだ)。
残念ながら今はそうなっていない。そんな余裕はないからだ。だって紙だから!!!!!!!!!!!!
全国には462万人の個人事業主がいるという。
ブツブツ言いながらレシートを見ているわけだ。めんどくせーなーと思っている。なんでこんなことしなきゃいけないんだと。
462万人だぞ?法人企業には平均4.6人の経理担当者がいるようだ。つまり816万人いる。1278万人か。もうちょっと少なそうだがまあいい。
まあいったん462万人で考えよう。462万人というと「静岡県の1.2倍程度」だ。みんな静岡県に行ったことはある??
静岡県のどこを歩いてもどこで人とすれ違ってもその全員がみーーーーーんなレシートを見てひぃひぃ言っていると考えてほしい。
みんな「めんどくせーなー」と思っている。なんでこんなことしなきゃいけないんだと。
熱海に行っても浜松に行っても、富士山の近くまで行っても、御殿場に行っても伊豆に行っても、そのどこに行ってもみーーーーんなレシートで潰れている、それぐらいの規模だ。
1278万人というとそれが東京都に拡大される。もはやキモい。
この1278万人がおのおの1行ずつデータを処理していると考えてほしい。1人あたり毎月200行処理するとしよう。そうすると全体で毎月25.5億行か。
コンピュータは「1億レコード/秒」で計算できるから、これは理論的には「25.5秒」で終わる。
非現実的な話だが理想はこれだ。税務署も会計士も税理士も縮小できるじゃん。やったね。なんなら勘定科目も勝手にすればいいじゃん。
結果手元にいくらあって、儲かりマシーンたる資産と、損するマシーンたる負債がどのぐらいあるのかわかることが1番重要なんだが?
端的に言うと、今日本人がひいひい言って毎月1200万人がバカみたいにだらけながらやっている作業は、最高効率化すれば「トータルで」毎月25秒、年間3分、60年分で3時間にまで圧縮可能だ。
レシートや領収書で潰れる人間は日本から消えるということ。あとついでに人手不足も解消ね。1200万人分人手増えますね。
ていうか逆に考えて。理論上コンピュータ1台で25秒で終わる作業なんだよ。
それを1200万人が毎月「あーーーーー」って顔しておのおの処理してんの。この時間何?
これがわびさびですか。この時間の間みんなで映画見た方が全然よくない?
さあ今すぐ電子レシートを進めよう。合言葉は「25秒」でお願いします。
あと電子レシートっていうけど画像で出すなよ。画像はあってもいいけど画像だけで出すなよ。
だいたい画像を出したいという思考がまず保守的。「今まで通りでいたいから……」「責任とりたくないから……」だろ。
レシートの役割理解してない。言われたからやってるだけ。アドルフ・アイヒマンかよ。
くれぐれも形だけ電子レシートにしたとかいう意味ないことするなよ。日本そういう自己中なとこあるからな。
「言われたからやりましたけど??」「言われた通りにしただけですけど。えー?なんですかー?」「やりたくないけどあなたが言ったからせっかくやったのに!」「言われたからやったのに酷い!」「はいはい自分が悪いですねー!はーい!」とかね。
法人はしらんけど、個人に関してはある程度同意。特にリーマンで還付申請とか。
:自分の例;医療費控除で、保険分と自費診療分を申請したいとき、以前は
→自費診療分がある場合、一旦保険分のCSVを書き出して、税務署のエクセルフォーマットに書き換えて、自費診療分を追記して提出
(しかもマイナポータルから出てくるCSVと、税務署のXLS書式がまったく違うので(縦横すら違う)、全部配列を手打ちで直さないといけない)
→去年 保険分(自動入力)に、追加分(税務署からダウンロードしたエクセルに記載した自費診療分)のエクセルを追加で読み込ませるだけでいい。
が…毎年やってないので、「ま、マイナポータルから医療費のCSVが出せなくなってる!」ってパニクった。
ラクになってはいるが、ラクになったのだと気がつくまで、やり方が変わるとパニクるから、それはそれで毎年勉強しないといけないことに変わりはない。
その時点でだいぶ振り落とされる人は多そう。
あとスマホでマイナンバーカード読ますのはリードエラー多くてやっとれん。
たまたまNTT製のICカードリーダー(別の目的で購入したけど使えずに放置してたもの)があったからPCで出来て助かったけど。
前は使えていたノーブランドのカードリーダーは弾かれた(Linuxドライバで動くやつ)
まあ、先は長いな…
たとえば ↓
https://www.launchexcel.com/what-jobs-use-excel/
https://www.fdmgroup.com/news-insights/advanced-excel-skills
ジャップランドで起こりがちなことはアメリカでは無いのかAIちゃんに尋ねてみたらこう言ってたよ
ワイ: 質問: 2024年において、アメリカの大企業および中小企業の間で、より一般的なデータ管理の方法はなんですか? 検索して最新のトレンドを教えてください。 - 方法A:内部データベースからCSVファイルとしてデータをダウンロードし、Excelで修正してから、
ETLツール(例:Informatica PowerCenter、Talend Open Studio)、BIツール(例:Tableau Prep、Microsoft Power Query)、
または他のデータベース(例:OracleDB)などの他のシステムにインポートする。 - 方法B:Excelのステップをスキップし、内部データベースを他のシステムに直接接続する。 - 方法C:レガシーシステムや複雑なシステムには方法Aを使用し、その他のシステムには方法Bを使用する。状況やシステム要件に応じて使い分ける。 質問のポイント: - 大企業におけるExcelの使用:大企業はデータクリーニングのためにExcelを使用するのを完全にやめましたか?それとも、古いメインフレームシステム、ERPシステム、または特定の業務プロセスの問題のためにまだ使用されていますか? - 方法A、B、Cのシナリオ:各方法の具体的なシナリオと製品名を教えてください。 - 2024年におけるCSVファイルのダウンロード:2024年現在、ETL/BIツールやクラウドベースのDWHを利用できないどころか、Oracle Gatewayなどの接続手段も利用できないデータベースの使用は完全になくなりましたか?
もしそのようなデータベースが2024年にもまだ存在する場合、直接的なデータ連携が困難なため、CSVファイルでのデータ抽出が唯一の方法となることがあります。
企業は膨大なコストがかかるために移行を延期していますか?それともすでに段階的に対応していますか? - Excelを使い続ける理由: 内部データベースを他のシステムに直接接続した方がシンプルなのに、なぜ一部の企業はデータクリーニングのためにExcelを使い続けているのですか?
↓
2024年には、大企業の間でメソッドB(直接接続)へのシフトが顕著になっています。しかし、特定のシナリオに応じてメソッドC(ハイブリッドアプローチ)も採用されています。中小企業においても、直接接続の利便性と効率性が認識され、その採用が徐々に増加しています。しかし、リソースとコストの制約により、Excelを使用したデータクリーニングやハイブリッドアプローチが依然として一般的です。
使用状況: この方法は、中小企業、レガシーシステム、複雑なデータ構造を含むシナリオで依然として一般的です。Excelはその柔軟性と使いやすさから、データ操作のための多用途ツールとして広く使用されています。
シナリオ:
製品:
具体的なシナリオ:
使用状況: この方法は、大企業や技術に精通した中小企業の間でますます一般的になっています。直接接続を利用することで、データワークフローが効率化され、手動エラーが減少します。
シナリオ:
製品:
具体的なシナリオ:
使用状況: 多くの企業が、レガシーシステムや複雑なシステムにはメソッドAを、その他のシステムにはメソッドBを使用するハイブリッドアプローチを採用しています。この柔軟性により、既存の制約と近代化の努力をバランスさせることができます。
シナリオ:
製品:
具体的なシナリオ:
データ管理ツールの進歩にもかかわらず、Excelは大企業におけるデータクリーニングと操作のために広く使用されています。これは主に以下の理由によります:
ETL/BIツールやクラウドベースのDWHと直接統合できないシステムに対して、データをCSVファイルとしてダウンロードすることは依然として一般的です。企業は高コストと複雑さのために移行を遅らせることが多く、段階的に対処しています。
しかし、直接接続はより効率的で広く採用されており、長期的にはデータ管理におけるExcelへの依存が減少すると予想されます。
クラウドベースのデータ統合ソリューションの台頭により、データ収集、クリーニング、統合がAI/ML技術によって自動化され、手動作業が減少し、データの一貫性と精度が向上しています。AI/MLアルゴリズムは、異常検出、欠損値の補完、パターン認識などのタスクを効率的に処理し、データ品質を向上させます。リアルタイムデータ分析の利点が明らかになるにつれ、直接接続の採用が増加し、より迅速かつ正確なビジネス意思決定が可能になります。
データセキュリティ、コンプライアンス、およびデータガバナンスの重要性が増すにつれ、このトレンドは続くと予想されます。
今話題になってるニコニコ動画の個人情報流出の件、Xでもかなり話題になっていたこともあり、普段は見ない掲示板サイトのログまで漁って流れを追っていました。
その中でダークウェブから落としたと思われるcsvファイルが公開されており、僕も興味本位でこっそり中身を覗いてみました。
結果、csvデータに僕の本名、口座情報、町名までの住所が見事に含まれていました。
……うーん。
おそらく去年の夏頃始まった楽曲収益化サービスの加入に伴って、個人情報を提供したことが原因だと思います。
表題の通り僕は底辺ボカロPなので、今の段階で楽曲収益化サービスでもらっている金額は100円にも満たない物なんですが、
たった数十円と引き換えに、個人情報をばらまかれたのかなと思うとちょっとしんどいものがあります。
全ての元凶はハッカーですし、今更ニコニコを叩いてもどうにもならないし、
大した実績もないのに楽曲収益化サービスに加入したのも、リスク管理が甘かったのも僕の責任であることは分かっているのですが……。
正直今後ニコニコが復旧したところでまた使いたいとは思わないし、こんなリスクを冒すくらいならボカロPやめようかとまで思います。
ところで、掲示板のログを見ているとやはりほとんどの人が興味を持っているのはVTuberや配信者の個人情報なんですよね。
もちろん今回の場合は情報に興味を示されず一切スルーされるのが最善なのですが、有象無象の名前の羅列の中にもひとりひとり命のあるクリエイターがいることは忘れないでいただきたいです。
僕だって底辺ボカロPと自虐こそしていますが、一応ひとりのクリエイターではあります。そして無名の人間なら個人情報晒されても問題ないなんてことは決してありません。
そんなわけなのでボカロPの皆様はどうかお気をつけください。いまさら何を気をつけるんだって話だけど。
ボカコレに参加した方で楽曲収益化サービスに加入している方は結構いるかと思いますが、すでに個人情報流出しまっていると思った方がいいです。
いろんなアプリケーションのメンテ(バグ取りとか細かい機能追加とか)を何度か経験してきた。
主にテキストファイルとかCSVファイルとかExcelファイルとかを入出力するものばかりだったんだが、その大半がファイルの拡張子をグローバル変数化していた。
こんな感じ
const TxtFileExt = ".txt"; const CsvFileExt = ".csv"; const ExelFileExt = ".xlsx";
outFileName = 〇〇 + ×× + "ABCDEFG" + TxtFileExt;
みたいな指定をしなきゃならない。
あと、プログラム言語の標準的なメソッドのあらゆる引数も全部変数で定義されてて、そのまま渡すのは禁止、みたいな規約になってる。
たとえば引数が三種類(true、false(未指定時のデフォルト値)、任意の数値(ただし当該プログラムでは0、10、25以外指定不可))しかないやつはこんな感じ。
const 〇〇ParamTrue = true; const 〇〇ParamFalse = false; const 〇〇ParamIntMin = 0; const 〇〇ParamIntMid = 10; const 〇〇ParamIntMax = 25;
const charCodeSJIS = "Shift_JIS"; const charCodeUtf8 = "UTF-8";
以前関わった改修内容に「××の処理は開始時と終了時にそれぞれUTF-8(BOMなし)形式でログを出力する」みたいなのがあって、普通に文字コード指定する部分に「UTF-8」で直に書いたら、規約に従ってないからとコードレビューで指摘されて差し戻されたんだけど、そもそもこういう規約って何の意味があるの?
分析ツールを作って、様々な凝った統計情報を表示したいと思ったことはないだろうか。
ロジスティック回帰でモデリングして係数表示をしたり、決定木を視覚化したり、相関の行列をヒートマップで表示したりと、いろいろなことができる。
しかしいざツールを作ってみると、「そんな分析は必要ない」と叱責されてしまうのである。これは一体どういうことなのか。
それは開発に近い人の考える「分析」とビジネスに近いところにいる人の「分析」が、メンタルモデルからして全然違うのである。
ドメインに近いところにいる人たちは、もっと基本的な統計を要求するだろう。
収益の推移だったり、アイテムが特定の属性のユーザーにクリックされる確率だったり、特定の条件に合致するアイテムの単価の分布だったりと、そういうものだ。
開発者がやるべきことは、csvファイルをアイテムに対する特定の検索条件・グルーピング条件などで出力してダウンロードさせることだ。
勤め先の給料以外に副業で50万〜200万程度の雑収入があり、今まで確定申告が必要であると認識してなかったのだが、今年は一応理解して、過去5年分をまとめて申告&納付してみた。
「脱税で何らかの処分を食らうのかな」「やったことないからめんどくさいあ」と思って躊躇してたんだけど、大したことはなかったようだ。
https://www.e-tax.nta.go.jp/toiawase/qa/kanbenka/25.htm#tabs_2