はてなキーワード: ocrとは
そうなの?じゃあ試しに読み取れるかOCRかけてみるわ
記帳代行というのは、簡単に言えば紙の領収書や紙のレシートを分析して、それを帳簿につけるという仕事だ。
だいたい1枚あたり20〜60円ほどで行われる。20円はかなり安い。
これはいうならば全購入に対して20円かかっているということでもある。
個人事業主から大企業に至るまで、すべての物品購入に20円かかっている。
「20円 / 商品」はもはや税金だろ。冷静に考えてほしい。これはもう「固定消費税」みたいなもんだ。
個人事業主が確定申告のときにひぃひぃ言っているのもこれのせいだ。「固定消費税」を払いたくないから、自前で大量のレシートに対してひぃひぃ言いながら分類する。
これがめんどくさいということだ。そもそも紙はどこだなどと探すこともある。紙を管理するのがめんどいわけだ。
「めんどい」とか言っているが、固定消費税分の労働をしているわけだな。全員な。
OCRというのは、紙をスキャンして、その内容を読み取ることである。
だが冷静に考えればそのバカバカしさがわかる。そもそも領収書として紙を印刷しているわけだ。もともと電子データとして存在しているものを、レシートや領収書として出す。
もちろん手書きのこともある。手書きで領収書を出すわけだな。お釣りの計算を電卓でやっているようなところはそうだ。それはもうしょうがない。
だが、スマートレジとかを導入しているところ、そこも紙のレシートとはどういうことだ。
まずスキャンがめんどくさい。スキャナーあるいはスマホで撮るわけだ。めんどくさくないか?
紙のレシートを並べる。並べたりしてスキャナーでウィーンと動かすとか、スマホで撮影する。スマホで撮影したりスキャナーでとりこんだだけでは終わらない。
画像認識する機械学習や流行りのAIで分析し、会計ソフトに入れたりするわけだ。しかもレシートの形式もものによって違うから、画像認識が難しい。規格が統一されていない。
「電子データ→(各社頑張って印刷)→ 紙 → (各社頑張って読み取り) → 電子データ」
この流れアホだろ。しかもその紙は捨てる。何。頑張って印刷はまあ昔からの流れだからいいよ。でも頑張って読み取りしてるのマジでアホすぎる。資源の無駄遣いだろ。
紙は木を切り倒して作ってるんだぞ。
電子決済したあとスーパーアプリ化しようとしているみたいだが、そんなことよりやるべきことあるだろ。
レジと連携しろ。PayPayで払って電子レシート出てきたら革命だぞ。なぜ尽力してないのか。何してる?
POSレジは一応電子レシートを出しているところもある。だが全然流行っていない。ひっそりとやられている。
「PayPayで払ってfreeeやMoneyForwardと連携したらもう会計処理しなくていい」
もう覇権とるでしょ。なんならもう確定申告とかもやってくれるわけ。われわれ、もう買うだけでいい。何なら会社合併しろよ。まともに働いてんのか。
もうみんな電子決済使ってるじゃん。じゃあもう勝手に電子レシートにして連携しなよ。
できるでしょ。というかやってるけどしょぼいんだよ。各社が個別にやってるから。
個別にやるから各社バラバラにやってて統合めちゃくちゃじゃん。
なんで勝手にバラバラにやってんの。政府も進めているみたいだが、動きおっそ。
何?自信ないの?考え方正しいよ。みんなが乗ってくれないからって引っ込めるなよ。騒げ騒げ。ロビー活動しよう。
規格だけ作ってそれでドンッと通信すればいいよ。日付と商品名と金額と購入元だけでしょ。
既存の技術でいいよ。他の情報はなんか勝手にやっとけばいいけど、基礎レイヤーだけさっさと合意してそれで進めてもらえる????
実証実験済んでるじゃん。やりなよ。
規格考えたけど
{ "date": "YYYY/MM/DD", "item": "商品A", "tax_included_price": XXXX, "tax_excluded_price": XXXX, "source": "購入元" }
こんな感じのやつがv1でいいよ。追加したい情報は好きに追加して。これが日本中駆け巡れ。
ひっそり周り伺いながらやってるから遅々として進まないんよ。どーーーーんと堂々と進めなよ。
みんなわかってないんだって。利便性とか。みんながやってないから。
「いや俺は今まで通りとかでいいし……」とか言う感じ。他の人がやってないことやるとダセェと思ってる。ダセェのはテメェだろ。
「電子レシート便利だよ」と誰かが言っても誰も使わないって。みんな何が便利かわかってない。
そうじゃない。
消費者はアホなんだよ。何が便利かわからんわけ。自分が何を欲しがっているか理解していないわけ。
「電子レシート?よくわからないけどめんどくさそう。やり方とか覚えないといけないんでしょ?いいよ紙で慣れてるから」
そうじゃない。
「もうみんな電子レシート使ってますよ。まだ紙のレシートなんですか?遅れてるゥ!」
いいか、この流れだ。PayPayの死ぬほどのキャンペーンでQRコード決済が普通になった。
勢いでなんとかなる。別に会計ソフト使わない人もエクセルやスプレッドシートでいいって。
政府・総務省・経産省・財務省・環境省・デジタル庁で横断プロジェクトで進めたらすぐできるよ。
最悪CSVやjsonフォーマットで受け取ればいいじゃん。OSSで誰か作るって。簡単だから。
物品の購入履歴が電子化されて規格化されていくということは、レシートに留まらないわけ。
今ってPDFで請求書などを書いて送付してるけど(これも印刷されたりする。クソ)、あれも同様に効率化できるわけ。
これは基礎的な規格が存在すればいける。変に規格に余計なもんつけたら統一が遅くなる。TCP/IPのスマートさを見習って。
どっかがデファクトスタンダード作って、その上に自分たちの機能つけてよ。変な昔ながらの規格競争とかしないで。
現在の日本文明では、何がどこに行って誰の手にわたっていてどうなっているのか全然わかってない。
もちろん監視社会にすべきだというわけじゃない。プライバシーがあるので「これを買ったことは誰にもバレたくない」というのは会計処理に入れなくてもいいと思う。
(でもなんか企業はそういうことを考えずに容易に「うちのサービスの中に入れます!!」というのを堂々と言ってる。日本人の個人情報保護意識の無さが表れているよう)
いいよどうせ日本は個人情報興味ないから。どんどん進めて。EUやアメリカだとそこらへん障害あるから進まないけど日本ならいける。AIに著作権売り渡したみたいにGOGO。
それで、商品の行方がどうなっているのかわかっていないので、分析することもできない。誰が何ほしいのか、なんでほしいのか、誰が何作っているのか、何もわからない。
購入履歴がすべてわかればそれをリプレイすることで歴史を再構成できるわけだ(たとえば位置情報なども入れれば、どうやって会社が大きくなったのか見えるんだ)。
残念ながら今はそうなっていない。そんな余裕はないからだ。だって紙だから!!!!!!!!!!!!
全国には462万人の個人事業主がいるという。
ブツブツ言いながらレシートを見ているわけだ。めんどくせーなーと思っている。なんでこんなことしなきゃいけないんだと。
462万人だぞ?法人企業には平均4.6人の経理担当者がいるようだ。つまり816万人いる。1278万人か。もうちょっと少なそうだがまあいい。
まあいったん462万人で考えよう。462万人というと「静岡県の1.2倍程度」だ。みんな静岡県に行ったことはある??
静岡県のどこを歩いてもどこで人とすれ違ってもその全員がみーーーーーんなレシートを見てひぃひぃ言っていると考えてほしい。
みんな「めんどくせーなー」と思っている。なんでこんなことしなきゃいけないんだと。
熱海に行っても浜松に行っても、富士山の近くまで行っても、御殿場に行っても伊豆に行っても、そのどこに行ってもみーーーーんなレシートで潰れている、それぐらいの規模だ。
1278万人というとそれが東京都に拡大される。もはやキモい。
この1278万人がおのおの1行ずつデータを処理していると考えてほしい。1人あたり毎月200行処理するとしよう。そうすると全体で毎月25.5億行か。
コンピュータは「1億レコード/秒」で計算できるから、これは理論的には「25.5秒」で終わる。
非現実的な話だが理想はこれだ。税務署も会計士も税理士も縮小できるじゃん。やったね。なんなら勘定科目も勝手にすればいいじゃん。
結果手元にいくらあって、儲かりマシーンたる資産と、損するマシーンたる負債がどのぐらいあるのかわかることが1番重要なんだが?
端的に言うと、今日本人がひいひい言って毎月1200万人がバカみたいにだらけながらやっている作業は、最高効率化すれば「トータルで」毎月25秒、年間3分、60年分で3時間にまで圧縮可能だ。
レシートや領収書で潰れる人間は日本から消えるということ。あとついでに人手不足も解消ね。1200万人分人手増えますね。
ていうか逆に考えて。理論上コンピュータ1台で25秒で終わる作業なんだよ。
それを1200万人が毎月「あーーーーー」って顔しておのおの処理してんの。この時間何?
これがわびさびですか。この時間の間みんなで映画見た方が全然よくない?
さあ今すぐ電子レシートを進めよう。合言葉は「25秒」でお願いします。
あと電子レシートっていうけど画像で出すなよ。画像はあってもいいけど画像だけで出すなよ。
だいたい画像を出したいという思考がまず保守的。「今まで通りでいたいから……」「責任とりたくないから……」だろ。
レシートの役割理解してない。言われたからやってるだけ。アドルフ・アイヒマンかよ。
くれぐれも形だけ電子レシートにしたとかいう意味ないことするなよ。日本そういう自己中なとこあるからな。
「言われたからやりましたけど??」「言われた通りにしただけですけど。えー?なんですかー?」「やりたくないけどあなたが言ったからせっかくやったのに!」「言われたからやったのに酷い!」「はいはい自分が悪いですねー!はーい!」とかね。
趣味の必要上どうしても、ウランゲル語の書類の内容を把握する必要が出てきた。ウランゲル公国に於ける初期国際鉄道の接続について、調べねばならなくなったからだ。具体的には戦間期からWW2までの間である。できれば43年ポポフ攻勢までの期間が有難い(以降は接続が断たれるので興味の範囲から外れる)
文書自体は公国公文書館がネットに画像を上げている。ウランゲル日報(一般紙)のバックナンバーは月15ウランで利用可能で初月は無料だ。驚くなかれクレカが使える。念入りに探せば現地OB会やら組合やらの会誌がPDFで転がっている。ロシアとポーランドには、市販本をぶっこ抜いたファイルが転がっている。これらをつなぎ合わせれば概要は分かるはずだ。
ウランゲルは欧州語族ではマイナーではあるものの、幸いグーグル翻訳のラインナップに含まれている。鉄道用語自体は、英国から技術導入していることもあって英語に近いからある程度類推できる。言葉はこれで何とかなるだろう。現地企業がオンラインOCRを提供しているので、画像さえあれば文書の過半はテキストにすることが出来る。
これで、
ところが、問題が発生する。工程2で出力される文書は、元の文書をOCR君が見た通りであるので、文章の途中で無駄な改行が入っているのだ。こんな感じである
Ngenxa yokuzonwabisa kwam, kuye kwafuneka ukuba ndiqonde imixholo
yolwimi lwaseWrangel. Oku kungenxa yokuba kuye kwafuneka ndiphande
ngoqhagamshelo lokuqala lukaloliwe lwamazwe ngamazwe kwiNqununu yeWrangel.
Ngokukodwa, ukusuka kwixesha lemfazwe ukuya kwiWW2. Ukuba kunokwenzeka,
ndiya kuxabisa ixesha ukuya kwi-Popov Offensive ngo-1943。 (emva koko,
uxhulumaniso luya kuphulwa, ngoko alusekho umdla).
これを翻訳に通すと複文などがすっ飛んで、まるでの意味通らない。何とか改行を除去する必要がある。大した量ではないので手作業するか、と思ったが3日で音を上げた。だるい、だるすぎる。求めているのはコイツの中身であって、リズミカルにデリートキーを押すことではない。
一括置換で飛ばすか? ダメだ、それでは元々ある段落替えすらすっ飛んで、謎経文の一丁上がりだ。加えて、一応意味が通らない時に校合もしたい。そのためにも段落はそのまんまにしておいてほしい。
目視で置換するか? クリック数ではさして変わらない。上にミスった時のリカバリがめんどくさいし、実際ミスる。
しょうがないなぁ、とあきらめていた時、ふとプログラムで何とか出来るやろという天の声が聞こえてくる。しかしド文系である。今これを書いている光る板が一体どういう仕組みで動いているのか皆目わからない始末である。今更基礎からやるなどという悠長なことはさらに面倒だ。ここは・・・ChatGPTに頼ってみるべきだ。
早速諸手続きをして、問答を始める。「あなたは優秀なプログラマです。テキストファイル中の余計な改行を除去するにはどうしたらいいですか?」
AIは動き出す。「途中に挿入された不要な改行を除去するためには、以下の手順で対応できます。Pythonスクリプトを使って・・・」
言われたとおりにすると、成程ちゃんと出来上がる。
Ngenxa yokuzonwabisa kwam, kuye kwafuneka ukuba ndiqonde imixholo yolwimi lwaseWrangel. Oku kungenxa yokuba kuye kwafuneka ndiphande ngoqhagamshelo lokuqala lukaloliwe lwamazwe ngamazwe kwiNqununu yeWrangel. Ngokukodwa, ukusuka kwixesha lemfazwe ukuya kwiWW2. Ukuba kunokwenzeka, ndiya kuxabisa ixesha ukuya kwi-Popov Offensive ngo-1943 (emva koko, uxhulumaniso luya kuphulwa, ngoko alusekho umdla).
Umfanekiso woxwebhu ngokwalo ufakwe kwi-intanethi nguVimba oyiNtloko.
Pythonなんぞ、ウ語以上に知らない言葉だ。しかも相談含め無料である。ほぼほぼ単純作業だけだから簡単な代物なのでウソも紛れ込まんだろう。恐ろしい世の中になった。なんならこれを全部統合して一発翻訳にしてほしいものだが・・・。
暇空茜がnoteで公開している判決文を、ChatGPTにOCR処理してもらった後、NotebookLMにて『目次』を生成した。
原告: 仁藤夢乃、一般社団法人Colabo(代表理事 仁藤夢乃)
原告 - 弁護士 神原元、角田由紀子、端野真、堀新、太田啓子、岸本英、伊久間勇、河西拓哉
被告 - 弁護士 垣鋭晶、訴訟復代理人弁護士 邊美陽子、松永成高
・原告Colaboへの損害賠償請求:550万円および遅延損害金
第2 事案の概要
原告らは、被告が自身のブログサイトおよび動画投稿サイトにおいて、原告らに対する名誉毀損にあたる投稿を行ったとして、損害賠償、投稿の削除、謝罪文の掲載を求めた。
1. 前提事実
(1) 当事者
・原告Colabo:10代女性の自立支援を目的とする一般社団法人
・被告:Twitter、ブログサイト、動画投稿サイトを管理し、原告らに関する投稿を行った者
(2) 本件各投稿
・被告は、ブログおよび動画投稿サイトにおいて、原告Colaboの活動に関する記事や動画を投稿した。
・投稿内容は、原告Colaboが10代女性を劣悪な環境の家に住まわせ生活保護を受給させているというものだった。
2. 争点及びこれに関する当事者の主張
(1) 本件各投稿が原告らの社会的評価を低下させる事実を摘示したものといえるか(争点1)
・原告:投稿は原告らが10代女性を利用し生活保護費を不正に取得したとの印象を与え、社会的評価を低下させる。
・被告:投稿は公開情報に基づく意見論評であり、事実の摘示ではない。摘示されたとしても、非難されるべき事実ではない。
(2) 本件各投稿につき真実性又は真実相当性の抗弁が成立するか(争点2)
・被告:投稿は公益を目的とするものであり、摘示事実に真実性または真実相当性があるため、違法性は阻却される。
・原告:被告の投稿は原告らを誹謗中傷するためのもので公益目的はなく、摘示事実も真実ではない。
(3) 原告らが本件各投稿による社会的評価の低下を受忍すべきであるか(争点3)
・被告:投稿は原告Colaboの公金使用に関する監視を促す目的であり、原告らは社会的評価の低下を受忍すべき。
・原告:被告の主張する不正の疑いは監査の結果、否定されており、原告らが社会的評価の低下を受忍すべきではない。
・被告:原告Colaboは不正を行い、被告の情報発信による不正発覚を防ぐために訴訟を提起したものであり、権利濫用。
・原告:被告の主張は監査の結果、否定されており、訴訟は不正発覚を防ぐ目的ではない。
(5) 原告らの損害の有無及びその額(争点5)
・原告:投稿により社会的信用が大きく損なわれ、損害額は500万円を超える。
・被告:損害は原告らの不当な活動が原因であり、投稿との因果関係はない。
(6) 本件各投稿の削除及び謝罪文の掲載が必要であるか(争点6)
・原告:投稿は根拠のない誹謗中傷であり、削除が必要。名誉回復のため謝罪文掲載も必要。
・原告らの活動内容、原告仁藤と被告の紛争経緯、原告Colaboの活動資金問題、原告らの活動の現状、本件訴訟の経過等について詳述。
争点1(本件各投稿が原告らの社会的評価を低下させる事実を摘示したものといえるか。)について
・本件各投稿は、原告らが経済的に困窮している女性を利用して利益を得ているとの印象を与える内容であると判断。
争点2(本件各投稿につき真実性又は真実相当性の抗弁が成立するか。)について
・原告Colaboが公開している情報からは、本件各投稿の摘示事実が真実であると認めることはできず、被告が真実と信じる相当な理由も認められないと判断。
争点3(原告らが本件各投稿による社会的評価の低下を受忍すべきであるか。)について
・原告Colaboの活動資金問題を理由に、原告らが社会的評価の低下を受忍すべきとはいえないと判断。
・原告らによる訴訟提起が被告の情報発信を委縮させる目的で行われたと認めるに足りる証拠はないと判断。
争点5(原告らの損害の有無及びその額)について
・原告Colaboには150万円、原告仁藤には50万円の損害賠償が認められると判断。
争点6(本件各投稿の削除及び謝罪文の掲載が必要であるか。)について
・本件各投稿の削除は相当であるが、謝罪文掲載は相当とまでは認められないと判断。
第4 結論
原告らの請求を一部認容し、被告に対し、原告仁藤へ55万円、原告Colaboへ165万円の損害賠償の支払いと、投稿の削除を命じた。
出典: https://note.com/hima_kuuhaku/n/n88a879d916b8 (20240718_判決_墨消し済み.pdf)
単なる便所掃除だって腰を悪くしてたら激務だし、紙データをOCRして間違っている所を打ち直す仕事だって老眼にはマジで辛い。
生まれつき言語コミュ力が低い人間にテレアポさせると毎日のように炎上させてくるし、子供の頃からやってたっぽいから取った現場職が仕様書ガン無視で自己満足作業ばっかする上に話聞かなかったりする。
「誰でもこれぐらい出来るだろ」なんてねーから。
皆色んな分野において得手不得手がある。
得意だと思ってるからこそ人の話聞かない奴もいるし、苦手意識のせいで勉強や訓練サボって20年ぐらい一本指でキーボード打ってる爺さんとかもいる。
普通は「40人クラスだったら、20人に1人は出来ないことを出来ない子が2人ずつ各分野に出てくるわけで、それがやたら集中してる子と何でも出来ちゃう子が衝突したりもするけど納めるとか簡単じゃねえよなあ……」みたいなのを事前に想像して教員にならない道を選ぶもんなんだよね。
それを考えずに教員になるってのはさ、結局どっかで「100mを11秒代で走るまでなら人類全員ガチれば余裕っしょ?」みたいな考えが前提にあるんだと思うわけよ。
つーかまあ俺がなんとなくそうなんだろうなとずっと思ってたらさ、まさにお前だよ。
お前みたいな奴が教員になるんだなあやっぱ。
いやまあ教員が全員そうだってわけでもないだろうし、中には「昔そういう風に思っていた俺だからこそ、出来る子と出来ない子の間に立てるんじゃねえのか?」みたいな方向に行ったりする人もいると思うんだよ。
でも大部分がそういう人なんだろうなってなんとなく思ってた所に、お前だよ。
辞めたあとも同じ気持ちを引きずってるっていうか、未だに不満たらたらなその感じさ。
なんか結構いるじゃん「ガキ共が無能ばっかなせいで俺はいらん苦労してて俺が可哀想すぎるぜ」みたいに被害者ヅラして学級崩壊放置なクソ教員。
そういうのってこういうメンタルなんだろうなと思ってたところに、お前だよ。
俺のみたかった答え合わせだよ。
お前が生きた人生、赤の他人である俺的には十分な価値があったよ。
俺が人生で見ておきたかった答え合わせベスト1000ぐらいに入るのが一つ埋まったよ。
お前だよお前。
いいね、お前。
そもそも、AIを使うと本当に業務は効率化できるんだろうか?つまらないことはAIに任せられる。それはわかる。しかし、AIに代わってくれることで効率化は図られるけど、逆に非効率な業務フローの延命措置に使われるだけな気がしてならない。
今までは、業務のほうを変えさせられてきた。例えば、使いづらいとか現場に即してないとか文句が上がっても、業務フローは全て市販ソフトに統合されて、親会社のやり方を隅々まで浸透させられてきた。お前ら奴隷は全ての業務を基幹システムに連携したソフトに合わせろ。Wordはタイプライターにしか使うな。Excelは電卓にしか使うな。という教えを押し付けられてきた。
生成AIは、この流れを逆回転させる力があるように思う。例えば、
メールで伺いをたてて、添付ファイルを指定のフォルダに保存して、OCRで読み込んで、数字を拾って管理用のExcelのシートに記入して、Excelを別名で保存、
# 私の中国武術の調べ方
## 文章の集め方
本屋、古本屋、図書館、Amazon、メルカリ、ヤフオクなどで根気よく探します。
特に雑誌は出回っている時期が限られるものがあるので、定点観測が必要です。
日本における中国武術は1990年前後に流行していたので、新しいものより古いものの方が情報が充実しています。
最低、簡体字、繁体字、英語の3つの言語で検索して、探します。
本土だけでなく、香港や台湾、米国にしか伝承されていないものがあるためです。
ヨーロッパなどにもあるかもしれませんが、探すのが大変で自分はそこまで手が回っていません。
孔夫子、逸文武術文化有限公司の2つのECが特に珍しいものがあります。
書籍は自炊してPDFにして、OCRをかけた方が取り回しやすいのでおすすめです。
集めた文章を適当なナレッジツールに整理します。繁体字と簡体字が混在すると検索に不便なのでどちらかに寄せることをおすすめします。
人物別に整理しつつ、著作を時系列順に並べておくのと研究に利があると思います。
同じ人物でも初期の著作と後期の著作では異なる内容があり、そこが研究の要点になるためです。
また経験的に、武術には地域性があるため、どこで書かれたかも分かれば研究の一助になります。
横断的な論点については、タグを付けたり、記事をまとめたりして整理します。
## 翻訳
DeepL、ChatGPT、Claudeなどの選択肢があると思いますが、今であればClaudeが有力です。
真面目に研究するのであれば、有料版以外の選択肢はないというのが個人的な感覚です。
事前整形、翻訳、翻訳チェックの3つのプロンプトがあれば、作業が便利になると思います。
もっと便利な翻訳専門のツールもありそうですが、自分は使っていません。
## その他
動画であれば、YouTubeか优酷を探せばほぼ足りるでしょう。調べ方は文章と同じです。
最近は字幕を出す方法がいくつもあるのでそれを使って研究すると楽でしょう。
また、中国武術の文化的背景には道教、儒教、仏教、中医学が深く関わるため、日本語でいいのでこの辺りの知識を押さえておくと、理解しやすくなります。
## 総論
2週間で1年分の学費(=100万以上するでしょ)を稼ぐと思ったらやる気出ない?
・まずは5日でその本を読む。文字認識しないと言うことだけど、Google翻訳アプリもダメ?無料OCRツールは試した?原書読むより入力するほうが早いなら、最悪手打ちで入力して翻訳にかけたら?
・1日で論文の構成を考える。ここはChatGPTと相談しながらできるでしょ。
・その翌日、Wordの音声認識を使ってガーっとしゃべっていく。とにかくしゃべる。
・できた文を直し、切り張り切りはりして、整える。ここに2日かける。
・時間が余ったら先行研究とかざっとネットで見る。それをちょいちょい引用・追加していく。(ちゃんとそれを残す=アピールポイント)