「ocr」を含む日記 RSS

はてなキーワード: ocrとは

2024-11-22

anond:20241122115117

ChatGPTとGeminiでOCRさせたら読めるのではないかと思ったけど、試してみたら読めなかったのよね。

2024-11-15

anond:20241115133120

そうなの?じゃあ試しに読み取れるかOCRかけてみるわ

2024-11-14

[]

あいかわらずしんどい

昨晩夜遅くまでコーディングでキリキリしたからかな( ^ω^)・・・

スキャンでもしてくるか?どでかいスキャンしたファイルっていったん印刷して

いまの最新鋭のOCRスキャナーで実行すればかなり圧縮できるのかな?

ダルビッ!!ガッ

2024-11-06

anond:20241105171628

最低限の解像度必要だが、使ってるOCRツール問題じゃね?

BERTとかで補正かける系の技術使ってるものならそこそこ実用的になってると思う

2024-11-05

AIは凄く進歩しているのにOCRの精度が悪いのどうして?

いつも便利に使っている中で不満に思うことが一つ。

OCRの精度が悪い事。

描かれた絵や写真認識は向上したし音声認識も向上しているのに、事務処理に重要文字情報認識が悪いままで困ってる。

スキャンして作られたpdfを読ませると全然ダメ

直に出力した画像認識はマシなので恐らくだけど解像度が影響しているように思う。

とはいえ解像度が低い画像補正して認識するのに、小学生でも読めるような文章ですら読み取れないのは不思議すぎる。

何か特別理由があるんだろうか。

2024-10-29

ワイの入力業務スキャン一つで済むようになったやで。だから解雇やで

さよならやで

OCRのアホ〜やで

ちんちんOCRで読み取り、

「道」と表示される。

anond:20241029170843

スキルないけど暇はもて余してるみたいな人の世界から

しかしたらにた案件大量に取ってocr自動処理してる猛者もいるか

2024-10-14

anond:20241014150442

この間「データ入力仕事OCRに取られて10年前からないよ」みたいな書き込みあったけど、俺5年前に派遣データ入力やってたんだよな

やっぱ今でもあるんだな

2024-10-12

anond:20241012041038

あっぷでーと:

単位:千円で決算を出している決算書に対応

要約財政状態計算書しか公開していない困ったちゃん対応

とりあえず、資産の部の6割を流動資産とみなすことにした。

そして、今のところ対応できないのが、決算短信の財務諸表画像データで添付している場合

画像で添付するとか、なんでそんなことするのさ・・・

pytesseractとかを試してみたけど、OCRの精度低すぎて使えない。

と、いうか、貸借対照表損益計算書ぐらいpdfではなくて、共通フォーマットメタデータと整備してほしいわ。

2024-09-22

政府は今すぐ電子レシートを普及させるべきだ

記帳代行

会計事務所税理士事務所の基本業務は記帳代行である

記帳代行というのは、簡単に言えば紙の領収書や紙のレシート分析して、それを帳簿につけるという仕事だ。

だいたい1枚あたり2060円ほどで行われる。20円はかなり安い。

これはいうならば全購入に対して20円かかっているということでもある。

個人事業主から大企業に至るまで、すべての物品購入に20円かかっている。

20円 / 商品」はもはや税金だろ。冷静に考えてほしい。これはもう「固定消費税」みたいなもんだ。

個人事業主確定申告ときにひぃひぃ言っているのもこれのせいだ。「固定消費税」を払いたくないから、自前で大量のレシートに対してひぃひぃ言いながら分類する。

これがめんどくさいということだ。そもそも紙はどこだなどと探すこともある。紙を管理するのがめんどいわけだ。

めんどい」とか言っているが、固定消費税分の労働をしているわけだな。全員な。

OCR画像認識AI

OCRというのは、紙をスキャンして、その内容を読み取ることである

だが冷静に考えればそのバカバカしさがわかる。そもそも領収書として紙を印刷しているわけだ。もともと電子データとして存在しているものを、レシート領収書として出す。

もちろん手書きのこともある。手書き領収書を出すわけだな。お釣り計算電卓でやっているようなところはそうだ。それはもうしょうがない。

だが、スマートレジとかを導入しているところ、そこも紙のレシートとはどういうことだ。

まずスキャンがめんどくさい。スキャナーあるいはスマホで撮るわけだ。めんどくさくないか

紙のレシートを並べる。並べたりしてスキャナーでウィーンと動かすとか、スマホ撮影する。スマホ撮影したりスキャナーでとりこんだだけでは終わらない。

画像認識する機械学習流行りのAI分析し、会計ソフトに入れたりするわけだ。しかレシート形式もものによって違うから画像認識が難しい。規格が統一されていない。

日本はアホなんじゃないか

電子データ→(各社頑張って印刷)→ 紙 → (各社頑張って読み取り) → 電子データ

この流れアホだろ。しかもその紙は捨てる。何。頑張って印刷はまあ昔からの流れだからいいよ。でも頑張って読み取りしてるのマジでアホすぎる。資源無駄遣いだろ。

紙は木を切り倒して作ってるんだぞ。

PayPayたちは何をしてる?

電子決済したあとスーパーアプリ化しようとしているみたいだが、そんなことよりやるべきことあるだろ。

レジ連携しろ。PayPayで払って電子レシート出てきたら革命だぞ。なぜ尽力してないのか。何してる?

POSレジは一応電子レシートを出しているところもある。だが全然流行っていない。ひっそりとやられている。

なぜひっそりやっている?????堂々としろよ。

「PayPayで払ってfreeeやMoneyForward連携したらもう会計処理しなくていい」

もう覇権とるでしょ。なんならもう確定申告とかもやってくれるわけ。われわれ、もう買うだけでいい。何なら会社合併しろよ。まともに働いてんのか。

もうみんな電子決済使ってるじゃん。じゃあもう勝手電子レシートにして連携しなよ。

できるでしょ。というかやってるけどしょぼいんだよ。各社が個別にやってるから

ひっそり個別にやるな

個別にやるから各社バラバラにやってて統合めちゃくちゃじゃん。

なんで勝手バラバラにやってんの。政府も進めているみたいだが、動きおっそ。

何?自信ないの?考え方正しいよ。みんなが乗ってくれないからって引っ込めるなよ。騒げ騒げ。ロビー活動しよう。

規格だけ作ってそれでドンッと通信すればいいよ。日付と商品と金額と購入元だけでしょ。

既存技術でいいよ。他の情報はなんか勝手にやっとけばいいけど、基礎レイヤーだけさっさと合意してそれで進めてもらえる???

実証実験済んでるじゃん。やりなよ。

規格考えたけど

{ "date": "YYYY/MM/DD", "item": "商品A", "tax_included_price": XXXX, "tax_excluded_price": XXXX, "source": "購入元" }

こんな感じのやつがv1でいいよ。追加したい情報は好きに追加して。これが日本中駆け巡れ。

ひっそり周り伺いながらやってるから遅々として進まないんよ。どーーーーんと堂々と進めなよ。

みんなわかってないんだって利便性とか。みんながやってないから。

「いや俺は今まで通りとかでいいし……」とか言う感じ。他の人がやってないことやるとダセェと思ってる。ダセェのはテメェだろ。

から言えば日本人はすぐ適応する

電子レシート便利だよ」と誰かが言っても誰も使わないって。みんな何が便利かわかってない。

そうじゃない。

消費者はアホなんだよ。何が便利かわからんわけ。自分が何を欲しがっているか理解していないわけ。

電子レシート?よくわからないけどめんどくさそう。やり方とか覚えないといけないんでしょ?いいよ紙で慣れてるから

バカ丸出しバカからね。消費者バカなんよ。

そうじゃない。

電子レシート推進!!!

電子レシート使う人間イケてる!」

「もうみんな電子レシート使ってますよ。まだ紙のレシートなんですか?遅れてるゥ!」

時代電子レシート!!!!」

電子レシートSDGs!!!!!」

確定申告にも便利!!!!」

電子レシート推進の企業補助金!」

「みんなで電子レシートを使おう!!!

いか、この流れだ。PayPayの死ぬほどのキャンペーンQRコード決済が普通になった。

あの勢いが大事だ。なんだったんだあの現金時代は。

勢いでなんとかなる。別に会計ソフト使わない人もエクセルスプレッドシートでいいって。

政府総務省経産省財務省環境省デジタル庁で横断プロジェクトで進めたらすぐできるよ。

最悪CSVjsonフォーマットで受け取ればいいじゃん。OSSで誰か作るって。簡単から

商品の流れがリアルタイムになり、再現できる

物品の購入履歴電子化されて規格化されていくということは、レシートに留まらないわけ。

今ってPDF請求書などを書いて送付してるけど(これも印刷されたりする。クソ)、あれも同様に効率化できるわけ。

これは基礎的な規格が存在すればいける。変に規格に余計なもんつけたら統一が遅くなる。TCP/IPスマートさを見習って。

どっかがデファクトスタンダード作って、その上に自分たちの機能つけてよ。変な昔ながらの規格競争とかしないで。

現在日本文明では、何がどこに行って誰の手にわたっていてどうなっているのか全然わかってない。

もちろん監視社会にすべきだというわけじゃない。プライバシーがあるので「これを買ったことは誰にもバレたくない」というのは会計処理に入れなくてもいいと思う。

(でもなんか企業はそういうことを考えずに容易に「うちのサービスの中に入れます!!」というのを堂々と言ってる。日本人の個人情報保護意識の無さが表れているよう)

いいよどうせ日本個人情報興味ないから。どんどん進めて。EUアメリカだとそこらへん障害あるから進まないけど日本ならいける。AI著作権売り渡したみたいにGOGO。

それで、商品行方がどうなっているのかわかっていないので、分析することもできない。誰が何ほしいのか、なんでほしいのか、誰が何作っているのか、何もわからない。

購入履歴がすべてわかればそれをリプレイすることで歴史再構成できるわけだ(たとえば位置情報なども入れれば、どうやって会社が大きくなったのか見えるんだ)。

残念ながら今はそうなっていない。そんな余裕はないからだ。だって紙だから!!!!!!!!!!!!

1200万人の毎月の作業を25秒化

全国には462万人の個人事業主がいるという。

ブツブツ言いながらレシートを見ているわけだ。めんどくせーなーと思っている。なんでこんなことしなきゃいけないんだと。

462万人だぞ?法人企業には平均4.6人の経理担当者がいるようだ。つまり816万人いる。1278万人か。もうちょっと少なそうだがまあいい。

あいったん462万人で考えよう。462万人というと「静岡県の1.2倍程度」だ。みんな静岡県に行ったことはある??

静岡県のどこを歩いてもどこで人とすれ違ってもその全員がみーーーーーんなレシートを見てひぃひぃ言っていると考えてほしい。

みんな「めんどくせーなー」と思っている。なんでこんなことしなきゃいけないんだと。

熱海に行っても浜松に行っても、富士山の近くまで行っても、御殿場に行っても伊豆に行っても、そのどこに行ってもみーーーーんなレシートで潰れている、それぐらいの規模だ。

1278万人というとそれが東京都に拡大される。もはやキモい

この1278万人がおのおの1行ずつデータを処理していると考えてほしい。1人あたり毎月200行処理するとしよう。そうすると全体で毎月25.5億行か。

コンピュータは「1億レコード/秒」で計算できるから、これは理論的には「25.5秒」で終わる。

現実的な話だが理想はこれだ。税務署会計士も税理士も縮小できるじゃん。やったね。なんなら勘定科目勝手にすればいいじゃん。

結果手元にいくらあって、儲かりマシーンたる資産と、損するマシーンたる負債がどのぐらいあるのかわかることが1番重要なんだが?

端的に言うと、今日本人がひいひい言って毎月1200万人がバカみたいにだらけながらやっている作業は、最高効率化すれば「トータルで」毎月25秒、年間3分、60年分で3時間にまで圧縮可能だ。

レシート領収書で潰れる人間日本から消えるということ。あとついでに人手不足も解消ね。1200万人分人手増えますね。

月3万が相場らしいから、年間4.3兆円の売上だな!

これを社会保障費の財源にすればいい。早く進めちゃおう。

ていうか逆に考えて。理論コンピュータ1台で25秒で終わる作業なんだよ。

それを1200万人が毎月「あーーーーー」って顔しておのおの処理してんの。この時間何?

これがわびさびですか。この時間の間みんなで映画見た方が全然よくない?

さあ今すぐ電子レシートを進めよう。合言葉は「25秒」でお願いします。

あと電子レシートっていうけど画像で出すなよ。画像はあってもいいけど画像だけで出すなよ。

だいたい画像を出したいという思考がまず保守的。「今まで通りでいたいから……」「責任とりたくないから……」だろ。

レシート役割理解してない。言われたからやってるだけ。アドルフ・アイヒマンかよ。

くれぐれも形だけ電子レシートにしたとかい意味ないことするなよ。日本そういう自己中なとこあるからな。

「言われたからやりましたけど??」「言われた通りにしただけですけど。えー?なんですかー?」「やりたくないけどあなたが言ったからせっかくやったのに!」「言われたからやったのに酷い!」「はいはい自分が悪いですねー!はーい!」とかね。

2024-09-03

今更のChatGPT

趣味必要上どうしても、ウランゲル語書類の内容を把握する必要が出てきた。ウランゲル公国に於ける初期国際鉄道接続について、調べねばならなくなったからだ。具体的には戦間期からWW2までの間である。できれば43年ポポフ攻勢までの期間が有難い(以降は接続が断たれるので興味の範囲から外れる)

文書自体公国公文書館ネット画像を上げている。ウランゲル日報一般紙)のバックナンバーは月15ウランで利用可能で初月は無料だ。驚くなかれクレカが使える。念入りに探せば現地OB会やら組合やらの会誌がPDFで転がっている。ロシアポーランドには、市販本をぶっこ抜いたファイルが転がっている。これらをつなぎ合わせれば概要は分かるはずだ。

ウランゲル欧州語族ではマイナーではあるものの、幸いグーグル翻訳ラインナップに含まれている。鉄道用語自体は、英国から技術導入していることもあって英語に近いからある程度類推できる。言葉はこれで何とかなるだろう。現地企業オンラインOCR提供しているので、画像さえあれば文書の過半はテキストにすることが出来る。

これで、

  1. 書類検索して探し当てる
  2. 画像にして吸い出すor+PDFからコピペ
  3. グーグルかDEEPLに食わせて邦訳を待つ

という工程で、概要程度は把握できるはず、だった。

ところが、問題が発生する。工程2で出力される文書は、元の文書OCR君が見た通りであるので、文章の途中で無駄な改行が入っているのだ。こんな感じである

Ngenxa yokuzonwabisa kwam, kuye kwafuneka ukuba ndiqonde imixholo

yolwimi lwaseWrangel. Oku kungenxa yokuba kuye kwafuneka ndiphande

ngoqhagamshelo lokuqala lukaloliwe lwamazwe ngamazwe kwiNqununu yeWrangel.

Ngokukodwa, ukusuka kwixesha lemfazwe ukuya kwiWW2. Ukuba kunokwenzeka,

ndiya kuxabisa ixesha ukuya kwi-Popov Offensive ngo-1943。 (emva koko,

uxhulumaniso luya kuphulwa, ngoko alusekho umdla).

これを翻訳に通すと複文などがすっ飛んで、まるでの意味通らない。何とか改行を除去する必要がある。大した量ではないので手作業するか、と思ったが3日で音を上げた。だるい、だるすぎる。求めているのはコイツの中身であって、リズミカルデリートキーを押すことではない。

一括置換で飛ばすか? ダメだ、それでは元々ある段落替えすらすっ飛んで、謎経文の一丁上がりだ。加えて、一応意味が通らない時に校合もしたい。そのためにも段落はそのまんまにしておいてほしい。

目視で置換するか? クリック数ではさして変わらない。上にミスった時のリカバリがめんどくさいし、実際ミスる。

しょうがないなぁ、とあきらめていた時、ふとプログラムで何とか出来るやろという天の声が聞こえてくる。しかしド文系である。今これを書いている光る板が一体どういう仕組みで動いているのか皆目わからない始末である。今更基礎からやるなどという悠長なことはさらに面倒だ。ここは・・・ChatGPTに頼ってみるべきだ。

早速諸手続きをして、問答を始める。「あなたは優秀なプログラマです。テキストファイル中の余計な改行を除去するにはどうしたらいいですか?」

AIは動き出す。「途中に挿入された不要な改行を除去するためには、以下の手順で対応できますPythonスクリプトを使って・・・

言われたとおりにすると、成程ちゃんと出来上がる。

Ngenxa yokuzonwabisa kwam, kuye kwafuneka ukuba ndiqonde imixholo yolwimi lwaseWrangel. Oku kungenxa yokuba kuye kwafuneka ndiphande ngoqhagamshelo lokuqala lukaloliwe lwamazwe ngamazwe kwiNqununu yeWrangel. Ngokukodwa, ukusuka kwixesha lemfazwe ukuya kwiWW2. Ukuba kunokwenzeka, ndiya kuxabisa ixesha ukuya kwi-Popov Offensive ngo-1943 (emva koko, uxhulumaniso luya kuphulwa, ngoko alusekho umdla).

Umfanekiso woxwebhu ngokwalo ufakwe kwi-intanethi nguVimba oyiNtloko.

Pythonなんぞ、ウ語以上に知らない言葉だ。しか相談含め無料であるほぼほぼ単純作業だけだから簡単な代物なのでウソも紛れ込まんだろう。恐ろしい世の中になった。なんならこれを全部統合して一発翻訳にしてほしいものだが・・・

2024-07-19

Colabo✕暇空茜『Colaboタコ部屋訴訟判決要約

暇空茜がnoteで公開している判決文を、ChatGPTにOCR処理してもらった後、NotebookLMにて『目次』を生成した。

 


 

訴訟事件概要

令和4年(ワ)第30091号 損害賠償請求事件

 

口頭弁論終結日: 令和6年4月16日

 

原告: 仁藤夢乃一般社団法人Colabo(代表理事 仁藤夢乃

被告: 水原清晃

 

訴訟代理人:

 原告 - 弁護士 神原元、角田由紀子、端野真、堀新、太田啓子、岸本英、伊久間勇、河西拓哉

 被告 - 弁護士 垣鋭晶、訴訟代理人弁護士 邊美陽子松永成高

 

第1 請求趣旨

原告仁藤への損害賠償請求:550万円および遅延損害金

原告Colaboへの損害賠償請求:550万円および遅延損害金

被告による投稿の削除

被告による謝罪文掲載

 

第2 事案の概要

 原告らは、被告自身ブログサイトおよび動画投稿サイトにおいて、原告らに対する名誉毀損にあたる投稿を行ったとして、損害賠償投稿の削除、謝罪文掲載を求めた。

 

 1. 前提事実

  (1) 当事者

   ・原告仁藤:10女性支援活動を行う社会活動

   ・原告Colabo:10女性自立支援目的とする一般社団法人

   ・被告Twitterブログサイト動画投稿サイト管理し、原告らに関する投稿を行った者

  (2) 本件各投稿

   ・被告は、ブログおよび動画投稿サイトにおいて、原告Colaboの活動に関する記事動画投稿した。

   ・投稿内容は、原告Colaboが10女性を劣悪な環境の家に住まわせ生活保護受給させているというものだった。

 

 2. 争点及びこれに関する当事者の主張

  (1) 本件各投稿原告らの社会評価を低下させる事実摘示したものといえるか(争点1)

   ・原告投稿原告らが10女性を利用し生活保護費を不正に取得したとの印象を与え、社会評価を低下させる。

   ・被告投稿公開情報に基づく意見論評であり、事実摘示ではない。摘示されたとしても、非難されるべき事実ではない。

  (2) 本件各投稿につき真実性又は真実相当性の抗弁が成立するか(争点2)

   ・被告投稿公益目的とするものであり、摘示事実真実性または真実相当性があるため、違法性は阻却される。

   ・原告被告投稿原告らを誹謗中傷するためのもの公益目的はなく、摘示事実真実ではない。

  (3) 原告らが本件各投稿による社会評価の低下を受忍すべきであるか(争点3)

   ・被告投稿原告Colaboの公金使用に関する監視を促す目的であり、原告らは社会評価の低下を受忍すべき。

   ・原告被告の主張する不正の疑いは監査の結果、否定されており、原告らが社会評価の低下を受忍すべきではない。

  (4) 原告らの請求権利濫用に当たるか(争点4)

   ・被告原告Colaboは不正を行い、被告情報発信による不正発覚を防ぐために訴訟を提起したものであり、権利濫用

   ・原告被告の主張は監査の結果、否定されており、訴訟不正発覚を防ぐ目的ではない。

  (5) 原告らの損害の有無及びその額(争点5)

   ・原告投稿により社会的信用が大きく損なわれ、損害額は500万円を超える。

   ・被告:損害は原告らの不当な活動が原因であり、投稿との因果関係はない。

  (6) 本件各投稿の削除及び謝罪文掲載必要であるか(争点6)

   ・原告投稿根拠のない誹謗中傷であり、削除が必要名誉回復のため謝罪文掲載必要

   ・被告:削除、謝罪文掲載ともに必要ない。

 

第3 当裁判所判断

 認定事実

  ・原告らの活動内容、原告仁藤と被告紛争経緯、原告Colaboの活動資金問題原告らの活動の現状、本件訴訟の経過等について詳述。

 

 争点1(本件各投稿原告らの社会評価を低下させる事実摘示したものといえるか。)について

  ・本件各投稿は、原告らが経済的に困窮している女性を利用して利益を得ているとの印象を与える内容である判断

 争点2(本件各投稿につき真実性又は真実相当性の抗弁が成立するか。)について

  ・原告Colaboが公開している情報からは、本件各投稿摘示事実真実であると認めることはできず、被告真実と信じる相当な理由も認められないと判断

 争点3(原告らが本件各投稿による社会評価の低下を受忍すべきであるか。)について

  ・原告Colaboの活動資金問題理由に、原告らが社会評価の低下を受忍すべきとはいえないと判断

 争点4(原告らの請求権利濫用に当たるか。)について

  ・原告らによる訴訟提起が被告情報発信を委縮させる目的で行われたと認めるに足りる証拠はないと判断

 争点5(原告らの損害の有無及びその額)について

  ・原告Colaboには150万円、原告仁藤には50万円の損害賠償が認められると判断

 争点6(本件各投稿の削除及び謝罪文掲載必要であるか。)について

  ・本件各投稿の削除は相当であるが、謝罪文掲載は相当とまでは認められないと判断

 

第4 結論

 原告らの請求を一部認容し、被告に対し、原告仁藤へ55万円、原告Colaboへ165万円の損害賠償の支払いと、投稿の削除を命じた。

 

出典: https://note.com/hima_kuuhaku/n/n88a879d916b8 (20240718_判決_墨消し済み.pdf

2024-07-06

anond:20240704201153

誰でも出来るようなテキトー仕事

うっわ……マジで教職者ってこういうメンタルなんだな。

誰でも出来るようなことなんてそうそうないっての。

単なる便所掃除だって腰を悪くしてたら激務だし、紙データOCRして間違っている所を打ち直す仕事だって老眼にはマジで辛い。

まれつき言語コミュ力が低い人間テレアポさせると毎日のように炎上させてくるし、子供の頃からやってたっぽいから取った現場職が仕様書ガン無視自己満足作業ばっかする上に話聞かなかったりする。

「誰でもこれぐらい出来るだろ」なんてねーから

皆色んな分野において得手不得手がある。

得意だと思ってるからこそ人の話聞かない奴もいるし、苦手意識のせいで勉強や訓練サボって20年ぐらい一本指でキーボード打ってる爺さんとかもいる。

そんなのも分からない人間から教職になれるんだろうな。

普通は「40人クラスだったら、20人に1人は出来ないことを出来ない子が2人ずつ各分野に出てくるわけで、それがやたら集中してる子と何でも出来ちゃう子が衝突したりもするけど納めるとか簡単じゃねえよなあ……」みたいなのを事前に想像して教員にならない道を選ぶもんなんだよね。

それを考えずに教員になるってのはさ、結局どっかで「100mを11秒代で走るまでなら人類全員ガチれば余裕っしょ?」みたいな考えが前提にあるんだと思うわけよ。

つーかまあ俺がなんとなくそうなんだろうなとずっと思ってたらさ、まさにお前だよ。

お前みたいな奴が教員になるんだなあやっぱ。

いやまあ教員が全員そうだってわけでもないだろうし、中には「昔そういう風に思っていた俺だからこそ、出来る子と出来ない子の間に立てるんじゃねえのか?」みたいな方向に行ったりする人もいると思うんだよ。

でも大部分がそういう人なんだろうなってなんとなく思ってた所に、お前だよ。

辞めたあとも同じ気持ちを引きずってるっていうか、未だに不満たらたらなその感じさ。

なんか結構いるじゃん「ガキ共が無能ばっかなせいで俺はいらん苦労してて俺が可哀想すぎるぜ」みたいに被害者ヅラして学級崩壊放置なクソ教員

そういうのってこういうメンタルなんだろうなと思ってたところに、お前だよ。

お前、マジでいいね

ちゃん言語化してくれてありがとう

俺のみたかった答え合わせだよ。

お前が生きた人生赤の他人である俺的には十分な価値があったよ。

俺が人生で見ておきたかった答え合わせベスト1000ぐらいに入るのが一つ埋まったよ。

お前だよお前。

お前がラストピースを埋めてくれたよ。

いいね、お前。

2024-06-20

anond:20240620125705

ちょっと検索」でプロとやり合おうとするな

オープンソースのTesseract、AWSGCPAzure系のOCRサービスGoogle Drive APIなどがありましたが、今回はAzure Computer Visionサービスを用いて使用することにしました。文字認識精度的にも申し分なく、かつ料金的にも1 分あたり 20 件のトランザクションかつ月5000回まで無料ですので、精度、コストパフォーマンス考慮して選択

誤字がない素晴らしい出来でした

さすがにすべて正確な出力とはなりませんでしたが、それでもはっきりとメモしてある箇所は認識できている、十分な内容でした

人間でもミスはあるので猿雇う意味ないんだよ

必要なのは最後責任取れる人なの

あとはこれを実装できる人と紙をひたすらスキャンする人

anond:20240620123906

ちなみにOCRどころかCTとかMRI画像から病気発見するAIML)が人間超えたって話はもう何年も前やで

ChatGPTの前や

anond:20240620123906

Azureリンク貼ったやろ

OCRなんか性能上がったの10年も前の話やで

anond:20240620111135

OCRで出来ちゃうので

必要なのは最後確認して責任取る人であって

🐒はいらんのよ

20年前だったらあった

2024-06-13

放送大学生になったのでGitHub Education登録した

放送大学学生になったのでGitHub Education登録した。

やったこ
その他注意

氏名とか大学名とかが合ってないと言われたが、おそらくOCRの都合なのでできるだけ鮮明な写真送信するのがコツっぽい

学生証だと英語表記がないとか大学名の表示がないとか言われた

2024-06-11

anond:20240611184345

そもそもAIを使うと本当に業務効率化できるんだろうか?つまらないことはAIに任せられる。それはわかる。しかし、AIに代わってくれることで効率化は図られるけど、逆に非効率業務フロー延命措置に使われるだけな気がしてならない。

今までは、業務のほうを変えさせられてきた。例えば、使いづらいとか現場に即してないとか文句が上がっても、業務フローは全て市販ソフト統合されて、親会社のやり方を隅々まで浸透させられてきた。お前ら奴隷は全ての業務を基幹システム連携したソフトに合わせろ。Wordタイプライターしか使うな。Excel電卓しか使うな。という教えを押し付けられてきた。

生成AIは、この流れを逆回転させる力があるように思う。例えば、

メールで伺いをたてて、添付ファイル指定フォルダに保存して、OCRで読み込んで、数字を拾って管理用のExcelのシートに記入して、Excelを別名で保存、

みたいなクソな業務フローを復活させる力がある。

2024-06-10

OCRの精度の悪さにはガッカリするよね

まだ人間超えてないの??ってビビる

2024-04-05

私の中国武術の調べ方

# 私の中国武術の調べ方

## 文章の集め方

### 日本の本・雑誌

本屋古本屋図書館Amazonメルカリヤフオクなどで根気よく探します。

特に雑誌は出回っている時期が限られるものがあるので、定点観測必要です。

日本における中国武術1990年前後流行していたので、新しいものより古いものの方が情報が充実しています

### 海外文章

最低、簡体字繁体字英語の3つの言語検索して、探します。

本土だけでなく、香港台湾米国しか伝承されていないものがあるためです。

ヨーロッパなどにもあるかもしれませんが、探すのが大変で自分はそこまで手が回っていません。

できれば信頼できるサイトから文章を探します。

### 海外の本・雑誌

神保町に置いてあることがありますが、基本は輸入します。

自分で輸入するか、難しければ代行をお願いしましょう。

孔夫子逸文武術文化有限公司の2つのEC特に珍しいものがあります

書籍自炊してPDFにして、OCRをかけた方が取り回しやすいのでおすすめです。

### 文章の集め場所

集めた文章適当ナレッジツールに整理します。繁体字簡体字が混在すると検索に不便なのでどちらかに寄せることをおすすめします。

人物別に整理しつつ、著作時系列順に並べておくのと研究に利があると思います

同じ人物でも初期の著作と後期の著作では異なる内容があり、そこが研究の要点になるためです。

また経験的に、武術には地域性があるため、どこで書かれたかも分かれば研究一助になります

横断的な論点については、タグを付けたり、記事をまとめたりして整理します。

## 翻訳

DeepL、ChatGPT、Claudeなどの選択肢があると思いますが、今であればClaudeが有力です。

真面目に研究するのであれば、有料版以外の選択肢はないというのが個人的感覚です。

事前整形、翻訳翻訳チェックの3つのプロンプトがあれば、作業が便利になると思います

もっと便利な翻訳専門のツールもありそうですが、自分は使っていません。

## その他

動画であれば、YouTubeか优酷を探せばほぼ足りるでしょう。調べ方は文章と同じです。

最近字幕を出す方法がいくつもあるのでそれを使って研究すると楽でしょう。

また、中国武術文化的背景には道教儒教仏教中医学が深く関わるため、日本語でいいのでこの辺りの知識を押さえておくと、理解やすくなります

## 総論

現在技術サービスの発展で誰でも中国武術研究できる時代になったと思います。ぜひ、ご自身研究してみてください。

2024-01-05

anond:20240105030107

あーーもう本当にありがとう

今ちょうどOCR使えないか試してたところだったんだ

マイナー言語の本だから多分難しそうだけど、最悪手打ちでやってみるよ

そうだよね、多分なんとかなるんだよね

うん、話し言葉の量で考えると不可能じゃないよね

連休中になんとか下地っぽいもの作るとこまで粘ってみる

こんな駄目なやつにアドバイスくれてありがとうな、おやすみ😭

anond:20240105025045

2万字なら、2時間話すくらいの分量だから余裕でいける。

2週間で1年分の学費(=100万以上するでしょ)を稼ぐと思ったらやる気出ない?

・まずは5日でその本を読む。文字認識しないと言うことだけど、Google翻訳アプリダメ無料OCRツールは試した?原書読むより入力するほうが早いなら、最悪手打ち入力して翻訳にかけたら?

・1日で論文構成を考える。ここはChatGPTと相談しながらできるでしょ。

・その翌日、Word音声認識を使ってガーっとしゃべっていく。とにかくしゃべる。

・できた文を直し、切り張り切りはりして、整える。ここに2日かける。

時間が余ったら先行研究とかざっとネットで見る。それをちょいちょい引用・追加していく。(ちゃんとそれを残す=アピールポイント

やれたら自信になると思うよ。そして社会人になると、2万字くらいのレポートは1週間ももらえないんだよね。

ログイン ユーザー登録
ようこそ ゲスト さん