「OCR」を含む日記 RSS

はてなキーワード: OCRとは

2019-08-27

OK Google(AIスピーカー)に期待すること

OK Google ここから15km離れた地点にあるおもしろ施設を教えて

現状ではただの周辺施設を表示する。「おもしろ」は主観的ものなのでまぁ難しいだろうけど、「ここ」が指し示す現在地情報と「15km」という位置情報理解して、地図から読み取るのは可能。だけど、これをできないのは単純に言語理解できていないから、もっというと「そういうコマンドが用意されていないから」と思われる。

同級生の子が出ているAV一覧教えて

現状の動作未確認(音声は保存されるので)。「同級生」を知るにはユーザー同級生を知る必要がある、OCRとか画像認識技術も発達しているので、原理的にはアルバム画像でも登録させれば覚えられるでしょう。そういったユーザーの背景を把握しておいて、「同級生」という言葉がそれら情報と結びついて、かつ、AVでは名前が変わっているので、ちゃんと顔で照合して、それらしい答えを見つける必要がある。


2019年AIスピーカー言語理解していないので、音声->テキスト変換後、その文が事前に用意しているコマンド合致している確率みたいなのを統計処理して、一番それっぽいコマンドを実行、って感じの処理をしてると思う。事前にどれだけ多くの「コマンド」を用意できるのかがAIスピーカー能力限界だし、これは直感的に使いみちが限定されるってのはわかると思う。当然「ピカチュウの顔が竜雷太になっている画像作って」みたいな、世界初命令には対処できない。(たまたまそういう画像ネット上に存在すればヒットするけど)

どちらも、再現性のあるチューリングテスト合格が出来るようにならん限りできないので、10-20年以上先になりそう。でもディープラーニングみたいな技術革新出てきたらもっと早く出来る可能性もある。

2019-07-18

anond:20190718135502

Googleキャッシュコピペしただけ

http://webcache.googleusercontent.com/search?q=cache%3Ahttps%3A%2F%2Fspecial2019.cdp-japan.jp%2Fassets%2Fpdf%2Frikkenvision_0704.pdf

Page 1

井上デモクラシー

まっとうな政治

立憲ビジョン2019

立憲民主党

The Constitutional

Democratic Party of Japan

Commリっけん

Page 2

ポコロデオクラ

現在日本は、人口減少と高齢化

価値観ライフスタイル多様化

生活不安定化などの大きな変化にさらされています

さら国際社会では、対立と分断が深刻化し、

不透明性が増しています

ひと握りの政治家による政治では、

新しい令和の時代を切り拓くことはできません。

これから日本には、大きなパラダイムシフト(※)が必要です。

様々な課題可能性に変え、未来を切り拓いていくための、

価値観社会のあり方の転換。

その転換をみなさんとともに進めていく。

新しい政治=「#令和デモクラシー」の

第一歩を踏み出します。

PDFダウンロードしてるならGoogleドライブにアップすればOCRが使えたはず。

2019-07-15

日本事務作業はなぜなくならないのだろう。

エクセルが使えますって言っても、せいぜいネストしてないifs文やvlookup関数程度。

しかし、それでも、エクセル機能関数とか)を使えば、速く仕事出来るし。OCRが発達してない日本

ダメ

ハンコ文化も。

はー、コピー用紙両面印刷でとか、人件費削減!バイトを使う!みたいな微妙節約やらはするクセに本質的業務改善がなされない。

大学入試制度を変えるよりは。入社SPI官僚公務員試験を変える方がいいんじゃないのかな。

もっとITで改良できる人間事務仕事やらを担うべき。

事務仕事大杉

  

2019-05-21

初めてのOCR校正

目がめっっっっっちゃ疲れる

今日だけで20万字分(ただし英文)くらい校正段落修正した

あと1/3だーーーこれが終われば快適に読めるーーー



……こんなことやるより不便でも読んだ方がマシじゃないかって思えてきちゃってさ。

2019-04-29

”白米首脳会談

約 0 件 (0.17 秒)

北方領土問題解決四方式―提案評論資料

https://books.google.co.jp/books?isbn=4760304142

1977

... にも相談せず、個人的意見として発表したということであるが、世界的な権威もつ外交専門誌が掲載したということは、平沢論文妥当ものとして諒解したということであろう。また、さる八月の首相訪米に際し、白米首脳会談の蔭の演出者として重要な役.

レアが出た。OCRの読み取りミスっぽい。

2019-04-06

anond:20190406105140

手作りエクセルシートなら各自好きに作れるからどうとでもなるかもしれないけど。

基本的には

1. OS(マイクロソフトとか)やエクセルVBA関数、その他ライブラリ対応を待って、

2. それを利用したミドルウェア屋とかOCR屋とかが対応して、

3. そのミドルウェアを利用したSIer顧客企業システム合致するかテストして

4. 顧客企業自らテストして・・・

みたいにいくつも業者テストがはさまるんじゃないの。

2019-03-08

文書データ化

文書スキャナデータ化して日々の仕事効率化しようと考えたが、詳しく調べてみるとこの方法には致命的な欠点があることに気づく。それは紙文書データ化=画像化ということであるOCRという技術を使えば画像から文字を取り出すこともできるが、100%の精度ではないため重要書類にこの技術は使えない。つまりスキャナにできるのは本棚の空きスペースを増やすことだけである

 

文書スキャナ画像化>OCR>手作業による誤字の修正検索コピーペースト

2019-03-04

OCR文字定規

テンプレートとも呼ばれているものだ。カタカタアルファベット大文字)と数字だけ。


手書きバレットジャーナルとか手帳とか、文字定規でだけ書くことにしようかな?


そうすればスキャンしたバレットジャーナルEvernoteが正確に認識してテキストデータにしてくれそ.

下の例では、アルファベットだけだけど、シンワから出ているテンプレートを使えば、カタカナOK


手書きバレットジャーナルって見返すとき うえぇ ってなるときあるもんな。まぁTODOリストから、あとで見返す必要ないともいえるが・・・・・

https://cyblog.jp/12056

2019-02-19

anond:20190219151118

じゃあ、人間かAIbotかの判定だと思って難読処理された文字列入力したらOCRの解析に利用されたのはアウトだよね?

2018-12-29

>わざわざ数字が書きにくい縦書きよりも、書きやす横書きを選んで書く方が手っ取り早いので、ほとんど横書きで書かれるのです。

違うぞ

OCRで読み取りやすいように、だろが

https://jpn.nec.com/kids/himitsu/04.html

郵便局迷惑かけるな

2018-10-17

anond:20181017192057

手書きOCRで読んでるわけじゃないだろうし何でパソコンで書いて印刷してまたOCRで取り込むの?

anond:20181017191926

OCR「ごめんなぁ。ウチ漢字よう分からんのや。特にかい字とかはなあ」

2018-10-16

anond:20181016111132

資料を入手して、マクロ・数式でバババっとやると速くて正確だけど、それは禁止

なぜならば、元資料で間違っている点を正確に間違えたまま次の資料を作られては困るから

たとえばOCRで「やさレく学ぶ 機械学習理解するための数学のきほん」って読み取られてるのをマクロ処理しても『レ』はそのまま残ってしまうし、マクロ処理後に目視確認してもそれを見つけるのは困難である

2018-06-29

趣味の一環としての固有名詞翻訳

趣味の一環として映画字幕翻訳する、と言っても、そんなに難しいものではない。

DVDによっては耳の不自由な人向けの全セリフ入り字幕が入っているのでヒアリング能力は要らないのだ。字幕テキストファイルではなく画像ファイルで入っているのでOCR必要だが、試行錯誤していくうちに認識率の高いフリーソフトも見つかった。似た文字が多いから時々手動認識すら間違えることもあるし、稀に字幕のものが間違っていることもあるのだけど、google検索すれば一般的単語は「〇〇では?」とサジェストされるので、知識が少なくても誤字修正可能になる。IT技術バリアフリー万歳である。まあ全ての海外DVDバリアフリー対応ではない、というかそこまで字幕が入っているのは自分の興味のある国では1ブランドしかないのだけれど、その1ブランドが最大手なので全然困っていなくもある。

さて、そうしてIT技術に頼ったところで、翻訳に一番困るのは「固有名詞である。大体の場合辞書にはそれらは載っていないのだ。とは言え登場人物名前はそのままカタカナにしてしまえばいいから、เมย์ไหนはそのまま「メイナイ」にしてしまえばいいし、ป๋องはポンでいい(本当はポングなんだが日本人には最後のグはたいてい聞こえない)。เฟมはフェームで済ましてしまっていい、とかやっていると登場人物にเฉดとฉัตร、カタカナにするとチェットとチャット、1文字いかよ!みたいなことも出てきてさてどうしようか一瞬迷うがフィクション固有名詞なるたけ変えないのが自分ポリシーからそこは趣味に走ってそのままにして問題ないことにしている。

問題なのは例えば実在芸能人とか、店の名前とか、車種とかそういうやつだ。字幕にするのはだいたい現代舞台恋愛映画、早い話がトレンディドラマだ。そういうところでは現地の観覧者なら確実にわか固有名詞が山ほど、"ストーリーに絡まない、どうでもいい話題"として出てくるのだ。

おそらくここで「バード・トンチャイ」とカタカナ表記したところでその国で1,2を争うスーパー芸能人名前を把握できている人は少ないだろう、ましてTik Kanyaratと言われてそれが男か女か分かる人すら何人いるというのだ。Liab duanという場所自分も知らない、知らないがカラオケが楽しめる場所として有名らしい。Club FridayというTV番組がどの層にウケているのか、ホンダから日本ブランド名を変えて「JAZZ」という名の車が出ていることはどのくらいわかるのか、もうさっぱりわからない。

からないので、今やっている字幕翻訳に関してちょっと聞いてみた。具体的には先週から1週間ほど、首都にあるデパート名前カタカナ表記したものが何のブランドかわかるかTwitter上でアンケートしたのだが、7割以上の人が「何のことだかさっぱりわからない」との回答だった。これら高級デパートガイドブックには必ず書かれている有名デパートにも関わらずなのだ。まあ、現地駐在で働いているか年数回も同地に旅行に行くようなマニアでなければそんなものかもしれない。

固有名詞は現地のローカルブランドに限らない。アニメ「Ben 10」は日本ではカトゥーンネットワーク放送されているアニメ主人公名前でありアニメ名前でもあるが、そう言われただけで日本人のどのくらいの人がそのアニメを思い出せるだろうか。そう考えてみるとあの映画会社の映画には「スーパーサイヤ人」とか「ドラえもん」とかい言葉が何のエクスキューズもなく入り込んでいて、それだけでどれだけ現地の人にそれらが受け入れられているかがわかる。レベルの差はあれ現地では「Ben 10」もその枠に入っているわけだ。

ちなみにその辺が野良英語字幕だとどうなっているかというと、だいたい無視されている。デパート名前は服飾店のブランド(クリスチャン・ディオールとかな)に完全意訳されてたりした。日本で売られている数少ないDVDに付いてくる正規日本字幕もそういうのはやっぱりきついらしくて、現地アルファベット勉強法をなんとか英語風に訳したら「現地のことをわかってない、ひどい」とAmazonレビュー酷評されたりもしている。自業自得はいえあれは可哀想だ。こちらは、別に売ったり配ったりするものじゃないし、調べてなんとなく理解もしたか基本的にはあまり気にせずにそのまま残すのだが、流石に「JAZZ」は「フィット」に書き換えたし、Club Fridayは「週末のメロドラマ」にしたり、「Tik Kanyarat」は「ワイドショーの旅番組(そういう番組MCなのだ)」にしたりした。なんだよこんなのもわからないのかよと粋がってみても、自分が知らないものもいっぱいあってそれらは適当に書き換えてしまうのだ。

映画オリジナル固有名詞固有名詞で困ったことがある。そう名付けた理由があったりするのだ。เมย์ไหนは実はเมย์ ไหนと分かち書き可能で、固有名詞としてだけでなく「どのメイだよ?」という質問文にも読める。しかストーリーでは、犯人探しをしている主人公が「犯人はメイだ」と言われた時にそう質問しかえして「なんだお前知ってるのか」と納得される重要ギャグシーンに使われるのだ。本職の字幕なら「どのメイだよ?」という字幕に「メイナイ」というルビを振るのかもしれないけれど、テキスト字幕でルビを振るのは難易度が高い。なので同じ響きの駄洒落ごまかした。勘弁していただきたい。

2018-06-08

手書きデバイス漢字変換機能を載せてほしい

iPadとか

https://gigazine.net/news/20180607-intel-tiger-rapids/

↑こういうのとか、最近手書き機能アピールしてるデバイスが売り出されてるけど、漢字が苦手だからひらがなで書いたら感じに変換する機能をつけてほしいわ。

リアルタイムOCRが働いて、手書き画像データテキストデータに変換して、漢字変換をするの。

外人だってスペルチェック機能とかあったほうがいいだろうし、リアルタイムOCRはありだと思う。

2018-05-26

後世の人のためscansnap 1500Mについてのメモを残しておく

mac os high sierraスキャンしたときに、OCRをするとページがバラバラになる問題について。

scansnap 1500Mのドライバページ http://scansnap.fujitsu.com/jp/downloads/model/s1500m-1.html

からドライバを落としてスキャンすると、scansnap managerは動くが、pdf makerがOCRを行うとページがバラバラになる。解決策を探したがはっきり書いているところ(というよりこのバグ自体ほとんど書かれていないのでじぶんだけなのかもしれない)がなかったので、ここに書く

解決

実はS1500mのmac os high sierraドライバ別に用意されている。

http://faq.pfu.jp/faq/show/2126?site_domain=scansnap

ここに書いてある

 1) ScanSnap Manager V6.3L50 をダウンロードしてインストールしてください。

2) 1)をインストール後、必要OCRパックをダウンロードしてインストールしてください。

    ・OCR パック(アメリカおよびヨーロッパ) V1.0L10

     ・OCR パック(アジア) V1.0L10

3) 続けて、ScanSnap Manager V6.3L61アップデートダウンロードして適用してください。

4) 続けて、ScanSnap Manager V6.3L70アップデートダウンロードして適用してください。

でうまくいった。

2018-05-02

anond:20180502014949

ていうか英語の使い勝手が良すぎる

・26文字しかない

文字区切りがスペース

ここらへんなんて将来的にOCRで読み込むのを想定していたんじゃないかレベル

2018-04-18

バグダッド日誌(4月2日)にみる日本自衛隊韓国軍友情の絆

こんなリツイートが流れてきた

防衛省が公開した陸上自衛隊日報2006年4月2日である

面白かったのでOCRテキスト化した

バグダッド日誌(4月2日

アジアの友人

 球春到来、日本セントラルリーグも開幕し、春の高校選抜野球も大詰めである。ここキャンプヴィクトリーでは、今なお新しく知り合いになる米国人とはWBC(ワールドベースボール・クラッシック)の話題から始まっている。日本が優勝して以来、我々も本当に鼻が高い。

 しかしながら、準決勝で惜しくも日本に敗れた韓国に気を使い、韓国の連絡幹部の前では野球の話しをするのを控えていた。昨日夕食で同席した韓国少佐が期せずしてWBCの話しをしてきた。内心穏やかではないのであろうが、日本の優勝を祝福し、「本当に日本は強い。韓国日本10年は遅れている。」と言ってくれる。我々も「運が良かったこと」、「予選では韓国に2連敗していること」を強調する。お互いに謙遜のしあいである

 この「謙譲の美徳」は、アジア独特のものではないかと感じている。自己主張の強い欧米人からすれば何を卑下しあっているのかと思うだろう。

 キャンプヴィクトリーでは日本にとって韓国は「アジアの良き友人でありライバルである。コアリション・オペレーション部内でも朝一番にきて、一番最後に帰るのは日本韓国である現在日韓微妙関係に全く影響されず、良き友人として日韓お互いに切磋琢磨している。(黒塗り)

○雷

 今朝5時半頃、「トーン」というすごい音で目が覚めた。「迫撃砲でも落ちたか?」と思ったが、雷であった。朝から断続的に雷が落ち、稲光が上空を走っている。雨も激しく降っており、キャンプの彼方此方が冠水している。

 音に大変敏感になっており、断続的な雷音は堪らない。鈍より曇った空を見ながら天候の回復を待っている。(黒塗り)

https://www.asahicom.jp/news/esi/ichikijiatesi/iraq-nippo-list/20180416/370/060402.pdf 19/22

2018-03-28

anond:20180328111241

永久に記録するというよりは瞬間のひらめきを忘れないうちにメモるための用途だな

文章に書き起こすOCR機能付きのもあるけど、

ちょっとした図形とかのメモ程度の用途だろ

タッチタイピングよりも手書きのほうが早いならそっちもありだね

アーカイブ ヘルプ
ログイン ユーザー登録
ようこそ ゲスト さん