はてなキーワード: 光学文字認識とは
150万冊をポケットに。
偉大なるiPhoneやAndroid携帯は、郵便局で並んでるときにパックマンで遊べるようにしてくれた。
ただまあ、ゲームで遊ぶとかヴィデオを見る以上の事を、ときどきは望んだりもする。
もし、偉大な文学作品、例えば、(ジェーンオースティンの)エマとか(キップリングの)ジャングルブックとか、携帯でアクセスできたら?
ほかに、もっと無名な宝石達、例えばマークトゥエインのどたばた旅行記「素朴な旅行」とかは?
今日僕らは、モバイルバージョンのGoogle Book Search開始をアナウンスできる。
まず150万冊(半分はアメリカ以外)のモバイルパブリックドメインブックを、郵便料金を払う間にブラウズできるようにした。
既にGoogle Book Searchで読めるようになっている。携帯の小さな画面で読めるように調整した、新しいモバイルバージョンだ。
試しに読み始めたくなったら、キミのiphoneかAndoroid携帯のブラウザで、http://books.google.com/m を開いてみて。
ここで、ちょっと面白い裏話を。たくさんの本をモバイルデバイス向けに準備する仕事の話だ。
もし、Google Book Searchを使ったことがあるなら、たぶんページの画像を見たと思う。電子化した書籍のコピーのだ。
このページ画像は、コンピュータで見るには良いけど、あの大きいとはいえない携帯の小さな画面で見るには向いていない。
僕らが出した答えは、本にアクセスしやすくするために、ページ画像からそのエッセンスを取り出すことだった。つまり、モバイルブラウザでWebページを見るみたいに見れるようにすること。この抽出プロセスには、よく知られてるOptical Character Recognition(OCRって略すね)光学文字認識を使った。
例えば、次のデモみたいにページイメージからテキストを抽出する。
(デモ1)
技術的な課題としては、ページ画像からのテキスト抽出ってのは難しい。汚れてる本とか、おかしなフォント、古いフォント、薄いページなどなど。エラー無く読み取らなきゃいけない。下のページ画像は、オリジナルの(不思議の国のアリスの元になった)地底の国のアリスだ。
この極端な例だと、テキストの綴りはめちゃくちゃだ。
(デモ2)
不完全なOCRを使った今回のは、ページ画像を使ってテキストベースの本を集めきるっていう究極のゴールの最初の一歩に過ぎない。
僕らのコンピュータアルゴリズムは、自動的に本の構造を決定しなくちゃならない(ヘッダとかフッタとか、詩とか散文ならどこに置くとか)
そして、オリジナルの本のフォーマットで、本を描き出してくれなきゃならない。
この技術的な挑戦は、手強い。でも、僕らは、OCRを強化するし構造を抽出するテクノロジーを進歩させ続ける。
このスタートは、もっと本へのアクセスを容易にするための、重要な一歩だと信じている。
キミのモバイルブラウザで、http://books.google.com/m にアクセスして試してみて。読んでみて。
ああ、もしもぐちゃっとしたテキストに出会ったとしたら、ええと、うーん、んー。その時は、タップするとそのテキスト部分のオリジナルのページ画像が見られるよ。
http://booksearch.blogspot.com/2009/02/15-million-books-in-your-pocket.html