自炊した書籍のPDFデータとかをOCRに噛ませる→更に音声合成システムに噛ませてオーディオブック化するっていうのを試してる
テキスト化までは成功してて、試しにvoiceboxに読ませてみたんだが流石に誤読が多すぎる
adidasもエーディーアイディーエーエスって読むからなんのこっちゃってなった、まあそういう用途は想定されてないわな
Amazon PollyかGCPのText to Speechのデモ試したら良い感じだったからこっち試そうかな
毎月400~500万文字くらい無料らしい、そこそこぶ厚めの技術書でも文字数は10万とかだったりするからまあ事足りるかな
明日はそっち試してみよっと