日経新聞に「中国「人海入力」基地を見る 誤字率は0.01%以下」
http://www.nikkei.com/article/DGXNZO70830920X00C14A5X11000/
という記事が掲載されたんだけど、数年前までデータ入力関係の仕事をいくつかやってきた経験から、この記事に反論したい点があります。
>>同社の大連での診断書読み取り業務は誤字率が1万字に1字(0.01%)以下。日本人が作業すると誤字率は10字に1字(10%)。新聞で言えば誤字が1行に1字か、1ページに1字かという差だ。<<
という部分なんですが、これは統計的に意味のない数字であると思われます。重箱の隅をつつくような話と思われるかもしれませんが、このような出鱈目な数字の比較で「中国人パンチャーは日本人パンチャーよりも能力が高い」というミスリーディングを行うのは新聞社の記事として問題があるのではないでしょうか。
記事には「大連での診断書読み取り業務は誤字率が1万字に1字」とあることから、1万字に1字というのは複数人の熟練中国人パンチャーが入力・チェックした最終的な納品物の誤字率であると考えられます。一方で、「日本人が作業すると誤字率は10字に1字」というのは、常識的に考えて「素人の日本人が初見で診断書入力を行った場合の誤字率」に相当すると考えられます(記事に掲載された診断書画像は、確かに一般人には読み取り難いものでしょうから、10字に1字の誤字というのも有り得ることです)。「プロが複数人で入力・チェックした場合の誤字率」と「素人が1回入力した場合の誤字率」を直接並べて比較することに、どれほど意味があるのでしょうか。
今回は私の馴染み深い分野の話だったので、数字のおかしさに気付いたわけですが、まったく別の分野でこのような数字を出されたら「そうなんだー。」と鵜呑みにしてしまう可能性もあります。新聞に書かれている情報は、思考や判断の材料にされることも多いわけですから、このような出鱈目は控えていただきたいものです。
以下は補足。
データ入力の際には、一般的に「ダブルパンチ」という方法がよく用いられています(少なくとも数年前までは)。これは、二人の人間が別々に同じ内容を入力して、それをコンピュータ上で照合し、一致しない箇所だけを修正していくという方法です。最初に入力する二人は、バイトやパートなどが多いですが、それを仕事にしている人たちなのである程度正確に入力することができます。この人たちの誤字率が仮に100字に1字程度であれば、ダブルパンチで見過ごされる誤字は単純計算で1万字に1字となり、最終的な納品物の段階では誤字はかなり少なくなります。高い精度が要求されるケースではトリプルパンチなども行われることがあります。
中国に診断書入力を外注する場合、どのように業務が行われるのかについて、数年前に私が派遣として働いていた会社(A社)のケースを書きます。(これは公開されていた情報の範囲内なので問題はないと思います)
診断書というのは、医療情報を含む個人情報ですから、非常に慎重に取り扱う必要があります。A社では、保険会社から委託された診断書をスキャンして画像データとし、この画像を項目ごとにバラバラに切り離します。名前、病名、日付、経過などがそれぞれ小さな個別の画像として中国に送られます。中国ではダブルパンチ、2人の中国人パンチャーが別々にその画像を見て文字を入力します。2人分の入力内容が日本に送り返され、日本人パンチャー2人が個別にダブルパンチの不一致箇所をチェックします。さらに日本人パンチャー2人のチェック結果を別の日本人パンチャーが修正し、最後にコンピュータ上でバラバラの断片だった文字情報を1枚の診断書データに統合します。
つまり一つの病名を入力するのに、中国人2人、日本人3人、計5人のパンチャーが係って、保険会社の要求する精度の入力を行っていたわけです。これはA社の場合ですから、記事にあった会社ではチェックの工程までを熟練の中国人パンチャーが行っているのかもしれません。
診断書の入力が、他の入力業務と大きく異なる点は、医師の走り書きの文字を読むのに慣れが必要である点と、医学用語が頻出する点です。診断書に書かれる文章はパターンが決まっていて、多くは「○月○日に初診、○○検査で○○であったため○○病と診断し、○○○○手術を施行、術後の経過は良好」などの形式に当てはめることができます。日本語の文法にさほど熟達していなくても、パターンと病名や手術名を覚えれば解読は可能かと思います。