2015年11月25日水曜日

OCRの修正ポイント

角川千葉県地名大辞典の付録小字一覧を電子化してデータベース化しています。
これまで約半分の46500の小字をデータベース化しました。
データベースそのものの紹介やその試用結果はブログ「花見川流域を歩く」で記事にしています。

ここでは電子化する際にOCRを使っているのですが、その修正作業の一端をメモしておきます。

次の画像は角川千葉県地名大辞典付録小字一覧のページ(例)です。

角川千葉県地名大辞典付録小字一覧のページ(例)

このページをスキャンしてJPEGファイルとし、画像を分割して1段組みのファイルとし、さらに画像解像度を通常より相当高く設定してからOCRにかけます。

OCRはDocuWorksを使います。

OCRの結果はエディタ上で修正します。

OCRの読み間違いはルビで多発します。

・カタカナが小文字のカタカナで出力される
アイウエオカケツヤユヨワには小文字ァィゥェォヵヶッャュョヮが存在していて、これが混ざります。
この修正は効率を優先して一括置換で行いました。
したがって「チョウ」と表現されるべきところが「チヨウ」と表現されることになりましたが、検索での不都合はありません。

・カタカナが類似字形漢字で出力される
ロ(ろ)が口(くち)に、ニ(に)が二(2)にタ(た)が夕(ゆう)に出力されることがあります。その反対もあります。
カタカナではありませんが、一(1)がー(記号)に出力される場合もあります。

これらの間違いは自分の眼で見てすぐ気が付くとは限らないので、後から検索置換機能を活用して修正することになります。厄介な問題です。

・カタカナが漢字やアルファベット等として出力される
この間違いは一目瞭然でわかります。またその間違い方に一定の傾向がありますので、一括置換などを利用して修正は容易です。

・難易漢字の別字出力
OCRの漢字出力間違いは大変少ないです。ルビと比べて字が大きいため鮮明であることによると考えます。
しかし難易漢字では別字出力があります。ですから多角数の漢字はよく確認することになります。
難易漢字のうちパソコンでは使えない字が原本で使われている場合も多く、それを類似の字あるいは簡易化した字に置き換えると恣意的な作業になるので、字が使えない(パソコンに存在しない)という意味で〓を当てました。

OCRで作成した素データは市町別に行いますが、効率を考慮して小さい市町はまとめてデータ数を大きくして行います。

……………………………………………………………………

この修正作業は単調な単純作業ですが、一定の注意力を注ぐ必要があります。しかし、作業を重ねる中で習熟してきて、頭脳の中では別の思考もできます。その別の思考ができるということから、自分にとって楽しみの時間になります。

また、ユーミンの最初から現在までのアルバム、シングル、ベスト盤、コラボ盤・・・など70-80枚のCDを時間順に並べて、バックグラウンドミュージックとして常時かけています。

もし、この作業が仕事だったら、苦痛以外のなにものでもないと思います。

0 件のコメント:

コメントを投稿