2016年6月2日木曜日

縦書表のExcel化

縦書表のExcel化(電子化)が大変簡単だったのでメモしておきます。

次のような図書に出ている縦書表をExcel化することはこれまでしたことがありませんでした。

過去にそのようなことを行って、結局うまくできなくて、あきらめたことがあるような気がしていたからです。

縦書表

しかし、ものは試しで、この複雑な縦書表の画像jpegファイルをdocuworksに読み込み、「縦書一段」という設定でocr(文字認識)にかけてみました。

docuworks画面 ocr(文字認識)画面

表は複雑な多段ですが、文字認識はかなり正確に行っていますので驚きです。

文字2列を1列の文字として読み込み、全く無茶苦茶な結果になる部分が多いのではないかと予想したのですが、文字例は全てそのまま正確に認識していますから、無茶苦茶なところがありません。

個別文字を正確に認識していないところが少々ありますが、予想以上に少ない結果になっています。

このような複雑な多段縦書表でも、設定は1段なのに、表の段毎に文字認識しています。

あとは文字の間違いを直して、文章毎にExcelのセルにコピペするだけです。

初めから手入力することを考えるととても効率的に作業が進みます。

Excel表の一部を編集して作った成果を次に示します。

Excel表(原表を抜き書きしたもの)

こんなに簡単なら、もっと昔からOCRを活用しておけばよかったのにと悔やみます。

過去に行ったOCRはAdobe Acrobatを使ったので、失敗していたのだと思います。

千葉県小字データベース作成作業のOCRで、試行錯誤の中で偶然にDocuWorksの効率性・効果性を知ったおかげです。

0 件のコメント:

コメントを投稿