山仁哲学堂 > 書評箋 > ソフトウェア > e.Typist v.12.0  メディアドライブ

e.Typist v.12.0  メディアドライブ

成分

e.Typist v.12.0

 OCR とは、Optical Character Recognition の略で、光学文字認識のこと。印刷された活字文字を、スキャナやデジカメなどを利用して画像データとして取り込み、テキストデータに変換してくれます。

 1990年代後半、堂主は『修験道章疏(しゅげんどうしょうしょ)』という非常にマニアックな漢文資料を、この e.typist を使ってコツコツと活字化する作業に励んでいました。漢字は全部旧字体、しかも返り点や送りがなが1/4角で出現するのでなかなかスムーズな作業とは言い難いものでした。

 それから十年が経とうとする2007年、久々に最新版である e.typist v.12.0 を試してみました。今は実業に就いているので、テキスト化するデータも普通の活字資料であり、当時の作業と単純に比較することはできません。しかしながら、それを差し引いても、認識精度および使い勝手の向上、とくに後者のそれには驚きました。

 OCRソフトでは画像ファイルとテキストファイルとの連携がとても重要になりますが、取り込んだ画像のレイアウト割、その範囲や認識順の変更方法、認識後の文字解析(誤認識の可能性の高い文字を赤表示してくれる)、誤認識文字の修正方法など、一連の作業が無駄なく行えるように非常に深く考えて作り込まれています。

 さらに驚いたのが出力ファイル形式の多様さ。txt、pdf、rtf、ワード、一太郎などはもちろん、エクセル、パワーポイント、さらには html、xhtml にも対応しています。(x)html での出力は、サイト運営者やブロガーにはとても重宝するでしょう。

効能

 大量の活字データをテキスト化、(x)html 化したい人に有効です。

使用上の注意

 自動学習オプション(修正した文字を辞書へ自動登録する機能)は初期設定ではOFFですので、ONにするのを忘れないようにしましょう。([環境設定]→[全般]→[その他]→[自動学習オプション]にて設定可。)

この記事をブックマークする

キーワードによる類書検索

e.typist,ocr,光学文字認識,テキスト化,、(x)html 化,画像,活字,スキャナ,デジカメ,


Posted at 07/11/27 16:11 | Edit

 |  次の記事を読む |  [ソフトウェア]の一覧を表示 | 
 山仁哲学堂 > 書評箋 > ソフトウェア > e.Typist v.12.0  メディアドライブ

コメントを投稿

(コメントはサイト運営者の承認後、表示されます。)






このエントリーのトラックバックURL http://yamani.xsrv.jp/mt2/mt-tb.cgi/3015