スキャナー等で取り込んで画像のままPDF化されたファイルにtesseract-ocrで
処理したテキストを貼り付けるスクリプト。

[[pdfocr.rb::http://yama.sci.hokudai.ac.jp/~sekika/ruby/pdfocr.rb]]

Ubuntu 10.04で必要なパッケージ

imagemagick ghostscript pdftk pdfjam exactimage

Tesseract-OCRのSVNからのインストール

 svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/  tesseract-ocr
 cd tesseract-ocr
 ./configure
 make
 make install

Tesseractに関する情報は

http://code.google.com/p/tesseract-ocr/wiki/ReadMe

トップ   一覧 検索 最終更新   ヘルプ   最終更新のRSS