スキャナー等で取り込んで画像のままPDF化されたファイルにtesseract-ocrで 処理したテキストを貼り付けるスクリプト。

pdfocr.rb:

Ubuntu 10.04で必要なパッケージ

imagemagick ghostscript pdftk pdfjam exactimage

Tesseract-OCRのSVNからのインストール

svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/  tesseract-ocr
cd tesseract-ocr
./configure
make
make install

Tesseractに関する情報は

http://code.google.com/p/tesseract-ocr/wiki/ReadMe


トップ   一覧 検索 最終更新   ヘルプ   最終更新のRSS