スキャナー等で取り込んで画像のままPDF化されたファイルにtesseract-ocrで 処理したテキストを貼り付けるスクリプト。
Ubuntu 10.04で必要なパッケージ
imagemagick ghostscript pdftk pdfjam exactimage
Tesseract-OCRのSVNからのインストール
svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr cd tesseract-ocr ./configure make make install
Tesseractに関する情報は