スキャナー等で取り込んで画像のままPDF化されたファイルにtesseract-ocrで処理したテキストを貼り付けるスクリプト。(日本語不可)
Ubuntu 10.04で必要なパッケージ
sudo apt-get install imagemagick ghostscript pdftk pdfjam exactimage poppler-utils
Tesseract-OCRの最新版(3.01)のインストール
sudo apt-get install libpng12-dev,libjpeg62-dev,libtiff4-dev,leptonica-dev svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr cd tesseract-ocr ./configure make sudo make install
Tesseract-OCR に関する情報は