スキャナー等で取り込んで画像のままPDF化されたファイルにtesseract-ocrで処理したテキストを貼り付けるスクリプト。(日本語不可)

pdfocr.rb

Ubuntu 10.04で必要なパッケージ

sudo apt-get install imagemagick ghostscript pdftk pdfjam exactimage poppler-utils

Tesseract-OCRの最新版(3.01)のインストール

sudo apt-get install libpng12-dev,libjpeg62-dev,libtiff4-dev,leptonica-dev
svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/  tesseract-ocr
cd tesseract-ocr
./configure
make
sudo make install

Tesseract-OCR に関する情報は

http://code.google.com/p/tesseract-ocr/wiki/ReadMe


トップ   一覧 検索 最終更新   ヘルプ   最終更新のRSS