- 追加された行はこの色です。
- 削除された行はこの色です。
スキャナー等で取り込んで画像のままPDF化されたファイルにtesseract-ocrで処理したテキストを貼り付けるスクリプト。(日本語不可)
[[pdfocr.rb:http://yama.sci.hokudai.ac.jp/~sekika/ruby/pdfocr.rb]]
Ubuntu 10.04で必要なパッケージ
sudo apt-get install imagemagick ghostscript pdftk pdfjam exactimage poppler-utils
Tesseract-OCRの最新版(3.01)のインストール
sudo apt-get install libpng12-dev,libjpeg62-dev,libtiff4-dev,leptonica-dev
svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr
cd tesseract-ocr
./configure
make
sudo make install
Tesseractに関する情報は
Tesseract-OCR に関する情報は
http://code.google.com/p/tesseract-ocr/wiki/ReadMe