画像PDFに透明テキストを貼り付けのバックアップソース(No.2)

バックアップ一覧
差分を表示
現在との差分を表示
バックアップを表示
画像PDFに透明テキストを貼り付けへ行く。
- 1 (2011-02-24 (木) 12:56:03)
- 2 (2011-02-24 (木) 13:24:19)
- 3 (2011-02-25 (金) 18:51:17)

スキャナー等で取り込んで画像のままPDF化されたファイルにtesseract-ocrで処理したテキストを貼り付けるスクリプト。(日本語不可)

[[pdfocr.rb:http://yama.sci.hokudai.ac.jp/~sekika/ruby/pdfocr.rb]]

Ubuntu 10.04で必要なパッケージ

 sudo apt-get install imagemagick ghostscript pdftk pdfjam exactimage poppler-utils

Tesseract-OCRの最新版(3.01)のインストール

 sudo apt-get install libpng12-dev,libjpeg62-dev,libtiff4-dev,leptonica-dev
 svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/  tesseract-ocr
 cd tesseract-ocr
 ./configure
 make
 sudo make install

Tesseractに関する情報は

http://code.google.com/p/tesseract-ocr/wiki/ReadMe

画像PDFに透明テキストを貼り付け のバックアップソース(No.2)

画像PDFに透明テキストを貼り付けのバックアップソース(No.2)