スキャナー等で取り込んで画像のままPDF化されたファイルにtesseract-ocrで 処理したテキストを貼り付けるスクリプト。 [[pdfocr.rb::http://yama.sci.hokudai.ac.jp/~sekika/ruby/pdfocr.rb]] Ubuntu 10.04で必要なパッケージ imagemagick ghostscript pdftk pdfjam exactimage Tesseract-OCRのSVNからのインストール svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr cd tesseract-ocr ./configure make make install Tesseractに関する情報は http://code.google.com/p/tesseract-ocr/wiki/ReadMe