品番,申込番号,電話番号などを複数のPDFから抽出するためのシェルスクリプトです.

目次

  1. 使い方
  2. スクリプト

使い方

指定したフォルダから再起的に番号を検索します.
検索結果は元のファイルと同じ階層に出力されます.

第1引数で検索対象のファイルを格納しているフォルダを指定して使います.
つまり,

source スクリプト.sh フォルダ

といった形で使用します.

スクリプト

3桁-4桁からなる申込番号を複数のPDFから抽出する例です.

order_num_ptn='^[0-9]{3}-[0-9]{4}$'  # 申込番号の検索パターン
output_file_name_ptn='${f%.*}.txt' # 出力ファイル名のパターン

for f in `find $1 -name '*.pdf'`
do
output_file_name=`eval "echo $output_file_name_ptn"`
touch $output_file_name
pdftotext $f - | grep -E $order_num_ptn > $output_file_name
done