wget

  • wgetでPDFをまるごと取得
    	例 wget -np -r -A PDF,pdf  http://www.city.otaru.hokkaido.jp/gikai/kaigiroku/honkaigi/honkaigi.htm
    	-A EXT	EXTで指定された拡張子ファイルのみ取得
    	-R EXT	EXTで指定された拡張子のファイルは取得しない
    	-np	親ディレクトリは参照しない

pdf2txt pdftotxt pdftotext

  1. CentOSにはpdfが入っていない
    • yum install poppler-utils
  2. pdftotextの使い方
    • UTF8で出力
      	pdftotext -enc UTF-8 sample.pdf sample.euc  
    • EUCで出力
      	pdftotext -enc EUC-JP sample.pdf sample.euc  
    • シフトJISで出力
      	pdftotext -enc Shift-JIS sample.pdf sample.euc 

全てのPDFをTEXTへ変換するスクリプト

  1. Perl/linuxで複数ファイルの文字コード変換を利用する。
        use File::Find;
         @ARGV = qw(.) unless @ARGV;
         find sub { push @list, $File::Find::name, -d && '/', "\n"}, @ARGV;
         chomp @list;
         foreach(@list){
                 unless($_){next;}
                 if(/^\//){next;}
    	      unless(/pdf$|PDF$/){next;}
    	      if(/(.*)(PDF|pdf)$/){$filename=$1;}
    	      $fileTxt = $filename . "txt";
                 $exe = "pdftotext -enc UTF-8 $_ $fileTxt";
    	      print "$exe\n";
                 system("$exe");
         }

木村ゼミ生限定

編集画面
ゼミ生
2017-2018年度生(11期)
石黒栞奈一宮拓海
亀井海舟佐藤栞
佐藤有希桧森拓真
藤本朱夏ホワイトジニー
増田優作谷内健太
2016-2017年度生(10期)
伊藤みき岡島健悟
小西雪葉祐川泰輝
鈴木佑菜大門拓史
田頭わかば戸嶋咲穂
中村智貴西野哲生
横山祐果川岸祐果
2015-2016年度生(09期)
浅賀七海小林真菜
西村伊央堀江知未
針生惟希村上浩太
2014-2015年度生(08期)
大石誠大野晋太朗
加藤裕樹佐々木左近
高橋理沙武田莉穂
寺島舞子畑賀大
山田修世
2013-2014年度生(07期)
加藤史織工藤智子
佐々木葉子志鎌周
高橋玄龍眈丈
中尾千咲中川玲菜
中藪大貴
2012-2013年度生(06期)
遠藤星地大野紗季
鎌田めぐみ木下和大
齋木涼介佐々木遥
佐藤優子沼澤文香
古屋真理吉田智弘
2010-2011年度生(05期)
葦原史敏伊藤大起
伊藤みどり永坂文乃
藤田航哉前多大輔
松本陵佑宮津有沙
山田亜季
2009-2010年度生(04期)
岸本隆志窪地由恵
志賀千鶴津田有子
三浦工弥
2008-2009年度生(03期)
粟津康佑井上さゆり
北崎佑樹工藤和寛
古俣優花佐川彰宏
佐藤禎洋鈴木亜衣
竹原希美藤井優作
堀公一堀内小織
米澤宏史
2007-2008年度生(02期)
佐藤健太上村佳弘
奥田啓貴小野誠
白井かずみ高井庸介
森谷亮介六渡有梨恵
若本哲平
2006-2007年度生(01期)
菅井梓渡部謙太郎
相坂真大村佳慎
奥桃子笠井猛
小林和幸齊藤いつこ
齊藤雄紀佐々木麻未
佐藤日加吏谷本貴之
徳江佑介長嶺脩平
西本みゆき林絵里子
澤田大輝