[[研究テーマ]] +[[「小樽」を含む16万件のブログから「といえば(と言えば)」を含む文を抽出 重複なし 回数付き>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/nii/20090725BlogAndIeba.html]] &color(red){ htmlファイル}; +[[「小樽」を含む16万件のブログから「ならば」を含む文を抽出 重複なし 回数付き>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/nii/20090725BlogAndNaraba.html]] &color(red){ htmlファイル}; +手がかり語として、日本語機能表現つつじを利用する --処理手順 --「日本語機能表現つつじ」のダウンロード http://kotoba.nuee.nagoya-u.ac.jp/tsutsuji/ --解凍ファイルの中に含まれる 「xml2list.perl」 を利用する --階層 L2 の BASE と MEANINGを利用するために、次の処理 ---L2.llist デフォルトで格納されている あいだは,0651,,r11,B,normal,b590,,02,0,-,,, あまりに,2671,,l31,B,normal,d590,,01,0,65-66,,S999-29R04,2C1.002n01 ---MEANINGを表示するためにxml2list.perl をちょっと変更 #$a->{"surface"} = $a->{"BASE"}; # 便宜上、基本形を表層形とする $a->{"surface"} = $a->{"BASE"} . "," . $a->{"MEANING"}; # 便宜上、基本形を表層形とする ---% perl ./xml2list.perl -L 2 > newlist ---MEANINGが追加される あいだは,順接限定,0651,,r11,B,normal,b590,,02,0,-,,, あまりに,強調,2671,,l31,B,normal,d590,,01,0,65-66,,S999-29R04,2C1.002n01 ---[[抽出した機能表現 手がかり語 3文字以上>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/nii/20090723FunctionalExpression.txt]] &color(red){txtファイル}; ---[[「小樽」を含む16万件のブログから「機能表現」を含む文を抽出 重複あり>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/nii/20090723BlogAndL2.txt]] &color(red){27MB txtファイル}; ---[[「小樽」を含む16万件のブログから「機能表現」を含む文を抽出 重複なし 回数付き>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/nii/20090724BlogAndL2.txt]] &color(red){129,593 表現 28MB txtファイル}; ---[[「小樽」を含む16万件のブログから「機能表現」を含む文を抽出 重複なし 回数付き>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/nii/20090724BlogAndL2.html]] &color(red){31MB htmlファイル}; +[[「○○市といえば」で検索したデータ2009年7月13日>http://nlp.kimura-s.otaru-uc.ac.jp/Perl/20090713res.txt]] +[[「○○市といえば」で検索したデータ2009年7月17日>http://nlp.kimura-s.otaru-uc.ac.jp/Perl/20090717res.txt]] +[[Google7gram「小樽といえば」]]