***平成19年小樽市会議録を対象とした「AのB」についての調査 [#f7dd3160] -「AのB」について --ある文章、ある段落を代表させるフレーズになるので、抽象化されていなければならない。 --質問文はある程度抽象化され、ある程度具体的なフレーズでなければならない。 +平成19年小樽市議会会議録に含まれる「AのB」 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB.txt 14,336パターン +分類語彙表で 「A」と「B」のタイプを調べる。 --詳細バージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver1.txt --頻度計算バージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver2.txt --頻度計算上位1件バージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver3.txt --(主体)→(活動)のみのバージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver4.txt 616パターン +Google 7grams を利用したチェッック --「AのB」を「AをBする」に変換して頻度を調べる。 --検索結果全て出力 http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_GoogleVer1.txt --Google 7 gram に存在する http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_GoogleVer2.txt 805パターン +一分類語意表とGoogle7gmsで一致しているパターンと一致していないパターンの割合 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924SameOrNot.txt --分類語彙表(主体-活動) 616パターン と Google7gram(AをBする) 805パターン の パターン一致数 53パターン +今後の課題 --評価について ***評価 [#x27211a0] アンケート文に利用する「AのB」の抽出手法 最終的なデザインは、アンケートを利用したマッチング --予備実験 --目的 Google か分類語彙評価か(WordNet) ---理想のデータ 6×5 = 30 ---文中に存在するデータ 6×5 = 30 -正解データ Excelからまとめる(Seikai.txt) 議員 カテゴリ名 フレーズ -評価データ システムが出力するデータ(All.txt, Google.txt, BunruiGoiHyou.txt) 議員 カテゴリ名 フレーズ -適合率を求める。 ||議員名とカテゴリ名が一致|議員名が一致|カテゴリ名が一致|全てのAのB| |Google|-(%)|-(%)|-(%)|-(%)| |分類語彙表|-(%)|-(%)|-(%)|-(%)| |WordNet|-(%)|-(%)|-(%)|-(%)| -再現率を求める。 ||議員名とカテゴリ名が一致|議員名が一致|カテゴリ名が一致|全てのAのB| |Google|-(%)|-(%)|-(%)|-(%)| |分類語彙表|-(%)|-(%)|-(%)|-(%)| |WordNet|-(%)|-(%)|-(%)|-(%)| -F値を求める。 ||議員名とカテゴリ名が一致|議員名が一致|カテゴリ名が一致|全てのAのB| |Google|-(%)|-(%)|-(%)|-(%)| |分類語彙表|-(%)|-(%)|-(%)|-(%)| |WordNet|-(%)|-(%)|-(%)|-(%)| --本実験 --目的 ---各段落の中にある「AのB」を抽出する。 ---カテゴリを利用するとうまくフィルタリングできることを明らかにする。 --実験準備 正解データ作成 ---代表する「AのB」は何なのか、100段落か選択してもらう。 ---2人×100段落×3種類 正解選択 存在しない場合---- なし回答も作成 ---学生には、Excelに回答してもらい、メールで提出してもらう。 --評価方法 --各段落に代表的な「AのB」を出力し、その中で正解を選択する。 --評価 -適合率を求める。 ||議員名とカテゴリ名が一致|議員名が一致|カテゴリ名が一致|全てのAのB| |Google|-(%)|-(%)|-(%)|-(%)| |分類語彙表|-(%)|-(%)|-(%)|-(%)| |WordNet|-(%)|-(%)|-(%)|-(%)| -再現率を求める。 ||議員名とカテゴリ名が一致|議員名が一致|カテゴリ名が一致|全てのAのB| |Google|-(%)|-(%)|-(%)|-(%)| |分類語彙表|-(%)|-(%)|-(%)|-(%)| |WordNet|-(%)|-(%)|-(%)|-(%)| -F値を求める。 ||議員名とカテゴリ名が一致|議員名が一致|カテゴリ名が一致|全てのAのB| |Google|-(%)|-(%)|-(%)|-(%)| |分類語彙表|-(%)|-(%)|-(%)|-(%)| |WordNet|-(%)|-(%)|-(%)|-(%)| --考察 ユーザの明確な意志、選択理由 ***【参考文献】 複合名詞、AのB [#nc442a0e] +候補の接続関係を考慮した複合語用語抽出, 小山 照夫 , 竹内 孔一,SIGNL193,pp.*-*,2009, +森 信介,小田 裕樹,3種類の辞書による自動単語分割の精度向上,SIGNL193,pp.*-*,2009, +国語辞典を用いた名詞句「AのB」の意味解析 http://ci.nii.ac.jp/naid/110002935116/ +動詞型連体修飾表現の N1のN2への言い換え, 片岡明 ,増山繁 ,山本和英 +村田真樹, 山本専, 黒橋禎夫, 井佐原均, 長尾真, "名詞句「AのB」「AB」の用例を利用した換喩理解 人工知能学会誌, Vol.15, No.3, pp.503-510 (2000.5). +Kageura, K. and Koyama t. eds., Special Issue on Japanese Term Extraction, Teminology, vol.6, no.2 (2000). +Daille, B., Gaussier, E., and Lange, M., Towards automatic extraction of monolingual and bilingual terminology, Proc. COLING-94, pp.515-521, (1994) +Ananiadou,S., A Methodology for Automatic Term Recognition, PROC. COLING-94, pp.1034-1038, (1994). +中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 --http://gensen.dl.itc.u-tokyo.ac.jp/paper.html