***平成19年小樽市会議録を対象とした「AのB」についての調査 [#f7dd3160]
-「AのB」について
--ある文章、ある段落を代表させるフレーズになるので、抽象化されていなければならない。
--質問文はある程度抽象化され、ある程度具体的なフレーズでなければならない。
***平成19年小樽市会議録を対象とした「名詞句AのB」についての調査 [#f7dd3160]
-「名詞句AのB」について
--特徴的な政治的問題を抽出する
--質問文はある程度抽象化され,ある程度具体的な表現でなければならない

+平成19年小樽市議会会議録に含まれる「AのB」
--http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB.txt
+平成19年小樽市議会会議録に含まれる「名詞句AのB」
--http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB-Simple.txt
	14,336パターン
+分類語彙表で 「A」と「B」のタイプを調べる。 
--詳細バージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver1.txt
--頻度計算バージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver2.txt
--頻度計算上位1件バージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver3.txt
--(主体)→(活動)のみのバージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver4.txt
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB.txt
+【提案1】分類語彙表の利用  
--[[「A」と「B」のタイプをチェック A=主体 B=活動 のみのバージョン>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver4.txt]]
	616パターン
+Google 7grams を利用したチェッック
--「AのB」を「AをBする」に変換して頻度を調べる。
--検索結果全て出力 http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_GoogleVer1.txt
--Google 7 gram に存在する http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_GoogleVer2.txt
---詳細バージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver1.txt
---頻度計算バージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver2.txt
---頻度計算上位1件バージョン http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_BGHver3.txt
+【提案2】Google N-gramの利用
--[[「AをBする」に言い換えた表現が,Google7-gram に存在するか確認する>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_GoogleVer2.txt]]
	805パターン
+一分類語意表とGoogle7gmsで一致しているパターンと一致していないパターンの割合
--http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924SameOrNot.txt
--分類語彙表(主体-活動) 616パターン と Google7gram(AをBする) 805パターン の パターン一致数
---[[全ての結果>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_GoogleVer1.txt]]
+【提案1】分類語彙表と【提案2】GoogleN-gamの違い
--[[分類語彙表(主体-活動) 616パターン と Google7gram(AをBする) 805パターン の 一致数>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924SameOrNot.txt]]
	53パターン
+今後の課題
--評価について
+【正解】窪地さんが「名詞句AのB」を3つの観点から評価 16点を正解
--http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB-Kubochi-Seikai.txt
	5686/14336
---評価項目
    質問文として  成り立たない場合→0   成り立つ場合→1
    曖昧<- 1 2 3 4 5 ->明瞭
    冗長(無駄に長い)<- 1 2 3 4 5 -> 簡潔
    読みづらい <- 1 2 3 4 5 -> 読みやすい
+【評価】
--[[Google 評価>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20090924-AnoB_GoogleVer2-Result.txt]]
	再現率 387/5686 = 6.80%
	適合率 387/805 = 48.07%
--[[分類語彙表 評価>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/]]
	再現率 139/5686 = 2.44%
	適合率 139/616 = 22.56%
***各カテゴリの例 [#k66dd13b]
-1010    財務      財政の健全化,地方財政の現状,国の配分方法,市政の運営,予算の編成
-1120    教育      教育費の父母負担軽減,ゆとり教育の見直し,道徳教育の充実,子供たちの学力向上
-2013    廃棄物     がれき類等の搬入,ごみ出しルール,家庭ごみの減量化,資源物の収集量
-3014    農業      農業委員会の廃止,農地の転用,農業の経営,日本の食糧自給率,都市近郊型の農業
-3051    バス      バス路線の展望,バス事業者の負担割合,バスのターミナル,路線バスの市民要望
-4020    道路      市の管理道路,市道の改良工事,市道の廃止,高速道路の通行止め
-4110    住宅      耐震補強の設計,家賃の問題,市営住宅の管理,空き戸数の割合

***評価 [#x27211a0]
アンケート文に利用する「AのB」の抽出手法

最終的なデザインは、アンケートを利用したマッチング

--予備実験
--目的 Google か分類語彙評価か(WordNet)
---理想のデータ 6×5 = 30
---文中に存在するデータ 6×5 = 30
-正解データ
Excelからまとめる(Seikai.txt)
	議員 カテゴリ名 フレーズ
-評価データ
システムが出力するデータ(All.txt,  Google.txt, BunruiGoiHyou.txt)
	議員 カテゴリ名 フレーズ
--本実験
--目的
---各段落の中にある「AのB」を抽出する。
---カテゴリを利用するとうまくフィルタリングできることを明らかにする。
--実験準備 正解データ作成
---代表する「AのB」は何なのか、100段落か選択してもらう。
---2人×100段落×3種類
	正解選択
 	存在しない場合---- なし回答も作成
---学生には、Excelに回答してもらい、メールで提出してもらう。
--評価方法
--各段落に代表的な「AのB」を出力し、その中で正解を選択する。
--評価
-適合率を求める。
||議員名とカテゴリ名が一致|議員名が一致|カテゴリ名が一致|全てのAのB|
|Google|-(%)|-(%)|-(%)|-(%)|
|分類語彙表|-(%)|-(%)|-(%)|-(%)|
-再現率を求める。
||議員名とカテゴリ名が一致|議員名が一致|カテゴリ名が一致|全てのAのB|
|Google|-(%)|-(%)|-(%)|-(%)|
|分類語彙表|-(%)|-(%)|-(%)|-(%)|
-F値を求める。
||議員名とカテゴリ名が一致|議員名が一致|カテゴリ名が一致|全てのAのB|
|Google|-(%)|-(%)|-(%)|-(%)|
|分類語彙表|-(%)|-(%)|-(%)|-(%)|
--考察
ユーザの明確な意志、選択理由

***【参考文献】 複合名詞、AのB [#nc442a0e]
+候補の接続関係を考慮した複合語用語抽出, 小山 照夫 , 竹内 孔一,SIGNL193,pp.*-*,2009,
+森 信介,小田 裕樹,3種類の辞書による自動単語分割の精度向上,SIGNL193,pp.*-*,2009,
+国語辞典を用いた名詞句「AのB」の意味解析 http://ci.nii.ac.jp/naid/110002935116/
+動詞型連体修飾表現の N1のN2への言い換え, 片岡明 ,増山繁 ,山本和英
+村田真樹, 山本専, 黒橋禎夫, 井佐原均, 長尾真, "名詞句「AのB」「AB」の用例を利用した換喩理解
人工知能学会誌, Vol.15, No.3, pp.503-510 (2000.5).
+Kageura, K. and Koyama t. eds., Special Issue on Japanese Term Extraction, Teminology, vol.6, no.2 (2000).
+Daille, B., Gaussier, E., and Lange, M., Towards automatic extraction of monolingual and bilingual terminology, Proc. COLING-94, pp.515-521, (1994)
+Ananiadou,S., A Methodology for Automatic Term Recognition, PROC. COLING-94, pp.1034-1038, (1994).
+中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月
--http://gensen.dl.itc.u-tokyo.ac.jp/paper.html