[[研究テーマ]]



***J48 C4.5  &ref(OtaruH19-J48-C025-M1.txt); の場合 [#c28f8448]
-アンケート項目を作成するための関連段落抽出
--流れ
---[[注釈付けを行った平成19年の会議録を対象にC4.5で決定木を作成する。>weka]]
---決定木の分岐点となる政治的カテゴリを抽出する。
---この分岐点となる政治的カテゴリに関係ある議員と関係ない議員を分ける。
---関係ある議員の発言の中から、その分岐に影響する政治的カテゴリの発言だけを集める
---その発言から、アンケート項目を作ることを考える。
--議事録から関連段落を抽出し、「、」と「。」で区切り、表示しただけ。
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1.cgi
---特徴的なフレーズをどのように選択するのかが、課題となる。
--カテゴリ名を含む文だけを抽出
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver2.cgi
--カテゴリ名を含む文だけを抽出(定例会、段落数を削除してシンプル表示)
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver3.cgi
--カテゴリ名を含むフレーズを構文解析した後に、2文節の係り受けを抽出し、句末が名詞で終了するように修正
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver4.cgi
-対象の会議録
--小樽市市議会会議録 平成19年 第1〜4回
-条件
--Cオプション 0.25
--Mオプション 1
-カテゴリの有無について
	 "カテゴリ名 <= 数値" は 無し  
	 "カテゴリ名 >   数値" は 有り  
	数値は無視している。 ”>” があるということは、注力していると判断する。
-アンケート項目
--各議員の特徴的なカテゴリを対象として、発言を抽出してくる。
--句読点で分割
--特徴的なフレーズを抽出する。
-C4.5から判断した各議員を特徴付けるカテゴリ
	   1. 見楚谷登志 --
	   2. 山口保 -- 財務
	   3. 佐々木勝利 -- 医療
	   4. 横田久俊 -- 条例
	   5. 大橋一弘 -- 児童福祉
	   6. 前田清貴 -- 児童福祉,財務
	   7. 斉藤陽一良 -- 医療保険
	   8. 大竹秀文 -- 医療保険,財務
	   9. 吹田友三郎 -- 後期高齢者医療
	  10. 久末恵子 -- 後期高齢者医療,財務
	  11. 成田晃司 -- 後期高齢者医療,まちづくり
	  12. 北野義紀 -- 後期高齢者医療,介護保険
	  13. 古沢勝則 -- 軍事
	  14. 井川浩子 -- 軍事,財務
	  15. 高橋克幸 -- 軍事,どのカテゴリにも属さない
	  16. 新谷とし -- 軍事,スポーツ
	  17. 菊地葉子 -- 軍事,地球温暖化・気候変動
-考察
--山口さんが、まちづくり、観光に注力していることを考えると、この分岐はおかしい。
--個人相対頻度 上位3件 について考えてみる。