[[研究テーマ]] ***J48 C4.5 &ref(OtaruH19-J48-C025-M1.txt); の場合 [#c28f8448] -アンケート項目を作成するための関連段落抽出 --議事録から関連段落を抽出し、「、」と「。」で区切り、表示しただけ。 ---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1.cgi ---特徴的なフレーズをどのように選択するのかが、課題となる。 --カテゴリ名を含む文だけを抽出 ---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver2.cgi --カテゴリ名を含む文だけを抽出(定例会、段落数を削除してシンプル表示) ---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver3.cgi --カテゴリ名を含むフレーズを構文解析した後に、2文節の係り受けを抽出し、句末が名詞で終了するように修正 ---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver4.cgi -対象の会議録 --小樽市市議会会議録 平成19年 第1〜4回 -条件 --Cオプション 0.25 --Mオプション 1 -カテゴリの有無について "カテゴリ名 <= 数値" は 無し "カテゴリ名 > 数値" は 有り 数値は無視している。 ”>” があるということは、注力していると判断する。 -アンケート項目 --各議員の特徴的なカテゴリを対象として、発言を抽出してくる。 --句読点で分割 --特徴的なフレーズを抽出する。 -C4.5から判断した各議員を特徴付けるカテゴリ 1. 見楚谷登志 -- 2. 山口保 -- 財務 3. 佐々木勝利 -- 医療 4. 横田久俊 -- 条例 5. 大橋一弘 -- 児童福祉 6. 前田清貴 -- 児童福祉,財務 7. 斉藤陽一良 -- 医療保険 8. 大竹秀文 -- 医療保険,財務 9. 吹田友三郎 -- 後期高齢者医療 10. 久末恵子 -- 後期高齢者医療,財務 11. 成田晃司 -- 後期高齢者医療,まちづくり 12. 北野義紀 -- 後期高齢者医療,介護保険 13. 古沢勝則 -- 軍事 14. 井川浩子 -- 軍事,財務 15. 高橋克幸 -- 軍事,どのカテゴリにも属さない 16. 新谷とし -- 軍事,スポーツ 17. 菊地葉子 -- 軍事,地球温暖化・気候変動 -考察 --山口さんが、まちづくり、観光に注力していることを考えると、この分岐はおかしい。 --個人相対頻度 上位3件 について考えてみる。