- 追加された行はこの色です。
- 削除された行はこの色です。
[[研究テーマ]]
***J48 C4.5 &ref(OtaruH19-J48-C025-M1.txt); の場合 [#c28f8448]
-アンケート項目を作成するための関連段落抽出
--http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1.cgi
--議事録から関連段落を抽出し、「、」と「。」で区切り、表示しただけ。
---特徴的なフレーズをどのように選択するのかが、課題となる。
--カテゴリ名を含む文だけを抽出
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver2.cgi
--カテゴリ名を含む文だけを抽出 もう少し見やすく
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver3.cgi
--カテゴリ名を含む文だけを抽出(定例会、段落数を削除してシンプル表示)
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo
/J48C025M1_ver3.cgi
--カテゴリ名を含むフレーズを構文解析してみる
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver4.cgi
-対象の会議録
--小樽市市議会会議録 平成19年 第1〜4回
-条件
--Cオプション 0.25
--Mオプション 1
-カテゴリの有無について
"カテゴリ名 <= 数値" は 無し
"カテゴリ名 > 数値" は 有り
数値は無視している。 ”>” があるということは、注力していると判断する。
-アンケート項目
--各議員の特徴的なカテゴリを対象として、発言を抽出してくる。
--句読点で分割
--特徴的なフレーズを抽出する。
-C4.5から判断した各議員を特徴付けるカテゴリ
1. 見楚谷登志 --
2. 山口保 -- 財務
3. 佐々木勝利 -- 医療
4. 横田久俊 -- 条例
5. 大橋一弘 -- 児童福祉
6. 前田清貴 -- 児童福祉,財務
7. 斉藤陽一良 -- 医療保険
8. 大竹秀文 -- 医療保険,財務
9. 吹田友三郎 -- 後期高齢者医療
10. 久末恵子 -- 後期高齢者医療,財務
11. 成田晃司 -- 後期高齢者医療,まちづくり
12. 北野義紀 -- 後期高齢者医療,介護保険
13. 古沢勝則 -- 軍事
14. 井川浩子 -- 軍事,財務
15. 高橋克幸 -- 軍事,どのカテゴリにも属さない
16. 新谷とし -- 軍事,スポーツ
17. 菊地葉子 -- 軍事,地球温暖化・気候変動
-考察
--山口さんが、まちづくり、観光に注力していることを考えると、この分岐はおかしい。
--個人相対頻度 上位3件 について考えてみる。