[[研究テーマ]] ***J48 C4.5 &ref(OtaruH19-J48-C025-M1.txt); の場合 [#c28f8448] -アンケート項目を作成するための関連段落抽出 -流れ --[[注釈付けを行った平成19年の会議録を対象にC4.5で決定木を作成する。>weka]] --決定木の分岐点となる政治的カテゴリを抽出する。 --この分岐点となる政治的カテゴリに関係ある議員と関係ない議員を分ける。 --関係ある議員の発言の中から、その分岐に影響する政治的カテゴリの発言だけを集める --その発言から、アンケート項目を作ることを考える。 ***アンケートの質問項目の抽出方法を考える。 [#c5c38421] +議事録から関連段落を抽出し、「、」と「。」で区切り、表示しただけ。 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1.cgi --特徴的なフレーズをどのように選択するのかが、課題となる。 +カテゴリ名を含む文だけを抽出 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver2.cgi +カテゴリ名を含む文だけを抽出(定例会、段落数を削除してシンプル表示) --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver3.cgi +カテゴリ名を含むフレーズを構文解析した後に、2文節の係り受けを抽出し、句末が名詞で終了するように修正 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver4.cgi +1段落1カテゴリの段落のみを抽出 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver5.cgi +1段落に対して1カテゴリの注釈付けが行われている段落を抽出。 句点で区切った文を構文解析し、係り元->係り先の対を作成し、名詞で終わるように助詞、助動詞などを削除する。 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver6.cgi +1段落に対して1カテゴリの注釈付けが行われている段落を抽出。 句読点点で区切ったフレーズを名詞で終わるように助詞、助動詞などを削除する。 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver7.cgi +複合名詞を抽出し、出現頻度の高いものを出力する。名詞連続を複合名詞とする。 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver8.cgi +アンケートを作ってみる。アンケート項目適当に選択する。 --名詞連続、2文字以上15文字以下。 --ver8 -> ver9 から大きく変更。 --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver9.cgi +アンケートを作ってみる。アンケート項目、TFIDF編 単独カテゴリ --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver10.cgi +アンケートを作ってみる。アンケート項目、TFIDF編 複数カテゴリ --http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/Anketo/J48C025M1_ver11.cgi ---- +複合名詞を抽出し、出現頻度の高いものを出力する。名詞連続、「の」による連結名詞を複合名詞とする。 +名詞トライグラムをカウントする。 ***抽出対象 [#tb3624ef] -対象の会議録 --小樽市市議会会議録 平成19年 第1〜4回 -条件 --Cオプション 0.25 --Mオプション 1 -カテゴリの有無について "カテゴリ名 <= 数値" は 無し "カテゴリ名 > 数値" は 有り 数値は無視している。 ”>” があるということは、注力していると判断する。 -アンケート項目 --各議員の特徴的なカテゴリを対象として、発言を抽出してくる。 --句読点で分割 --特徴的なフレーズを抽出する。 -C4.5から判断した各議員を特徴付けるカテゴリ 1. 見楚谷登志 -- 2. 山口保 -- 財務 3. 佐々木勝利 -- 医療 4. 横田久俊 -- 条例 5. 大橋一弘 -- 児童福祉 6. 前田清貴 -- 児童福祉,財務 7. 斉藤陽一良 -- 医療保険 8. 大竹秀文 -- 医療保険,財務 9. 吹田友三郎 -- 後期高齢者医療 10. 久末恵子 -- 後期高齢者医療,財務 11. 成田晃司 -- 後期高齢者医療,まちづくり 12. 北野義紀 -- 後期高齢者医療,介護保険 13. 古沢勝則 -- 軍事 14. 井川浩子 -- 軍事,財務 15. 高橋克幸 -- 軍事,どのカテゴリにも属さない 16. 新谷とし -- 軍事,スポーツ 17. 菊地葉子 -- 軍事,地球温暖化・気候変動 -考察 --山口さんが、まちづくり、観光に注力していることを考えると、この分岐はおかしい。 --個人相対頻度 上位3件 について考えてみる。