[[研究テーマ]]


***課題 [#p7b8e330]
+カテゴリを絞る	どのカテゴリにも属さない 財務 条例 などのカテゴリを予め削除
--関係ないカテゴリ削除バージョン
---http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20091025_Fix_StateTransitionTable_OtaruH19-J48-C025-M1_DeleteCategory.txt
---weka.classifiers.trees.J48 -C 0.25 -M 3
---weka入力データ &ref(20091110_OtaruH19_4CategoryDeleteVersion.txt);
---[[weka j48の結果 最低3人以上でまとめる>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20091025_Fix_StateTransitionTable_OtaruH19-J48-C025-M1_DeleteCategory.txt]]
&ref(20091109_Screenshot-4.jpg,,50%);
--Confusion Matrix 混同対照表
--weka.classifiers.trees.J48 -C 0.25 -M 3
--- === Confusion Matrix ===
 a b c d e f g h i j k l m n o p q   <-- classified as
 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = 新谷とし
 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = 北野義紀
 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = 斉藤陽一良
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = 成田晃司
 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | e = 菊地葉子
 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | f = 高橋克幸
 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | g = 大橋一弘
 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | h = 古沢勝則
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | i = 大竹秀文
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | j = 吹田友三郎
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | k = 久末恵子
 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | l = 山口保
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | m = 井川浩子
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | n = 佐々木勝利
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | o = 前田清貴
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | p = 横田久俊
 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | q = 見楚谷登志
---新谷とし(共産党) グループ 斉藤陽一良(公明党) 菊地葉子(共産党)
---北野義紀(共産党) グループ 高橋克幸(公明党) 古沢勝則(共産党)
---成田晃司(自民党) グループ 久末恵子(自民党) 井川浩子(自民党)
---大橋一弘(平成会) グループ 山口保(民主党) 見楚谷登志(自民党)
---大竹秀文(自民党) グループ 吹田友三郎(平成会) 佐々木勝利(民主党) 前田清貴(自民党) 横田久俊(自民党) 
--&color(red){政党、会派を括弧でつけてみる};
---http://www.city.otaru.hokkaido.jp/gikai/syoukai/kaiha.htm
--weka.classifiers.trees.J48 -L -C 0.25 -M 1
--- === Confusion Matrix ===
 a b c d e f g h i j k l m n o p q   <-- classified as
 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = 新谷とし
 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = 北野義紀
 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = 斉藤陽一良
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = 成田晃司
 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 | e = 菊地葉子
 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 | f = 高橋克幸
 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | g = 大橋一弘
 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 | h = 古沢勝則
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | i = 大竹秀文
 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 | j = 吹田友三郎
 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 | k = 久末恵子
 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 | l = 山口保
 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 | m = 井川浩子
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 | n = 佐々木勝利
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 | o = 前田清貴
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 | p = 横田久俊
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 | q = 見楚谷登志


//+1つのカテゴリ(例. 2015)だけを注釈付けした段落から、文を抽出してみる
//+会議録の言い回しやカギ括弧 「」 などの特徴を利用する
//+カテゴリを利用した抽出を考える。
//+条例の場合、条例に係る先の文節を抜き出すなど

***作業履歴と結果 [#vc78dce7]
+カテゴリを絞る
--削除したカテゴリ
+++財務(1010)	
+++どのカテゴリにも属さない(5030)	
--利用されていないカテゴリ
+++空港(3070)	-->利用されていないカテゴリ
+++住民基本台帳(2030)	-->利用されていないカテゴリ
+++男女共同参画(1024)	-->利用されていないカテゴリ
+++畜産業(3016)	-->利用されていないカテゴリ
+++林業(3015)	-->利用されていないカテゴリ
+++労災保険(2063)	-->利用されていないカテゴリ
--arff形式のファイル &ref(MemberH19-Otaru2_DeleteCategory.txt);
---利用するときには 文字コードUTF-8  拡張子 arff に変更する
--J48 の結果
|&ref(ScreenShot3の修正.jpg,,50%);|