- 追加された行はこの色です。
- 削除された行はこの色です。
[[研究テーマ]]
***課題 [#p7b8e330]
+カテゴリを絞る どのカテゴリにも属さない 財務 条例 などのカテゴリを予め削除
--関係ないカテゴリ削除バージョン
---weka.classifiers.trees.J48 -C 0.25 -M 3
---weka入力データ &ref(20091110_OtaruH19_4CategoryDeleteVersion.txt);
---[[weka j48の結果 最低3人以上でまとめる>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20091025_Fix_StateTransitionTable_OtaruH19-J48-C025-M1_DeleteCategory.txt]]
&ref(20091109_Screenshot-4.jpg,,50%);
--Confusion Matrix 混同対照表
--weka.classifiers.trees.J48 -C 0.25 -M 3
--- === Confusion Matrix ===
a b c d e f g h i j k l m n o p q <-- classified as
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = 新谷とし
0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = 北野義紀
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = 斉藤陽一良
0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = 成田晃司
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | e = 菊地葉子
0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | f = 高橋克幸
0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | g = 大橋一弘
0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | h = 古沢勝則
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | i = 大竹秀文
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | j = 吹田友三郎
0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | k = 久末恵子
0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | l = 山口保
0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | m = 井川浩子
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | n = 佐々木勝利
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | o = 前田清貴
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | p = 横田久俊
0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | q = 見楚谷登志
---新谷とし(共産党) グループ 斉藤陽一良(公明党) 菊地葉子(共産党)
---北野義紀(共産党) グループ 高橋克幸(公明党) 古沢勝則(共産党)
---成田晃司(自民党) グループ 久末恵子(自民党) 井川浩子(自民党)
---大橋一弘(平成会) グループ 山口保(民主党) 見楚谷登志(自民党)
---大竹秀文(自民党) グループ 吹田友三郎(平成会) 佐々木勝利(民主党) 前田清貴(自民党) 横田久俊(自民党)
--&color(red){政党、会派を括弧でつけてみる};
---http://www.city.otaru.hokkaido.jp/gikai/syoukai/kaiha.htm
--weka.classifiers.trees.J48 -L -C 0.25 -M 1
--- === Confusion Matrix ===
a b c d e f g h i j k l m n o p q <-- classified as
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = 新谷とし
0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = 北野義紀
0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = 斉藤陽一良
0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = 成田晃司
0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 | e = 菊地葉子
0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 | f = 高橋克幸
0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | g = 大橋一弘
0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 | h = 古沢勝則
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | i = 大竹秀文
0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 | j = 吹田友三郎
0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 | k = 久末恵子
0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 | l = 山口保
0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 | m = 井川浩子
0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 | n = 佐々木勝利
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 | o = 前田清貴
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 | p = 横田久俊
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 | q = 見楚谷登志
//+1つのカテゴリ(例. 2015)だけを注釈付けした段落から、文を抽出してみる
//+会議録の言い回しやカギ括弧 「」 などの特徴を利用する
//+カテゴリを利用した抽出を考える。
//+条例の場合、条例に係る先の文節を抜き出すなど
***作業履歴と結果 [#vc78dce7]
+カテゴリを絞る
--削除したカテゴリ
+++財務(1010)
+++どのカテゴリにも属さない(5030)
--利用されていないカテゴリ
+++空港(3070) -->利用されていないカテゴリ
+++住民基本台帳(2030) -->利用されていないカテゴリ
+++男女共同参画(1024) -->利用されていないカテゴリ
+++畜産業(3016) -->利用されていないカテゴリ
+++林業(3015) -->利用されていないカテゴリ
+++労災保険(2063) -->利用されていないカテゴリ
--arff形式のファイル &ref(MemberH19-Otaru2_DeleteCategory.txt);
---利用するときには 文字コードUTF-8 拡張子 arff に変更する
--J48 の結果
|&ref(ScreenShot3の修正.jpg,,50%);|