[[研究テーマ]] ***課題 [#p7b8e330] +カテゴリを絞る どのカテゴリにも属さない 財務 条例 などのカテゴリを予め削除 --関係ないカテゴリ削除バージョン ---weka.classifiers.trees.J48 -C 0.25 -M 3 ---weka入力データ &ref(20091110_OtaruH19_4CategoryDeleteVersion.txt); ---[[weka j48の結果 最低3人以上でまとめる>http://nlp.kimura-s.otaru-uc.ac.jp/NLP-research/SCOPE/20091025_Fix_StateTransitionTable_OtaruH19-J48-C025-M1_DeleteCategory.txt]] &ref(20091109_Screenshot-4.jpg,,50%); --Confusion Matrix 混同対照表 --weka.classifiers.trees.J48 -C 0.25 -M 3 --- === Confusion Matrix === a b c d e f g h i j k l m n o p q <-- classified as 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = 新谷とし 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = 北野義紀 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = 斉藤陽一良 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = 成田晃司 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | e = 菊地葉子 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | f = 高橋克幸 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | g = 大橋一弘 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | h = 古沢勝則 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | i = 大竹秀文 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | j = 吹田友三郎 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | k = 久末恵子 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | l = 山口保 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | m = 井川浩子 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | n = 佐々木勝利 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | o = 前田清貴 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | p = 横田久俊 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | q = 見楚谷登志 ---新谷とし グループ 斉藤陽一良 菊地葉子 ---北野義紀 グループ 高橋克幸 古沢勝則 ---成田晃司 グループ 久末恵子 井川浩子 ---大橋一弘 グループ 山口保 見楚谷登志 ---大竹秀文 グループ 吹田友三郎 佐々木勝利 前田清貴 横田久俊 --&color(red){政党、会派を括弧でつけてみる}; --weka.classifiers.trees.J48 -L -C 0.25 -M 1 --- === Confusion Matrix === a b c d e f g h i j k l m n o p q <-- classified as 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = 新谷とし 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = 北野義紀 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = 斉藤陽一良 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = 成田晃司 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 | e = 菊地葉子 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 | f = 高橋克幸 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 | g = 大橋一弘 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 | h = 古沢勝則 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | i = 大竹秀文 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 | j = 吹田友三郎 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 | k = 久末恵子 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 | l = 山口保 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 | m = 井川浩子 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 | n = 佐々木勝利 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 | o = 前田清貴 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 | p = 横田久俊 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 | q = 見楚谷登志 //+1つのカテゴリ(例. 2015)だけを注釈付けした段落から、文を抽出してみる //+会議録の言い回しやカギ括弧 「」 などの特徴を利用する //+カテゴリを利用した抽出を考える。 //+条例の場合、条例に係る先の文節を抜き出すなど ***作業履歴と結果 [#vc78dce7] +カテゴリを絞る --削除したカテゴリ +++財務(1010) +++どのカテゴリにも属さない(5030) --利用されていないカテゴリ +++空港(3070) -->利用されていないカテゴリ +++住民基本台帳(2030) -->利用されていないカテゴリ +++男女共同参画(1024) -->利用されていないカテゴリ +++畜産業(3016) -->利用されていないカテゴリ +++林業(3015) -->利用されていないカテゴリ +++労災保険(2063) -->利用されていないカテゴリ --arff形式のファイル &ref(MemberH19-Otaru2_DeleteCategory.txt); ---利用するときには 文字コードUTF-8 拡張子 arff に変更する --J48 の結果 |&ref(ScreenShot3の修正.jpg,,50%);|