SCOPEとweka

  1. wekaダウンロード http://www.cs.waikato.ac.nz/~ml/weka/
    • linux で weka 起動まで
      	wget http://prdownloads.sourceforge.net/weka/weka-3-6-1.zip
      	unzip weka-3-6-1.zip
      	cd weka-3-6-1
      	java -jar weka.jar
    • その後
      1. Explorer を選択
      2. Open fileでファイル読み込み
      3. J48を選択
    • コマンドラインから起動する場合
      	java -classpath weka.jar weka.classifiers.trees.J48 -t  ***.arff
      	java -classpath weka.jar weka.classifiers.trees.J48 -C 0.25 -M 1 -t ***.arff
    • CLASSPATHの設定
  2. weka サンプル
    • サンプル作成 参考サイト
    • SCOPE関連 政治的カテゴリに対する各議員の発言数を入力データとして決定木をつくる場合
      	@relation member
      	
      	@attribute 財務(1010)	Real
      	@attribute 病院事業(1101)	Real
      	@attribute 教育(1120)	Real
      	@attribute 学校(1121)	Real
      	・・・
      	@attribute Member	{memberA,memberB,memberC,・・・}
      	
      	@data
      	0.113389626,0.031363088,・・・,0,memberA
      	0.151930262,0.078455791,・・・,0,memberB
    • 元のExcelデータ
      weka-excel.jpg
      • メモ Excelで転置
        	コピーし、「形式を選択してペースト」で、行を列の入れ替えを選択

J48 決定木の作成

  • J48とは 参考サイト
    • Quinlan の C4.5 に基づいた決定木を生成する
    • デフォルトで実行すると、"J48 -C 0.25 -M 2" となっている。
      • オプションCについて
        	Confidence Factor
        	剪定のための信頼要因。値が小さいほどより多く剪定される
      • オプションMについて
        	miniNumObj
        	葉における最少の個体数
    • オプションの説明 http://wiki.livedoor.jp/ryu_toshinori/d/classifiers.trees.J48
      • binarySplits -- 名義属性の分割に二分分割を使うか(木を構築するときに).
      • confidenceFactor -- 信頼度は枝刈りに対して利用しました.(より小さい値はより多く枝刈りを行います)
      • debug -- trueに設定されると,分類学習アルゴリズムは追加インフォメーションをコンソールに出力します.
      • minNumObj? -- 葉あたりの最小事例数
      • numFolds -- 誤り低減枝刈りのために利用するデータの量を決定してください. 1つの折り目部分集合は枝刈りのために利用され,残りは決定木の生成に利用します.
      • reducedErrorPruning? -- 誤り低減枝刈りをC4.5方式の枝刈りの変わりに使用するかどうか.
      • saveInstanceData? -- 訓練データを可視化のために保存するかどうか.
      • seed -- データをランダム化するのに種が利用されます.誤り低減枝刈りを利用するときに.
      • subtreeRaising -- 部分木の出現操作を枝刈りの際に考慮するかどうか.
      • unpruned -- 枝刈りを実行するかどうか.
      • useLaplace -- ラプラスに基づいて葉での数え上げが平滑化されるかどうかです.
  1. SCOPEのデータ作成方法
    • 各議員の発言数が異なるため正規化する
      • 各議員の発言総数で各議員のカテゴリ発言数を割る
      • 	議員Aの発言総数 1000回 議員Aの財務に関連する発言200回 の場合
        	議員Aの財務の値は 0.2 となる
    • 議員名を載せていないバージョン、arff形式のファイル
    • 議員名を載せているバージョン、arff形式のファイル

コマンドラインからの操作について

  1. コマンドラインからサンプル http://furukawa.sfc.keio.ac.jp/course/DM01/man-w.html
    • コマンドラインからどのように操作するのか?
    • java weka.classifiers.j48.J48
      	 -t : 訓練事例ファイルを指定する。
      	 -T : テスト事例ファイルを指定する。 もしこれを指定しない場合、訓練事例に対して交差検定を行う。
      	 -c : クラス属性を指定する。クラスとして指定したい属性を番号で指定する。その属性が入力ファイル中で1番最初に宣言された属性であれば1、2番目であれば2と指定する。
      	 -x : 交差検定の fold 数を指定する。
      	 -v : 木に対する評価(Error on training data)を表示しない。
      	 -o : 決定木を表示しない。
      	 -d : 生成した木を保存する。他のテスト事例に対して、同じ木を作り直す必要がなくなる。
      	 -l : 保存した木を呼び出す。
      	 -C : pruning confidence (枝刈りの強さを表す数値。値が小さいほど、大きい枝刈りが行われる。 デフォルト値は 25% )の値を指定する。
      	 -M : 葉に最低限含まれなければならないデータ数を指定する。 
    • java weka.classifiers.j48.J48 -t weather.arff -d tree.out
      • (weather.arff を訓練事例として生成した決定木を、tree.out という名前で保存する)

評価用語

  1. Correctly Classified Instances
    • 正しく分類された数とその割合
    • 0 0 %
  2. Incorrectly Classified Instances
    • 誤って分類された数とその割合
    • 17 100 %
  3. Kappa statistic
    • K統計量。判定者内一致度
    • -0.0625
  4. K&B Relative Info Score
    • -19.0059 %
  5. K&B Information Score
    • -0.7744 bits -0.0456 bits/instance
  6. Class complexity | order 0
    • 85.1332 bits 5.0078 bits/instance
  7. Class complexity | scheme
    • 18258 bits 1074 bits/instance
  8. Complexity improvement (Sf)
    • -18172.8668 bits -1068.9922 bits/instance
  9. Mean absolute error
    • 平均絶対誤差。予測精度。低いほど良い
    • 0.1176
  10. Root mean squared error
    • 二乗平均平方根。変化量を統計的に評価する手法。予測精度。低いほど良い
    • 0.2691
  11. Relative absolute error
    • 103.208 %
  12. Root relative squared error
    • 111.0656 %
  13. Total Number of Instances
    • 決定木を作るのに寄与したインスタンスの数
    • 17

参考サイト

  1. http://wiki.livedoor.jp/ryu_toshinori/d/classifiers.trees.J48
  2. 順序尺度、名義尺度 http://www.gen-info.osaka-u.ac.jp/testdocs/tomocom/express/express0.html
  3. http://blogs.yahoo.co.jp/pironotakarabako/52294173.html

木村ゼミ生限定

編集画面
ゼミ生
2017-2018年度生(11期)
石黒栞奈一宮拓海
亀井海舟佐藤栞
佐藤有希桧森拓真
藤本朱夏ホワイトジニー
増田優作谷内健太
2016-2017年度生(10期)
伊藤みき岡島健悟
小西雪葉祐川泰輝
鈴木佑菜大門拓史
田頭わかば戸嶋咲穂
中村智貴西野哲生
横山祐果川岸祐果
2015-2016年度生(09期)
浅賀七海小林真菜
西村伊央堀江知未
針生惟希村上浩太
2014-2015年度生(08期)
大石誠大野晋太朗
加藤裕樹佐々木左近
高橋理沙武田莉穂
寺島舞子畑賀大
山田修世
2013-2014年度生(07期)
加藤史織工藤智子
佐々木葉子志鎌周
高橋玄龍眈丈
中尾千咲中川玲菜
中藪大貴
2012-2013年度生(06期)
遠藤星地大野紗季
鎌田めぐみ木下和大
齋木涼介佐々木遥
佐藤優子沼澤文香
古屋真理吉田智弘
2010-2011年度生(05期)
葦原史敏伊藤大起
伊藤みどり永坂文乃
藤田航哉前多大輔
松本陵佑宮津有沙
山田亜季
2009-2010年度生(04期)
岸本隆志窪地由恵
志賀千鶴津田有子
三浦工弥
2008-2009年度生(03期)
粟津康佑井上さゆり
北崎佑樹工藤和寛
古俣優花佐川彰宏
佐藤禎洋鈴木亜衣
竹原希美藤井優作
堀公一堀内小織
米澤宏史
2007-2008年度生(02期)
佐藤健太上村佳弘
奥田啓貴小野誠
白井かずみ高井庸介
森谷亮介六渡有梨恵
若本哲平
2006-2007年度生(01期)
菅井梓渡部謙太郎
相坂真大村佳慎
奥桃子笠井猛
小林和幸齊藤いつこ
齊藤雄紀佐々木麻未
佐藤日加吏谷本貴之
徳江佑介長嶺脩平
西本みゆき林絵里子
澤田大輝

添付ファイル: fileweka-1.jpg 682件 [詳細] fileweka-member.jpg 629件 [詳細] fileMemberH19-Otaru.txt 657件 [詳細] fileweka-excel.jpg 709件 [詳細] fileweka-otaru-j48-C025-M1.jpg 679件 [詳細] fileOtaruH19-J48-C025-M1.txt 729件 [詳細] fileMemberH19.txt 724件 [詳細]