CRF固有表現データ

固有表現抽出の場合

  • 日本語固有表現
    • crf++に含まれているexample/JapaneseNEを参考にする
    • $crf_learn -p2 -f 3 -c 4.0 template train.data model
      	-p 2  の意味  動作させるマシンが複数のCPUを持っているなら、
      	その個数をあたえると速くなる。
      	-f 3 の意味 素性を利用するための出現回数の閾値(しきいち) 
      	この場合3回より小さくない素性を利用。デフォルトは1回。
      	-c 4.0 の意味  CRFのオプションで値を大きくすると過学習する傾向にある。
      	バランスよく設定する。
    • $ crf_test -m model M_test.dat
      • trainデータの作り方が形態素解析と異なる。単語\t情報1\t情報2\tIOB2タグ
      • 現在は、強引にmecabの出力をそれっぽく変えている。
        	  8  -記号-空白 O
        	大久保 43 大久保-名詞-固有名詞-人名-姓 B-HUMAN
        	  8  -記号-空白 I-HUMAN
        	え 2 え-感動詞 I-HUMAN
        	○ 4 ○-記号-一般 I-HUMAN
        	こ 38 こ-名詞-一般 I-HUMAN
        	  8  -記号-空白 O
        	 O
  • IOBタグ
    • 内側、外側、始まりの記号
      	#B: チャンクの先頭
      	#I : チャンクの内部
      	#O: チャンクの外部
      	#E: チャンクの末尾
      	#S: 一つの語でチャンクを構成する
  • IOB2タグ
    • IOBを付けるだけでなく、詳細情報(Location,Humanなど)を付与
      	#B: B-Location B-Human
      	#I : I-Location I-Human
      	#O: O はそのまま

形態素解析の学習の場合

  • 学習コマンド crf_learn
    • crf_learn -a MIRA template train.data model
  • テストコマンド crf_test
    • crf_test -m model test.data
  • 実際のファイル
  • 利用するファイルとその中身
    • template
    • train.data
    • test.data 半角スペース区切り
      	Rockwell NNP B-NP
      	International NNP I-NP
      	Corp. NNP I-NP
      	's POS B-NP
      	Tulsa NNP I-NP
      	unit NN I-NP
      	said VBD B-VP
      	it PRP B-NP
      	signed VBD B-VP
    • $ cat train.data
      	He        PRP  B-NP
      	reckons   VBZ  B-VP
      	the       DT   B-NP
      	current   JJ   I-NP
      	account   NN   I-NP
      	deficit   NN   I-NP
      	will      MD   B-VP
      	narrow    VB   I-VP
      	to        TO   B-PP
      	only      RB   B-NP
      	#         #    I-NP
      	1.8       CD   I-NP
      	billion   CD   I-NP
      	in        IN   B-PP
      	September NNP  B-NP
      	.         .    O
      	
      	He        PRP  B-NP
      	reckons   VBZ  B-VP
    • $ cat template
      • templateとは・・・
        	# Unigram
        	U00:%x[-2,0]
        	U01:%x[-1,0]
        	U02:%x[0,0]
        	U03:%x[1,0]
        	U04:%x[2,0]
        	U05:%x[-1,0]/%x[0,0]
        	U06:%x[0,0]/%x[1,0]
        	
        	U10:%x[-2,1]
        	U11:%x[-1,1]
        	U12:%x[0,1]q
        	U13:%x[1,1]
        	U14:%x[2,1]
        	U15:%x[-2,1]/%x[-1,1]
        	U16:%x[-1,1]/%x[0,1]
        	U17:%x[0,1]/%x[1,1]
        	U18:%x[1,1]/%x[2,1]
        	
        	U20:%x[-2,1]/%x[-1,1]/%x[0,1]
        	U21:%x[-1,1]/%x[0,1]/%x[1,1]
        	U22:%x[0,1]/%x[1,1]/%x[2,1]
    • $ crf_learn -a MIRA template train.data model
      	CRF++: Yet Another CRF Tool Kit
      	Copyright(C)2005-2007 Taku Kudo, All rights reserved.
      	
      	reading training data:
      	Done!0.00 s
      	
      	Number of sentences: 2
      	Number of features:  1800
      	Number of thread(s): 1
      	Freq:                1
      	eta:                 0.00010
      	C:                   1.00000
      	shrinking size:      20
      	Algorithm:           MIRA
      	
      	iter=0 terr=0.66667 serr=0.50000 act=2 uact=0 obj=0.30126 kkt=12.00000
      	iter=1 terr=0.16667 serr=0.50000 act=2 uact=0 obj=0.36494 kkt=2.84937
      	iter=2 terr=0.00000 serr=0.00000 act=2 uact=0 obj=0.36494 kkt=0.00000
      	iter=3 terr=0.00000 serr=0.00000 act=2 uact=0 obj=0.36494 kkt=0.00000
      	
      	Done!0.00 s
    • $ crf_test -m model test.data
      	He      PRP     B-NP    B-NP
      	reckons VBZ     B-VP    B-VP
      	the     DT      B-NP    B-NP
      	current JJ      I-NP    I-NP
      	account NN      I-NP    I-NP
      	deficit NN      I-NP    I-NP
      	will    MD      B-VP    B-VP
      	narrow  VB      I-VP    I-VP
      	to      TO      B-PP    B-PP
      	only    RB      B-NP    B-NP
      	#       #       I-NP    I-NP
      	1.8     CD      I-NP    I-NP
      	billion CD      I-NP    I-NP
      	in      IN      B-PP    B-PP
      	September       NNP     B-NP    B-NP
      	.       .       O       O
      	
      	He      PRP     B-NP    B-NP
      	reckons VBZ     B-VP    B-VP

木村ゼミ生限定

編集画面
ゼミ生
2017-2018年度生(11期)
石黒栞奈一宮拓海
亀井海舟佐藤栞
佐藤有希桧森拓真
藤本朱夏ホワイトジニー
増田優作谷内健太
2016-2017年度生(10期)
伊藤みき岡島健悟
小西雪葉祐川泰輝
鈴木佑菜大門拓史
田頭わかば戸嶋咲穂
中村智貴西野哲生
横山祐果川岸祐果
2015-2016年度生(09期)
浅賀七海小林真菜
西村伊央堀江知未
針生惟希村上浩太
2014-2015年度生(08期)
大石誠大野晋太朗
加藤裕樹佐々木左近
高橋理沙武田莉穂
寺島舞子畑賀大
山田修世
2013-2014年度生(07期)
加藤史織工藤智子
佐々木葉子志鎌周
高橋玄龍眈丈
中尾千咲中川玲菜
中藪大貴
2012-2013年度生(06期)
遠藤星地大野紗季
鎌田めぐみ木下和大
齋木涼介佐々木遥
佐藤優子沼澤文香
古屋真理吉田智弘
2010-2011年度生(05期)
葦原史敏伊藤大起
伊藤みどり永坂文乃
藤田航哉前多大輔
松本陵佑宮津有沙
山田亜季
2009-2010年度生(04期)
岸本隆志窪地由恵
志賀千鶴津田有子
三浦工弥
2008-2009年度生(03期)
粟津康佑井上さゆり
北崎佑樹工藤和寛
古俣優花佐川彰宏
佐藤禎洋鈴木亜衣
竹原希美藤井優作
堀公一堀内小織
米澤宏史
2007-2008年度生(02期)
佐藤健太上村佳弘
奥田啓貴小野誠
白井かずみ高井庸介
森谷亮介六渡有梨恵
若本哲平
2006-2007年度生(01期)
菅井梓渡部謙太郎
相坂真大村佳慎
奥桃子笠井猛
小林和幸齊藤いつこ
齊藤雄紀佐々木麻未
佐藤日加吏谷本貴之
徳江佑介長嶺脩平
西本みゆき林絵里子
澤田大輝