TopPage

  1. NLTK
    • pythonの対話シェルモード
      	python
    • 対話シェルモードで次のコマンドを入力する
      	import nltk
      	nltk.download()
      • NLTK Downloader
      • d) Download l) List c) Config h) Help q) Quit
        	Downloader> d
      • Download which package (l=list; x=cancel)?
        	Identifier> book
  1. NLTK Japanese Corpora - NLTKで使える日本語コーパス
    • http://lilyx.net/pages/nltkjapanesecorpus.html
      	wget http://nlp.kuee.kyoto-u.ac.jp/~hasimoto/KNBC_v1.0_090925.tar.bz2
      	tar xjvf KNBC_v1.0_090925.tar.bz2
      	mv KNBC_v1.0_090925 knbc
      	mv knbc nltk_data/corpora
      	cd nltk_data/corpora/ <--- ディレクトリ移動
      	ls <-- このディレクトリ knbc

NLTKのドキュメントで関係ありそうな箇所(筆跡:Ashihara)

  • SyntaxCorpusReader?:http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.api.SyntaxCorpusReader-class.html
    • SyntaxCorpusReader?を継承してKNPCorpusReader?は構築されている。
  • CorpusReader?:http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.api.CorpusReader-class.html
    • SyntaxCorpusReader?の継承元(スーパークラス)です。サブクラスの中で使えるものがあるかもしれません。
    • 上記のサブクラス一覧:対象コーパスごとに継承して使っているようです。
             * SyntaxCorpusReader
             * , xmldocs.XMLCorpusReader
             * , cmudict.CMUDictCorpusReader
             * , plaintext.PlaintextCorpusReader
             * , tagged.TaggedCorpusReader
             * , chunked.ChunkedCorpusReader
             * , conll.ConllCorpusReader
             * , ieer.IEERCorpusReader
             * , ipipan.IPIPANCorpusReader
             * , indian.IndianCorpusReader
             * , nombank.NombankCorpusReader
             * , ppattach.PPAttachmentCorpusReader
             * , propbank.PropbankCorpusReader
             * , senseval.SensevalCorpusReader
             * , string_category.StringCategoryCorpusReader
             * , wordlist.WordListCorpusReader
             * , switchboard.SwitchboardCorpusReader
             * , timit.TimitCorpusReader
             * , toolbox.ToolboxCorpusReader
             * , wordnet.WordNetCorpusReader
             * , wordnet.WordNetICCorpusReader
             * , ycoe.YCOECorpusReader
  • NLTK Japaneseの動作について
    • KNBC_v1.0_090925をknbcという名前に変更(コマンド:mv KNBC_v1.0_090925 knbc)
    • nltk_dataの下ではなく、nltk_data/corporaの下に置く。(コマンド:mv knbc nltk_data/corpora)
  • NLTK Japaneseでnltk.Text.generate()を使う。
    • knbcorpus.pyのdemo関数の下にでも追加してみて下さい。
    • knbc = LazyCorpusLoader?('knbc/corpus1', KNBCorpusReader?, sorted(fileids, key=_knbc_fileids_sort), encoding='euc-jp') の下です。
         sents = knbc.words()
         sentList = []
         for sent in sents:
             for word in sent:
                 sentList.append(word.encode('utf-8'))#wordはunicode型なので文字型に変換する。
         text = nltk.Text(sentList)
         text.generate()
         >>>>>>出力例
         [ 携帯 電話 会社 識別 番号 を 知ら ない が 、 年
         ごと に 自動 で フォルダ 分け さ れて る みんな も
         お 勧め です 。 このような 居酒屋 は 不可欠です
         ね 。 [ スポーツ ] 運動 は 好きな 方 な のです
         が 、 携帯 電話 機種 の キー が 隣接 して おり 、
         それ は ひるがえせば 携帯 が 鎮座 して いて 充電
         の 持ち が 悪く なって きた 。 彼女 は ぼく が 彼
         ら の サービス を 実施 中 です 。 よく ドンくさい
         って 言わ れる 始末 。 ■ の 「 お 遊び 」 的な
         ツール から 緊急
    • unicode型について:http://lab.hde.co.jp/2008/08/pythonunicodeencodeerror.html

木村ゼミ生限定

編集画面
ゼミ生
2017-2018年度生(11期)
石黒栞奈一宮拓海
亀井海舟佐藤栞
佐藤有希桧森拓真
藤本朱夏ホワイトジニー
増田優作谷内健太
2016-2017年度生(10期)
伊藤みき岡島健悟
小西雪葉祐川泰輝
鈴木佑菜大門拓史
田頭わかば戸嶋咲穂
中村智貴西野哲生
横山祐果川岸祐果
2015-2016年度生(09期)
浅賀七海小林真菜
西村伊央堀江知未
針生惟希村上浩太
2014-2015年度生(08期)
大石誠大野晋太朗
加藤裕樹佐々木左近
高橋理沙武田莉穂
寺島舞子畑賀大
山田修世
2013-2014年度生(07期)
加藤史織工藤智子
佐々木葉子志鎌周
高橋玄龍眈丈
中尾千咲中川玲菜
中藪大貴
2012-2013年度生(06期)
遠藤星地大野紗季
鎌田めぐみ木下和大
齋木涼介佐々木遥
佐藤優子沼澤文香
古屋真理吉田智弘
2010-2011年度生(05期)
葦原史敏伊藤大起
伊藤みどり永坂文乃
藤田航哉前多大輔
松本陵佑宮津有沙
山田亜季
2009-2010年度生(04期)
岸本隆志窪地由恵
志賀千鶴津田有子
三浦工弥
2008-2009年度生(03期)
粟津康佑井上さゆり
北崎佑樹工藤和寛
古俣優花佐川彰宏
佐藤禎洋鈴木亜衣
竹原希美藤井優作
堀公一堀内小織
米澤宏史
2007-2008年度生(02期)
佐藤健太上村佳弘
奥田啓貴小野誠
白井かずみ高井庸介
森谷亮介六渡有梨恵
若本哲平
2006-2007年度生(01期)
菅井梓渡部謙太郎
相坂真大村佳慎
奥桃子笠井猛
小林和幸齊藤いつこ
齊藤雄紀佐々木麻未
佐藤日加吏谷本貴之
徳江佑介長嶺脩平
西本みゆき林絵里子
澤田大輝