2010年08月12日Python勉強会 - Kimura seminar in Otaru University of Commerce

[ トップ ] [ 編集 | 凍結 | 差分 | バックアップ | 添付 | リロード ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

ゼミ情報 †

TopPageへ戻る

現在 2
今日 1 合計 4610

NLTK
- pythonの対話シェルモード
```
	python
```
- 対話シェルモードで次のコマンドを入力する
```
	import nltk
	nltk.download()
```
  - NLTK Downloader
  - d) Download l) List c) Config h) Help q) Quit
```
	Downloader> d
```
  - Download which package (l=list; x=cancel)?
```
	Identifier> book
```

NLTK Japanese Corpora - NLTKで使える日本語コーパス

http://lilyx.net/pages/nltkjapanesecorpus.html

	wget http://nlp.kuee.kyoto-u.ac.jp/~hasimoto/KNBC_v1.0_090925.tar.bz2
	tar xjvf KNBC_v1.0_090925.tar.bz2
	mv KNBC_v1.0_090925 knbc
	mv knbc nltk_data/corpora
	cd nltk_data/corpora/ <--- ディレクトリ移動
	ls <-- このディレクトリ　knbc

NLTKのドキュメントで関係ありそうな箇所(筆跡：Ashihara) †

SyntaxCorpusReader?:http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.api.SyntaxCorpusReader-class.html
- SyntaxCorpusReader?を継承してKNPCorpusReader?は構築されている。

CorpusReader?:http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.api.CorpusReader-class.html

SyntaxCorpusReader?の継承元（スーパークラス）です。サブクラスの中で使えるものがあるかもしれません。

上記のサブクラス一覧：対象コーパスごとに継承して使っているようです。

       * SyntaxCorpusReader
       * , xmldocs.XMLCorpusReader
       * , cmudict.CMUDictCorpusReader
       * , plaintext.PlaintextCorpusReader
       * , tagged.TaggedCorpusReader
       * , chunked.ChunkedCorpusReader
       * , conll.ConllCorpusReader
       * , ieer.IEERCorpusReader
       * , ipipan.IPIPANCorpusReader
       * , indian.IndianCorpusReader
       * , nombank.NombankCorpusReader
       * , ppattach.PPAttachmentCorpusReader
       * , propbank.PropbankCorpusReader
       * , senseval.SensevalCorpusReader
       * , string_category.StringCategoryCorpusReader
       * , wordlist.WordListCorpusReader
       * , switchboard.SwitchboardCorpusReader
       * , timit.TimitCorpusReader
       * , toolbox.ToolboxCorpusReader
       * , wordnet.WordNetCorpusReader
       * , wordnet.WordNetICCorpusReader
       * , ycoe.YCOECorpusReader

NLTK Japaneseの動作について
- KNBC_v1.0_090925をknbcという名前に変更（コマンド：mv KNBC_v1.0_090925 knbc）
- nltk_dataの下ではなく、nltk_data/corporaの下に置く。（コマンド：mv knbc nltk_data/corpora）

NLTK Japaneseでnltk.Text.generate()を使う。

knbcorpus.pyのdemo関数の下にでも追加してみて下さい。

knbc = LazyCorpusLoader?('knbc/corpus1', KNBCorpusReader?, sorted(fileids, key=_knbc_fileids_sort), encoding='euc-jp') の下です。

   sents = knbc.words()
   sentList = []
   for sent in sents:
       for word in sent:
           sentList.append(word.encode('utf-8'))#wordはunicode型なので文字型に変換する。
   text = nltk.Text(sentList)
   text.generate()
   >>>>>>出力例
   ［ 携帯 電話 会社 識別 番号 を 知ら ない が 、 年
   ごと に 自動 で フォルダ 分け さ れて る みんな も
   お 勧め です 。 このような 居酒屋 は 不可欠です
   ね 。 ［ スポーツ ］ 運動 は 好きな 方 な のです
   が 、 携帯 電話 機種 の キー が 隣接 して おり 、
   それ は ひるがえせば 携帯 が 鎮座 して いて 充電
   の 持ち が 悪く なって きた 。 彼女 は ぼく が 彼
   ら の サービス を 実施 中 です 。 よく ドンくさい
   って 言わ れる 始末 。 ■ の 「 お 遊び 」 的な
   ツール から 緊急

unicode型について：http://lab.hde.co.jp/2008/08/pythonunicodeencodeerror.html

科研費　採択課題

ゼミ生
2021-2022	年度生(14期)
阿部遥	大内颯
岡田絢音	興星陽
梶縁	河野由弥
佐々木凜	佐々木美波
濱田和貴	廣吉和貴
藤井一志	藤田宗真
2020-2021	年度生(13期)
小澤真凜	笠原有真
加藤正宙	蒲田躍斗
坂村翼	住吉真奈
高野大河	中井葉月
永渕景祐	平館菜々子
2019-2020	年度生(12期)
大芦恭平	--
近藤太雄	清水美里
中村可怜	福山活起
福家祐紀	船越天彩
南山衣里	山下伽月
坂本涼太	土屋彩夏
2018-2019	年度生(不在)
SEA-NA	代表取締役
平賀直輝	横山莉花
住吉実祈	室橋和哉
2017-2018	年度生(11期)
石黒栞奈	一宮拓海
亀井海舟	佐藤栞
佐藤有希	桧森拓真
藤本朱夏	ホワイトジニー
増田優作	谷内健太
2016-2017	年度生(10期)
伊藤みき	岡島健悟
小西雪葉	祐川泰輝
鈴木佑菜	大門拓史
田頭わかば	戸嶋咲穂
中村智貴	西野哲生
横山祐果	川岸祐果
2015-2016	年度生(09期)
浅賀七海	小林真菜
西村伊央	堀江知未
針生惟希	村上浩太
2014-2015	年度生(08期)
大石誠	大野晋太朗
加藤裕樹	佐々木左近
高橋理沙	武田莉穂
寺島舞子	畑賀大
山田修世
2013-2014	年度生(07期)
加藤史織	工藤智子
佐々木葉子	志鎌周
高橋玄龍	髙松翔
中尾千咲	中川玲菜
中藪大貴
2012-2013	年度生(06期)
遠藤星地	大野紗季
鎌田めぐみ	木下和大
齋木涼介	佐々木遥
佐藤優子	沼澤文香
古屋真理	吉田智弘
2010-2011	年度生(05期)
葦原史敏	伊藤大起
伊藤みどり	永坂文乃
藤田航哉	前多大輔
松本陵佑	宮津有沙
山田亜季
2009-2010	年度生(04期)
岸本隆志	窪地由恵
志賀千鶴	津田有子
三浦工弥
2008-2009	年度生(03期)
粟津康佑	井上さゆり
北崎佑樹	工藤和寛
古俣優花	佐川彰宏
佐藤禎洋	鈴木亜衣
竹原希美	藤井優作
堀公一	堀内小織
米澤宏史
2007-2008	年度生(02期)
佐藤健太	上村佳弘
奥田啓貴	小野誠
白井かずみ	高井庸介
森谷亮介	六渡有梨恵
若本哲平
2006-2007	年度生(01期)
菅井梓	渡部謙太郎
相坂真	大村佳慎
奥桃子	笠井猛
小林和幸	齊藤いつこ
齊藤雄紀	佐々木麻未
佐藤日加吏	谷本貴之
徳江佑介	長嶺脩平
西本みゆき	林絵里子
澤田大輝