python
import nltk nltk.download()
Downloader> d
Identifier> book
wget http://nlp.kuee.kyoto-u.ac.jp/~hasimoto/KNBC_v1.0_090925.tar.bz2 tar xjvf KNBC_v1.0_090925.tar.bz2 mv KNBC_v1.0_090925 knbc mv knbc nltk_data/corpora cd nltk_data/corpora/ <--- ¥Ç¥£¥ì¥¯¥È¥ê°ÜÆ° ls <-- ¤³¤Î¥Ç¥£¥ì¥¯¥È¥ê¡¡knbc
* SyntaxCorpusReader * , xmldocs.XMLCorpusReader * , cmudict.CMUDictCorpusReader * , plaintext.PlaintextCorpusReader * , tagged.TaggedCorpusReader * , chunked.ChunkedCorpusReader * , conll.ConllCorpusReader * , ieer.IEERCorpusReader * , ipipan.IPIPANCorpusReader * , indian.IndianCorpusReader * , nombank.NombankCorpusReader * , ppattach.PPAttachmentCorpusReader * , propbank.PropbankCorpusReader * , senseval.SensevalCorpusReader * , string_category.StringCategoryCorpusReader * , wordlist.WordListCorpusReader * , switchboard.SwitchboardCorpusReader * , timit.TimitCorpusReader * , toolbox.ToolboxCorpusReader * , wordnet.WordNetCorpusReader * , wordnet.WordNetICCorpusReader * , ycoe.YCOECorpusReader
sents = knbc.words() sentList = [] for sent in sents: for word in sent: sentList.append(word.encode('utf-8'))#word¤Ïunicode·¿¤Ê¤Î¤Çʸ»ú·¿¤ËÊÑ´¹¤¹¤ë¡£ text = nltk.Text(sentList) text.generate() >>>>>>½ÐÎÏÎã ¡Î ·ÈÂÓ ÅÅÏà ²ñ¼Ò ¼±ÊÌ ÈÖ¹æ ¤ò ÃÎ¤é ¤Ê¤¤ ¤¬ ¡¢ ǯ ¤´¤È ¤Ë ¼«Æ° ¤Ç ¥Õ¥©¥ë¥À ʬ¤± ¤µ ¤ì¤Æ ¤ë ¤ß¤ó¤Ê ¤â ¤ª ´«¤á ¤Ç¤¹ ¡£ ¤³¤Î¤è¤¦¤Ê µï¼ò²° ¤Ï ÉԲķç¤Ç¤¹ ¤Í ¡£ ¡Î ¥¹¥Ý¡¼¥Ä ¡Ï ±¿Æ° ¤Ï ¹¥¤¤Ê Êý ¤Ê ¤Î¤Ç¤¹ ¤¬ ¡¢ ·ÈÂÓ ÅÅÏà µ¡¼ï ¤Î ¥¡¼ ¤¬ ÎÙÀÜ ¤·¤Æ ¤ª¤ê ¡¢ ¤½¤ì ¤Ï ¤Ò¤ë¤¬¤¨¤»¤Ð ·ÈÂÓ ¤¬ Äú ¤·¤Æ ¤¤¤Æ ½¼ÅÅ ¤Î »ý¤Á ¤¬ °¤¯ ¤Ê¤Ã¤Æ ¤¤¿ ¡£ Èà½÷ ¤Ï ¤Ü¤¯ ¤¬ Èà ¤é ¤Î ¥µ¡¼¥Ó¥¹ ¤ò ¼Â»Ü Ãæ ¤Ç¤¹ ¡£ ¤è¤¯ ¥É¥ó¤¯¤µ¤¤ ¤Ã¤Æ ¸À¤ï ¤ì¤ë »ÏËö ¡£ ¢£ ¤Î ¡Ö ¤ª Í·¤Ó ¡× Ū¤Ê ¥Ä¡¼¥ë ¤«¤é ¶ÛµÞ