2010年08月18日Python勉強会
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
[[TopPage]]
*** NLTK TFIDF [#s63f9719]
+http://nltk.googlecode.com/svn/trunk/doc/api/nltk.text.TextCollection-class.html
--import nltk
--from nltk.book import *
+NLTKを利用して、TFIDを求める。
#! /usr/bin/env python
#encoding: utf-8
import nltk
import commands
#ファイル名取得
ls = commands.getoutput('/bin/ls Tw*')
files = ls.split('\n')
lists = []
AllWords = []
#ファイルをリストに格納する
for file in files:
print file
list = []
for line in open(file, 'r'):
words = line[:-1].split(" ")
for word in words:
list.append(word)
AllWords.append(word)
lists.append(list)
print len(list)
A = nltk.TextCollection(lists);
print len(lists)
print A.tf("RT",AllWords)
print A.idf("RT")
終了行:
[[TopPage]]
*** NLTK TFIDF [#s63f9719]
+http://nltk.googlecode.com/svn/trunk/doc/api/nltk.text.TextCollection-class.html
--import nltk
--from nltk.book import *
+NLTKを利用して、TFIDを求める。
#! /usr/bin/env python
#encoding: utf-8
import nltk
import commands
#ファイル名取得
ls = commands.getoutput('/bin/ls Tw*')
files = ls.split('\n')
lists = []
AllWords = []
#ファイルをリストに格納する
for file in files:
print file
list = []
for line in open(file, 'r'):
words = line[:-1].split(" ")
for word in words:
list.append(word)
AllWords.append(word)
lists.append(list)
print len(list)
A = nltk.TextCollection(lists);
print len(lists)
print A.tf("RT",AllWords)
print A.idf("RT")
ページ名: