TopPage

NLTK TFIDF

  1. http://nltk.googlecode.com/svn/trunk/doc/api/nltk.text.TextCollection-class.html
    • import nltk
    • from nltk.book import *
  2. NLTKを利用して、TFIDを求める。
    	#! /usr/bin/env python
    	#encoding: utf-8
    	import nltk
    	import commands
    	
    	#ファイル名取得
    	ls = commands.getoutput('/bin/ls Tw*')
    	files = ls.split('\n')
    	
    	lists = []
    	AllWords = []
    	#ファイルをリストに格納する
    	for file in files:
    	        print file
    	        list = []
    	        for line in open(file, 'r'):
    	                words = line[:-1].split(" ")
    	                for word in words:
    	                        list.append(word)
    	                        AllWords.append(word)
    	        lists.append(list)
    	        print len(list)
    	
    	A = nltk.TextCollection(lists);
    	
    	print len(lists)
    	print A.tf("RT",AllWords)
    	print A.idf("RT")

木村ゼミ生限定

編集画面
ゼミ生
2017-2018年度生(11期)
石黒栞奈一宮拓海
亀井海舟佐藤栞
佐藤有希桧森拓真
藤本朱夏ホワイトジニー
増田優作谷内健太
2016-2017年度生(10期)
伊藤みき岡島健悟
小西雪葉祐川泰輝
鈴木佑菜大門拓史
田頭わかば戸嶋咲穂
中村智貴西野哲生
横山祐果川岸祐果
2015-2016年度生(09期)
浅賀七海小林真菜
西村伊央堀江知未
針生惟希村上浩太
2014-2015年度生(08期)
大石誠大野晋太朗
加藤裕樹佐々木左近
高橋理沙武田莉穂
寺島舞子畑賀大
山田修世
2013-2014年度生(07期)
加藤史織工藤智子
佐々木葉子志鎌周
高橋玄龍眈丈
中尾千咲中川玲菜
中藪大貴
2012-2013年度生(06期)
遠藤星地大野紗季
鎌田めぐみ木下和大
齋木涼介佐々木遥
佐藤優子沼澤文香
古屋真理吉田智弘
2010-2011年度生(05期)
葦原史敏伊藤大起
伊藤みどり永坂文乃
藤田航哉前多大輔
松本陵佑宮津有沙
山田亜季
2009-2010年度生(04期)
岸本隆志窪地由恵
志賀千鶴津田有子
三浦工弥
2008-2009年度生(03期)
粟津康佑井上さゆり
北崎佑樹工藤和寛
古俣優花佐川彰宏
佐藤禎洋鈴木亜衣
竹原希美藤井優作
堀公一堀内小織
米澤宏史
2007-2008年度生(02期)
佐藤健太上村佳弘
奥田啓貴小野誠
白井かずみ高井庸介
森谷亮介六渡有梨恵
若本哲平
2006-2007年度生(01期)
菅井梓渡部謙太郎
相坂真大村佳慎
奥桃子笠井猛
小林和幸齊藤いつこ
齊藤雄紀佐々木麻未
佐藤日加吏谷本貴之
徳江佑介長嶺脩平
西本みゆき林絵里子
澤田大輝