2010年08月19日Python勉強会 - Kimura seminar in Otaru University of Commerce

[ トップ ] [ 編集 | 凍結 | 差分 | バックアップ | 添付 | リロード ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

ゼミ情報 †

TopPageへ戻る

現在 3
今日 2 合計 3950

TFIDF †

1414ファイルのTFIDF

	#! /usr/bin/env python
	#encoding: utf-8
	import nltk
	import commands
	
	#ファイル名取得
	ls = commands.getoutput('/bin/ls Tw*')
	
	#print len(ls)
	
	files = ls.split('\n')
	
	#print len(files)
	#for file in files:
	#       print file
	
	lists = []
	vocab = {}
	AllWords = []
	otaruSum = 0
	#ファイルをリストに格納する
	for file in files:
	        print file
	        list = []
	        otaru = 0
	        for line in open(file, 'r'):
	                words = line[:-1].split(" ")
	                for word in words:
	                        list.append(word)
	                        AllWords.append(word)
	                        if word == "@":
	                                otaru = 1
	                        if vocab.has_key(word):
	                                vocab[word] += 1
	                        else:
	                                vocab[word] =1
	        lists.append(list)
	        print "RT" , list.count("RT")
	        if otaru == 1:
	                otaruSum += 1
	        print len(list)
	
	A = nltk.TextCollection(lists);
	
	print len(lists)
	print A.tf("RT",AllWords)
	print "RT:", A.idf("RT")
	print "QT" ,A.idf("QT")
	print "小樽:" ,A.idf("小樽")
	print "東京:" , A.idf("東京")
	print "札幌:" , A.idf("札幌")
	print otaruSum
	
	for file in files:
	        list = []
	        for line in open(file, 'r'):
	                words = line[:-1].split(" ")
	                for word in words:
	                        list.append(word)
	        tfidf = list.count("RT")*A.idf("RT")
	        print file , "RT の TF=" , list.count("RT") , "IDF=" , A.idf("RT") , "TFxIDF=" , tfidf

↑

CRF in NLTK †

http://nltk.googlecode.com/svn/trunk/doc/api/nltk.tag.crf.MalletCRF-class.html#__init__

科研費　採択課題

ゼミ生
2021-2022	年度生(14期)
阿部遥	大内颯
岡田絢音	興星陽
梶縁	河野由弥
佐々木凜	佐々木美波
濱田和貴	廣吉和貴
藤井一志	藤田宗真
2020-2021	年度生(13期)
小澤真凜	笠原有真
加藤正宙	蒲田躍斗
坂村翼	住吉真奈
高野大河	中井葉月
永渕景祐	平館菜々子
2019-2020	年度生(12期)
大芦恭平	--
近藤太雄	清水美里
中村可怜	福山活起
福家祐紀	船越天彩
南山衣里	山下伽月
坂本涼太	土屋彩夏
2018-2019	年度生(不在)
SEA-NA	代表取締役
平賀直輝	横山莉花
住吉実祈	室橋和哉
2017-2018	年度生(11期)
石黒栞奈	一宮拓海
亀井海舟	佐藤栞
佐藤有希	桧森拓真
藤本朱夏	ホワイトジニー
増田優作	谷内健太
2016-2017	年度生(10期)
伊藤みき	岡島健悟
小西雪葉	祐川泰輝
鈴木佑菜	大門拓史
田頭わかば	戸嶋咲穂
中村智貴	西野哲生
横山祐果	川岸祐果
2015-2016	年度生(09期)
浅賀七海	小林真菜
西村伊央	堀江知未
針生惟希	村上浩太
2014-2015	年度生(08期)
大石誠	大野晋太朗
加藤裕樹	佐々木左近
高橋理沙	武田莉穂
寺島舞子	畑賀大
山田修世
2013-2014	年度生(07期)
加藤史織	工藤智子
佐々木葉子	志鎌周
高橋玄龍	髙松翔
中尾千咲	中川玲菜
中藪大貴
2012-2013	年度生(06期)
遠藤星地	大野紗季
鎌田めぐみ	木下和大
齋木涼介	佐々木遥
佐藤優子	沼澤文香
古屋真理	吉田智弘
2010-2011	年度生(05期)
葦原史敏	伊藤大起
伊藤みどり	永坂文乃
藤田航哉	前多大輔
松本陵佑	宮津有沙
山田亜季
2009-2010	年度生(04期)
岸本隆志	窪地由恵
志賀千鶴	津田有子
三浦工弥
2008-2009	年度生(03期)
粟津康佑	井上さゆり
北崎佑樹	工藤和寛
古俣優花	佐川彰宏
佐藤禎洋	鈴木亜衣
竹原希美	藤井優作
堀公一	堀内小織
米澤宏史
2007-2008	年度生(02期)
佐藤健太	上村佳弘
奥田啓貴	小野誠
白井かずみ	高井庸介
森谷亮介	六渡有梨恵
若本哲平
2006-2007	年度生(01期)
菅井梓	渡部謙太郎
相坂真	大村佳慎
奥桃子	笠井猛
小林和幸	齊藤いつこ
齊藤雄紀	佐々木麻未
佐藤日加吏	谷本貴之
徳江佑介	長嶺脩平
西本みゆき	林絵里子
澤田大輝

Last-modified: 2018-03-27 (火) 23:16:59 (2653d)

ゼミ情報 †

講義関連 †

研究関連 †

研究メモ †

木村専用 †

TFIDF †

CRF in NLTK †