2010年08月17日Python勉強会 - Kimura seminar in Otaru University of Commerce

[ トップ ] [ 編集 | 凍結 | 差分 | バックアップ | 添付 | リロード ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

ゼミ情報 †

TopPageへ戻る

現在 2
今日 1 合計 4259

nltkでtwitterのログを処理する。 †

TwitterLog20100805 を自分のディレクトリにコピーする
```
	cp -r /home/maeda/TwitterLog/20100805/ .
```
参考サイト http://d.hatena.ne.jp/nokuno/20100123/1264239192

日本語テキストを読み込むサンプルプログラム

	#! /usr/bin/env python
	#encoding: utf-8
	import nltk
	raw = open('./sample.mecab').read()
	words = raw.split();
	print len(words)
	text = nltk.Text(words)
	gen = text.generate(300)
	print gen

bigrams

	#!/usr/bin/python
	#encoding: utf-8
	import nltk
	
	raw = open('sample.dat').read()
	words = raw.split();
	bigrams = nltk.bigrams(words)
	fd = nltk.FreqDist(bigrams)
	for w in fd:
	        if fd[w]==100 :
	                break;
	        print w[0],w[1],fd[w]
	
	#文字化けする
	cfd = nltk.ConditionalFreqDist(bigrams)
	print cfd['私']

24時間x60分=1440ファイルを分かち書きにする

↑

ディレクトリ下の*.datファイルを読み込み、その中からtweetを抽出する。(筆跡：Ashihara) †

事前処理として.dat内の制御文字を削除する必要がある。
- コマンド
```
	find . -name "*.dat" | xargs sed -i "s/^M//g"
```
- ^Mは[Ctrl]+[v] + [Ctrl] + [M]で入力する。直接入力してはいけない。
```
	[Ctrl]+[v] + [Ctrl] + [M]
```
- 他の制御文字が含まれている場合もある。適宜除去する必要がある。
tweetの抽出
- データは生データを読み込む。それをsplit()でリストにする。
- splitされたリストの要素中に'2010'の要素が必ず一つのtweetに存在し、その後はtweet内容となる。
- これを利用し、index関数で'2010'が存在する箇所の添字を取得、それ以降の要素を全て結合しtweetとする。
- 一つのtweetに対し一つずつ改行しつつファイルに書き込む。tweetList.txtというファイルが生成される。
- このtweetList.txtをmecabにかける。今回はコマンドラインから直接実行した。
- この処理は制御文字を削除しない限り、失敗する。以下ソースコード。
- 出力が完全ではないかもしれません。
```
   #vim fileencoding:utf-8 
   import commands
   import codecs
   list = commands.getoutput('ls *.dat')
   fileList = list.split("\n")
   datList = []
   for file in fileList:
           for dat in codecs.open(file,'r','utf-8'):
                   datList.append(dat.encode('utf-8'))
   tweetList = []
   swaplist = []
   tw = str()
   for dats in datList:
           swaplist = dats.split()
           index = swaplist.index('2010')#2010以下がtweet
           tw = ""
           for tweet in swaplist[index + 1:]:
                   tw += tweet
           tweetList.append(tw)
   f = open('tweetList.txt', 'w')
   for tweet in tweetList:
           f.write(tweet+'\n')
   f.close()
```

↑

復習問題 †

"TwitterLog20100805-1600.dat" のファイルを読み込み、コメントだけを「Comment.txt」ファイルに書き出すプログラムを書け
- ^M を削除すること

必要な知識

ファイル読み込み

	#!/usr/bin/env python
	for line in open('TwitterLog20100805-1600.dat', 'r'):
	    print line

ファイル書き込み

	strs = "abc";
	f = open('Comment.txt', 'w')
	f.writelines(strs)
	f.close()

"TwitterLog20100805-1600.dat" を読み込み　"Comment.txt" にそのまま書き込む

	#!/usr/bin/env python
	
	f = open('Comment.txt', 'w')
	for line in open('TwitterLog20100805-1600.dat', 'r'):
	        print line
	        f.writelines(line)
	f.close()

split 関数を利用して、タブで区切り、4番目の要素（つぶやきの内容）を"Comment.txt"に出力する

	#!/usr/bin/env python
	
	f = open('Comment.txt', 'w')
	for line in open('TwitterLog20100805-1600.dat', 'r'):
	        print line
	        items = line.split("\t")
	        print items[3]
	        f.writelines(items[3])
	f.close()

置換処理

科研費　採択課題

ゼミ生
2021-2022	年度生(14期)
阿部遥	大内颯
岡田絢音	興星陽
梶縁	河野由弥
佐々木凜	佐々木美波
濱田和貴	廣吉和貴
藤井一志	藤田宗真
2020-2021	年度生(13期)
小澤真凜	笠原有真
加藤正宙	蒲田躍斗
坂村翼	住吉真奈
高野大河	中井葉月
永渕景祐	平館菜々子
2019-2020	年度生(12期)
大芦恭平	--
近藤太雄	清水美里
中村可怜	福山活起
福家祐紀	船越天彩
南山衣里	山下伽月
坂本涼太	土屋彩夏
2018-2019	年度生(不在)
SEA-NA	代表取締役
平賀直輝	横山莉花
住吉実祈	室橋和哉
2017-2018	年度生(11期)
石黒栞奈	一宮拓海
亀井海舟	佐藤栞
佐藤有希	桧森拓真
藤本朱夏	ホワイトジニー
増田優作	谷内健太
2016-2017	年度生(10期)
伊藤みき	岡島健悟
小西雪葉	祐川泰輝
鈴木佑菜	大門拓史
田頭わかば	戸嶋咲穂
中村智貴	西野哲生
横山祐果	川岸祐果
2015-2016	年度生(09期)
浅賀七海	小林真菜
西村伊央	堀江知未
針生惟希	村上浩太
2014-2015	年度生(08期)
大石誠	大野晋太朗
加藤裕樹	佐々木左近
高橋理沙	武田莉穂
寺島舞子	畑賀大
山田修世
2013-2014	年度生(07期)
加藤史織	工藤智子
佐々木葉子	志鎌周
高橋玄龍	髙松翔
中尾千咲	中川玲菜
中藪大貴
2012-2013	年度生(06期)
遠藤星地	大野紗季
鎌田めぐみ	木下和大
齋木涼介	佐々木遥
佐藤優子	沼澤文香
古屋真理	吉田智弘
2010-2011	年度生(05期)
葦原史敏	伊藤大起
伊藤みどり	永坂文乃
藤田航哉	前多大輔
松本陵佑	宮津有沙
山田亜季
2009-2010	年度生(04期)
岸本隆志	窪地由恵
志賀千鶴	津田有子
三浦工弥
2008-2009	年度生(03期)
粟津康佑	井上さゆり
北崎佑樹	工藤和寛
古俣優花	佐川彰宏
佐藤禎洋	鈴木亜衣
竹原希美	藤井優作
堀公一	堀内小織
米澤宏史
2007-2008	年度生(02期)
佐藤健太	上村佳弘
奥田啓貴	小野誠
白井かずみ	高井庸介
森谷亮介	六渡有梨恵
若本哲平
2006-2007	年度生(01期)
菅井梓	渡部謙太郎
相坂真	大村佳慎
奥桃子	笠井猛
小林和幸	齊藤いつこ
齊藤雄紀	佐々木麻未
佐藤日加吏	谷本貴之
徳江佑介	長嶺脩平
西本みゆき	林絵里子
澤田大輝