上一篇已经将数据抓到手了,那么来分析一下吧。这里是用python简单处理数据,之后用EXCEL 作图,没错,,,还是EXCEL。其实分析这些数据有更好的工具,比如R。。。不过目前不会啊,就先EXCEL凑活着用吧。

    这里一共分析了三个方面:TOP10 word;时间与发帖量的关系,日期与发帖量的关系。

    PROJECT1:TOP10 WORD

    注意这里的top_words.txt是我用xlrd取出文字后保存在记事本中,去掉标点后得到的(这个羞耻的过程就不展示了。。。以后找到更好的办法再来改写)

#!/usr/bin/python
#-*- coding : utf-8 -*-
import xlrd
import xlsxwriter
from collections import Counter

with open('top_words.txt', encoding='utf-8') as f:
	# print(f.read())
	l = list(f.read())
	print(l)
word_dict = Counter(l).most_common()
# print(word_dict)
workbook = xlsxwriter.Workbook('top_words.xlsx')
worksheet = workbook.add_worksheet()
worksheet.set_column('A:A', 10)
worksheet.set_column('B:B', 10)
worksheet.write(0,0,'关键字')
worksheet.write(0,1,'频数')
i = 1
num = []
for k, v in word_dict:
	i += 1
	worksheet.write(i,0,k)
	worksheet.write(i,1,v)
	num.append(v)
workbook.close()
print(num)

    输出EXCEL表格如下(一部分):

爬虫再探实战(五)———爬取APP数据——超级课程表【二】——词频分析

    简单做个图:

爬虫再探实战(五)———爬取APP数据——超级课程表【二】——词频分析

爬虫再探实战(五)———爬取APP数据——超级课程表【二】——词频分析