上一篇已经将数据抓到手了,那么来分析一下吧。这里是用python简单处理数据,之后用EXCEL 作图,没错,,,还是EXCEL。其实分析这些数据有更好的工具,比如R。。。不过目前不会啊,就先EXCEL凑活着用吧。
这里一共分析了三个方面:TOP10 word;时间与发帖量的关系,日期与发帖量的关系。
PROJECT1:TOP10 WORD
注意这里的top_words.txt是我用xlrd取出文字后保存在记事本中,去掉标点后得到的(这个羞耻的过程就不展示了。。。以后找到更好的办法再来改写)
#!/usr/bin/python #-*- coding : utf-8 -*- import xlrd import xlsxwriter from collections import Counter with open('top_words.txt', encoding='utf-8') as f: # print(f.read()) l = list(f.read()) print(l) word_dict = Counter(l).most_common() # print(word_dict) workbook = xlsxwriter.Workbook('top_words.xlsx') worksheet = workbook.add_worksheet() worksheet.set_column('A:A', 10) worksheet.set_column('B:B', 10) worksheet.write(0,0,'关键字') worksheet.write(0,1,'频数') i = 1 num = [] for k, v in word_dict: i += 1 worksheet.write(i,0,k) worksheet.write(i,1,v) num.append(v) workbook.close() print(num)
输出EXCEL表格如下(一部分):
简单做个图:
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:爬虫再探实战(五)———爬取APP数据——超级课程表【二】——词频分析 - Python技术站