仔细看的话,会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP,不过,这个坑太大,小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333.

言归正传,今天刚了解到boson公司有python关于自然语言处理的API,于是试着用了一下,官方文档很不错,简单明了。首先是pip install bosonnlp。下面是一些简单应用,其实就是改一点官方的例子Orz...密钥的话,我的不给看(因为有请求次数限制的。。。),自己在这里注册一下就有啦。

# -*- coding: utf-8 -*-

# 情感分析
from __future__ import print_function, unicode_literals
from bosonnlp import BosonNLP

nlp = BosonNLP('这里应该是你的密钥')
print(nlp.sentiment("楼主真是帅啊"))
print(nlp.sentiment("楼主真是太弱了"))  

     输出如下:

爬虫再探实战(五)———爬取APP数据——超级课程表【四】——情感分析

    两个列表对应着两句话,列表里面的两个数字,分别为正面指数,负面指数。额。。那个结果,,还算是挺合理的吧。

    也可以换个姿势,再请求一遍这两段文本:

import json
import requests

SENTIMENT_URL = 'http://api.bosonnlp.com/sentiment/analysis'
# 注意:在测试时请更换为您的API Token
headers = {'X-Token': '这里应该是你的密钥'}

s = ['楼主真是帅啊', '楼主真是太弱了']
data = json.dumps(s)
resp = requests.post(SENTIMENT_URL, headers=headers, data=data.encode('utf-8'))

print(resp.text)

  输出结果也是一样的:

爬虫再探实战(五)———爬取APP数据——超级课程表【四】——情感分析

    还有很多有趣的用法,这个就留在以后有空的时候再深入研究啦。

    这个,其实我还是想分析一下那些帖子的文本信息,用API做当然可以,不过那样虽然严谨,但是,没有直接利用boson提供的页面解析文本方便些。

于是,我就开始了,无耻的粘贴和复制。。。效果如下:

爬虫再探实战(五)———爬取APP数据——超级课程表【四】——情感分析

 

 爬虫再探实战(五)———爬取APP数据——超级课程表【四】——情感分析

    这个关键词提取还是可以的2333。。。其中精髓,自己联想吧!不过,也许是自己太与世隔绝orz。。。不明白dogo是什么,查了下,不解释啦,是它!

爬虫再探实战(五)———爬取APP数据——超级课程表【四】——情感分析

    

    至此,和超级课程表的交集就算完结了。