python爬虫 2019中国好声音评论爬取过程解析

接下来我将为你详细讲解“python爬虫 2019中国好声音评论爬取过程解析”的完整攻略。该攻略分为如下几个步骤：

步骤一：获取目标页面url和headers信息

打开浏览器，访问中国好声音官网评论页面，进入评论页面。
使用浏览器的开发者工具，获取网页请求的url链接和headers信息，这里可以使用F12打开开发者工具，找到Network标签，然后刷新页面后查看请求的url链接和headers信息。

步骤二：发送网络请求并获取源码

可以使用Python的requests库来发送网络请求，获取目标页面的源码。

示例1：

import requests

url = 'http://www.hunantv.com/hv/%E4%B8%AD%E5%9B%BD%E5%A5%BD%E5%A3%B0%E9%9F%B3-5.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
html = response.text

通过以上代码，我们可以获取到目标页面的源码，并将其赋值给变量html。

步骤三：解析网页

可以使用Python的lxml库或者BeautifulSoup库来解析网页。

示例2：

from lxml import etree

tree = etree.HTML(html)
comments = tree.xpath('//*[@id="comment-list"]/li/div[2]/div[1]/div[2]')
for comment in comments:
    print(comment.text)

通过以上代码，我们可以获取到目标页面中所有用户评论的文本内容。

步骤四：持久化信息

最后，将获取到的评论信息保存到文件或者数据库中。

示例3：

import sqlite3

conn = sqlite3.connect('comments.db')
cursor = conn.cursor()
cursor.execute('''CREATE TABLE IF NOT EXISTS comments (id INTEGER PRIMARY KEY AUTOINCREMENT, content TEXT)''')
for comment in comments:
    cursor.execute("INSERT INTO comments (content) VALUES (?)", (comment.text,))
conn.commit()
conn.close()

通过以上代码，我们将获取到的评论信息保存到了名为comments.db的SQLite数据库中。

至此，你已经掌握了“python爬虫 2019中国好声音评论爬取过程解析”的完整攻略，整个过程涉及到获取目标页面url和headers信息、发送网络请求并获取源码、解析网页和持久化信息。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python爬虫 2019中国好声音评论爬取过程解析 - Python技术站

python爬虫 2019中国好声音评论爬取过程解析

步骤一：获取目标页面url和headers信息

步骤二：发送网络请求并获取源码

步骤三：解析网页

步骤四：持久化信息

相关文章