接下来我将为你详细讲解“python爬虫 2019中国好声音评论爬取过程解析”的完整攻略。该攻略分为如下几个步骤:
步骤一:获取目标页面url和headers信息
- 打开浏览器,访问中国好声音官网评论页面,进入评论页面。
- 使用浏览器的开发者工具,获取网页请求的url链接和headers信息,这里可以使用F12打开开发者工具,找到Network标签,然后刷新页面后查看请求的url链接和headers信息。
步骤二:发送网络请求并获取源码
可以使用Python的requests库来发送网络请求,获取目标页面的源码。
示例1:
import requests
url = 'http://www.hunantv.com/hv/%E4%B8%AD%E5%9B%BD%E5%A5%BD%E5%A3%B0%E9%9F%B3-5.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
html = response.text
通过以上代码,我们可以获取到目标页面的源码,并将其赋值给变量html。
步骤三:解析网页
可以使用Python的lxml库或者BeautifulSoup库来解析网页。
示例2:
from lxml import etree
tree = etree.HTML(html)
comments = tree.xpath('//*[@id="comment-list"]/li/div[2]/div[1]/div[2]')
for comment in comments:
print(comment.text)
通过以上代码,我们可以获取到目标页面中所有用户评论的文本内容。
步骤四:持久化信息
最后,将获取到的评论信息保存到文件或者数据库中。
示例3:
import sqlite3
conn = sqlite3.connect('comments.db')
cursor = conn.cursor()
cursor.execute('''CREATE TABLE IF NOT EXISTS comments (id INTEGER PRIMARY KEY AUTOINCREMENT, content TEXT)''')
for comment in comments:
cursor.execute("INSERT INTO comments (content) VALUES (?)", (comment.text,))
conn.commit()
conn.close()
通过以上代码,我们将获取到的评论信息保存到了名为comments.db的SQLite数据库中。
至此,你已经掌握了“python爬虫 2019中国好声音评论爬取过程解析”的完整攻略,整个过程涉及到获取目标页面url和headers信息、发送网络请求并获取源码、解析网页和持久化信息。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬虫 2019中国好声音评论爬取过程解析 - Python技术站