Python爬虫练习汇总

Python爬虫练习汇总攻略

Python爬虫是一种抓取网络数据的技术，也是现在比较热门的技术之一。学习Python爬虫，需要具备一定的编程基础和网络基础。下面是Python爬虫练习汇总攻略：

了解爬虫基础

在学习Python爬虫之前，需要先了解一些基础的概念或知识：

爬虫是什么？
指的是通过网络来抓取网页数据的程序，可以获取各种网络数据，如HTML、XML、JSON等。
怎样抓取网页？
在Python中，可以使用三方库Requests和BeautifulSoup来进行网页抓取。
爬虫需要注意什么？
需要注意网络法规、反爬虫机制、数据分析等问题，以避免因不当爬取造成的纠纷。

学习示例

使用Requests和BeautifulSoup爬取豆瓣电影 top250 的信息

```python
import requests
from bs4 import BeautifulSoup

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
url = 'https://movie.douban.com/top250'
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
for movie_li in soup.find('ol', class_='grid_view').find_all('li'):
num = movie_li.find('em').text
title = movie_li.find('div', class_='hd').find('a').text.strip()
star = movie_li.find('div', class_='bd').find('div', class_='star').find('span', class_='rating_num').text
quote = movie_li.find('div', class_='bd').find('p', class_='quote').find('span', class_='inq').text
print(num + '、' + title + ' ' + star + '\n' + quote + '\n')
```
在上面的代码中，使用requests库发送一个get请求，然后使用beautifulsoup库解析response返回的html文本。使用beautifulsoup库可以非常方便地提取想要的元素。
爬取拉勾网的Python职位信息

```python
import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'}
url = 'https://www.lagou.com/zhaopin/Python/?labelWords=label'
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
job_list = soup.find('ul', class_='item_con_list').find_all('li')
for job in job_list:
job_name = job.find('h3').text.strip()
company = job.find('div', class_='company').find('a').text.strip()
salary = job.find('span', class_='money').text
print(job_name + ' | ' + company + ' | ' + salary)
```
在上面的代码中，同样使用requests库发送get请求，然后使用beautifulsoup库解析response返回的html文本，提取该网页的Python职位信息。

总结

以上是Python爬虫练习汇总攻略的基础流程和两个示例，逐步掌握和运用爬虫技术，可以更深入地了解一些数据，从而作出更好的决策。

阅读剩余 38%

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫练习汇总 - Python技术站

Python爬虫练习汇总攻略

了解爬虫基础

学习示例

总结

相关文章

分享到: