爬虫简介、requests基础用法、urlretrieve()
爬虫简介
爬虫(英文名:web crawler 或 spider),是一种自动获取网页内容的程序。网页内容包括:文本、图片、音频、视频等。爬虫工作的模式一般是模拟浏览器行为,向目标网站发送 HTTP 请求,获取响应数据,然后解析数据提取需要的信息。爬虫常用于搜索引擎抓取网页、数据分析、数据挖掘等领域。
requests基础用法
requests 是 Python 中一个非常流行的 HTTP 库,它可以发送 HTTP 请求,支持 HTTP(S) 协议、cookies、文件上传、代理、认证等功能。使用 requests 库可以轻松地获取网页内容和提交表单。
安装 requests
使用 pip 安装:
pip install requests
发送 GET 请求
使用 requests 库发送 HTTP GET 请求,获取页面内容:
import requests
url = 'https://www.example.com'
response = requests.get(url)
print(response.text)
发送 POST 请求
使用 requests 库发送 HTTP POST 请求,提交表单数据:
import requests
url = 'https://www.example.com/login'
data = {
'username': 'admin',
'password': '123456',
}
response = requests.post(url, data=data)
print(response.text)
添加 Headers
使用 requests 库发送 HTTP 请求时,可以添加 Headers,常用的 Headers 包括 User-Agent、Referer 等:
import requests
url = 'https://www.example.com'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
'Referer': 'https://www.example.com',
}
response = requests.get(url, headers=headers)
print(response.text)
urlretrieve()
urlretrieve() 函数可以下载指定 URL 的文件,保存到本地。该函数定义在 urllib.request 模块中。它具有以下语法:
urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)
- url:文件的下载链接。
- filename:下载后的保存路径。
- reporthook:可选参数,用于显示下载进度,可以是一个回调函数。
- data:可选参数,用于在下载时传递的额外数据。
使用 urlretrieve() 函数下载文件:
import urllib.request
url = 'https://www.example.com/images/picture.jpeg'
filename = 'picture.jpeg'
urllib.request.urlretrieve(url, filename)
使用 urlretrieve() 函数显示下载进度:
import urllib.request
def download_progress(block_num, block_size, total_size):
percent = block_num * block_size / total_size * 100
print('%.2f%%' % percent)
url = 'https://www.example.com/images/picture.jpeg'
filename = 'picture.jpeg'
urllib.request.urlretrieve(url, filename, reporthook=download_progress)
以上就是关于爬虫简介、requests基础用法、urlretrieve() 的详细介绍。学习这些知识,可以帮助我们更好的进行数据爬取和处理。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:爬虫简介、requests基础用法、urlretrieve() - Python技术站