Python爬虫是一种自动化获取互联网信息的技术,其可以爬取几乎所有类型的互联网数据,包括但不限于:
- 网页内容
爬虫可以获取网页的HTML、CSS和JavaScript等信息,通常会对这些信息进行解析、筛选和整合,最终将需要的信息提取出来。比如,可以爬取论坛、博客、新闻网站等各类网站的内容,用于文本分析、信息聚合等。
示例1:从新浪财经网站爬取A股上市公司信息,包括公司名称、股票代码、所属行业等信息。
import requests
from bs4 import BeautifulSoup
url = 'https://finance.sina.com.cn/stock/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取所有A股公司信息的HTML块
stocks = soup.find('div', {'class': 'stock_list'}).find_all('a', {'target': '_blank'})
for stock in stocks:
code = stock.get('data-code') # 获取股票代码
name = stock.find('span').text.strip() # 获取公司名称
industry = stock.get('data-industry') # 获取所属行业
print(f'{code}\t{name}\t{industry}')
- 图片和视频
爬虫可以自动下载网络上的图片和视频资源,并保存到本地或云端服务器中,用于后续处理或分析。比如,可以爬取博客、微博、抖音等各类平台的图片和视频内容,用于大数据分析、视觉识别等应用。
示例2:从Unsplash网站上爬取美丽的自然风景图片,保存到本地。
import requests
url = 'https://unsplash.com/nature'
response = requests.get(url)
# 获取所有图片链接的HTML块
images = response.text.split('<img alt="')[1:]
for i, image in enumerate(images):
url = image.split('src="')[1].split('"')[0] # 获取图片链接
response = requests.get(url)
with open(f'picture_{i}.jpg', 'wb') as f:
f.write(response.content) # 保存图片到本地
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬虫可以爬什么 - Python技术站