标准的markdown格式文本如下:
PyHacker编写URL批量采集器
1. 准备工作
- 安装python3
- 安装PyCharm或其他编辑器
- 安装requests模块,可在命令行中使用以下命令进行安装
pip install requests
2. 编写代码
在PyCharm中新建一个Python文件,命名为"crawler.py",输入以下代码:
import requests
with open('urls.txt', 'r') as file:
urls = file.readlines()
for url in urls:
response = requests.get(url.strip())
with open('result.txt', 'a') as file:
file.write(response.text + '\n')
解释一下上面的代码:
- 使用
open
函数打开一个名为"urls.txt"的文件。"r"表示以只读方式打开文件。 - 使用
readlines
函数读取"urls.txt"文件中的所有行,存储在urls
变量中。 - 使用
for
循环读取urls
列表中的每个URL。 - 使用
requests
模块的get
函数向每个URL发起请求。 - 使用
strip
函数删除每个URL末尾的空白字符。 - 使用
open
函数打开一个名为"result.txt"的文件。"a"表示以追加方式打开文件。 - 使用
write
函数将每个URL对应的HTML文本写入"result.txt"文件中。
3. 执行脚本
- 将需要采集的URL列表保存在"urls.txt"文件中(每个URL占一行)。
- 在命令行中切换到脚本所在的目录。
- 输入以下命令执行脚本:
python crawler.py
- 程序会自动创建名为"result.txt"的文件,并将每个URL对应的HTML文本追加到文件中。
4. 示例说明
示例一
我们有一组网页需要采集,分别为:
- http://www.example.com/index.html
- http://www.example.com/about.html
- http://www.example.com/contact.html
我们可以将这些URL保存在"urls.txt"文件中,并执行上述脚本。
执行完毕后,我们可以在目录中看到生成了名为"result.txt"的文件,其中包含每个URL对应的HTML文本。
示例二
我们需要在某个电商网站中采集所有商品的名称、价格和评价数量。假设该网站的商品列表页为:
- http://www.example.com/products?page=1
- http://www.example.com/products?page=2
- http://www.example.com/products?page=3
- ...
我们可以使用脚本批量采集这些页面,并解析HTML文本,提取所需信息。具体方法可以参考BeautifulSoup等HTML解析库的文档。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:PyHacker编写URL批量采集器 - Python技术站