BeautifulSoup /bs4 爬虫实例

2023年4月10日下午10:14 • 爬虫

需求：使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储

http://www.shicimingju.com/book/sanguoyanyi.html

 1 from bs4 import BeautifulSoup
 2 import requests
 3 
 4 url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
 5 headers = {
 6     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
 7 }
 8 
 9 page_text = requests.get(url=url,headers=headers).text
10 
11 #解析：章节的标题  详情页的url
12 soup = BeautifulSoup(page_text,'lxml')
13 li_list = soup.select('.book-mulu > ul > li')
14 fp =  open('./xiaoshuo.txt','w',encoding='utf-8')
15 for li in li_list:
16     title = li.a.string
17     detail_url = 'http://www.shicimingju.com'+li.a['href']
18     
19     #对详情页发起请求
20     detail_page_text = requests.get(url=detail_url,headers=headers).text
21     soup = BeautifulSoup(detail_page_text,'lxml')
22     #返回的文本内容是一整个字符串数据
23     text = soup.find('div',class_='chapter_content').text
24     
25     fp.write(title+"\n"+text)
26 fp.close()
27 print('over!!!')

爬虫代码

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：BeautifulSoup /bs4 爬虫实例 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫防盗链处理

上一篇 2023年4月10日

scrapy 执行同个项目多个爬虫

下一篇 2023年4月10日

互联网金融爬虫怎么写－第二课雪球网股票爬虫（正则表达式入门）

系列教程：互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）上一节课我们一起通过一个p2p网贷爬虫，深入了解了一下XPath以及其在最终实际使用中的写法。可以毫不夸张的说，对于写简单爬虫来说，最最重要的，就是使用好XPath，以及这一课要讲的正则表达式。正则表达式，又称正规表示法、常规表示法（英语：Regular Expression，…

爬虫 2023年4月11日
000
爬虫

python | 爬虫笔记（三）- 基本库使用

本节内容为基础库的使用，内容涵盖：Urllib库基本使用，Requests库基本使用以及正则表达式基础。 3.1 Urllib 内置http请求库 request请求模块，error异常处理模块，parse工具模块，robotparser 识别网站robots.txt，识别哪些可以爬 3.1.1 发送请求 1- urlopen urllib.request …

2023年4月8日
000
爬虫遇到取到网页为reload的问题

有的网站防采集，会在页面加上this.window.location.reload(),这时候你就会得到如下代码： <html> <head> <meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″> </head>…

爬虫 2023年4月11日
000
Python大批量搜索引擎图像爬虫工具详解

Python大批量搜索引擎图像爬虫工具详解本篇攻略将全面介绍Python大批量搜索引擎图像爬虫工具的使用方法和具体实现过程。首先，我们需要明确这个Python爬虫工具的基本流程，主要包括以下几个步骤：选择合适的搜索引擎和关键词构造合理的搜索链接下载图片到本地下面我们就来详细介绍这个过程。选择合适的搜索引擎和关键词在开始使用Python爬虫之前，…

python 2023年5月14日
000
爬虫笔记（十）——学会使用Fiddler

Fiddler是一个常见的抓包分析软件，同时我们可以利用它详细地对HTTP请求进行分析，并模拟对应的HTTP请求。为什么使用Fiddler软件？网络爬虫是自动爬取网页的程序，在爬取的过程中必然涉及客户端和服务器端之间的通信，自然也需要发送一些HTTP请求，并接收服务器返回的结果。在一些稍复杂的网络请求中，我们直接看网址变化是看不出规律的，此时如果要…

爬虫 2023年4月11日
000
爬虫—使用Requests

一，安装　　pip install requests 二，基本用法 1.简单示例 import requests res = requests.get(‘https://www.baidu.com’) print(type(res)) print(res.status_code) print(res.text) print(type(res.text)) …

爬虫 2023年4月13日
000
Python3爬虫：利用Fidder抓取手机APP的数据

1、什么是Fiddler?　　　　Fiddler是一个http协议调试代理工具，它能够记录并检查所有你的电脑和互联网之间的http通讯，设置断点，查看所有的“进出”Fiddler的数据（指cookie,html,js,css等文件）。　　 Fiddler 要比其他的网络调试器要更加简单，因为它不仅仅暴露http通讯还提供了一个用户友好的格式。同类的工具有:…

爬虫 2023年4月11日
000
Python 爬虫的工具列表大全

下面我将为您详细讲解“Python 爬虫的工具列表大全”的完整攻略。标题首先，我们来到这篇文章的标题部分。在Markdown中，标题的表示方法是使用“#”符号。文章的标题应该使用一级标题，即在标题文本下面加上一个“#”。如下： # Python 爬虫的工具列表大全该标题使用了一级标题的表示方法，即一个“#”符号后面直接加上标题文本，不需要其他符号或空格…

python 2023年5月14日
000

合作推广

合作推广

返回顶部