python|爬虫东宫小说

2023年4月13日上午12:45 • 爬虫

2k小说网爬取最近大火的《东宫》小说，借鉴之前看过的一段代码，修改之后，进行简单爬取。

from urllib import request
from bs4 import BeautifulSoup
url='https://www.fpzw.com/xiaoshuo/19/19210/'
req=request.Request(url)
response=request.urlopen(req)
html=response.read()
soup=BeautifulSoup(html,'html.parser')
soup_text=soup.find_all('dd')[4:]
f= open('Desktop/donggong.doc','w',encoding='utf-8')
for link in soup_text:
url2='https://www.fpzw.com/xiaoshuo/19/19210/'+link.a.get('href')
req2=request.Request(url2)
response2=request.urlopen(req2)
html2=response2.read()
soup2=BeautifulSoup(html2,'html.parser')
soup_text2=soup2.find('p',class_="Text").text
soup_text3=soup_text2.replace('东宫最新章节','')
soup_text3=soup_text3.replace('2k小说网欢迎您！本站域名:"2k小说"的完整拼音fpzw.com，很好记哦！www.fpzw.com 好看的小说','')
soup_text3=soup_text3.replace('强烈推荐：','')
f.write(soup_text3)
f.write('\n\n')
f.close()

爬取的结果没进行精细处理，后续待优化。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python|爬虫东宫小说 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件

上一篇 2023年4月13日

PHP写的爬虫，爬指定网站页面上的各种图片

下一篇 2023年4月13日

下载python爬虫需要的库文件bs4

新建文件 requirements.txt 修改requirements.txt文件内容如下： # need to install module bs4 pymongo requests json 然后执行命令： sudo pip install -r requirements.txt

爬虫 2023年4月13日
000
python 爬虫下载英语听力新闻(npr news)为mp3格式

想通过听实时新闻来提高英语听力，学了那么多年的英语，不能落下啊，不然白费背了那么多年的单词。 npr news是美国国家公共电台，发音纯正，音频每日更新，以美国为主，世界新闻为辅，比如最近我国武汉发生的新型冠状病毒肺炎，每天都有涉及China,Wuhan，Coronavirus等词。自己动手丰衣足食，以前在网上下载的各种音频都是几年前的新闻，听着感觉没…

爬虫 2023年4月13日
000
爬虫学习笔记：微信公众号文章图片下载

一、背景知识最近看微信公众号，发现很多有趣的图片，又不想一一保存，遂产生通过 python 爬虫的方式直接一次性解析保存。在此过程中，使用到re、requests、os、bs4.BeautifulSoup、time、PIL 等多个库，算是综合使用了一下。有所收获。二、整体思路分析网页源代码获取图片的 URL 根据 URL 保存下载根据图片分辨率…

爬虫 2023年4月13日
000
Python爬虫re解析实战

“””古诗文爬取””” import requests import re def parse_page(url): rep = requests.get( url=url, headers={“user-agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like …

爬虫 2023年4月11日
000
爬虫

爬虫搭建代理池、爬取某网站视频案例、爬取新闻案例

目录一、requests模块其他参数二、使用代理三、代理池搭建四、使用随机代理发送请求五、爬取某视频网站的视频案例六、爬取新闻的案例一、requests模块其他参数 # 研究主题：爬取肯德基门店信息 # 目标网址：http://www.kfc.com.cn/kfccda/storelist/index.aspx “”” 在浏览器的控制台请求体中…

2023年4月8日
000
Python爬虫入门案例之爬取二手房源数据

Python爬虫入门案例之爬取二手房源数据 1. 爬虫介绍在互联网时代，信息非常发达，我们可以从网上获取大量的有价值的信息，比如商品价格、股票走势、人口普查数据等等。这些数据对于学术研究、商业决策等方面都有很多的用处，而爬虫技术可以让我们从网络中提取需要的数据。简单来说，爬虫技术就是通过程序自动访问网页、获取信息的技术。Python是非常适合爬虫编写的语…

python 2023年5月14日
000
Python爬虫实现HTTP网络请求多种实现方式

Python爬虫实现HTTP网络请求多种实现方式在Python爬虫中，对HTTP网络请求的处理非常重要，实现了HTTP网络请求后可以从互联网上抓取所需的数据。在Python中，我们可以使用多种方式实现HTTP网络请求，这里为大家介绍一些常见的方式。使用urllib库 urllib是Python标准库中一个HTTP请求处理库，可以轻松地通过urllib库实…

python 2023年5月14日
000
异步爬虫和selenium模块

asyncio模块 import asyncio # 标识是一个协程函数 async def demo(): # 协程方法 print(“start”) await asyncio.sleep(1) # 阻塞 print(“end”) # 第三方操作demo loop = asyncio.get_event_loop() # 创建一个事件循环 loop.ru…

爬虫 2023年4月10日
000

合作推广

合作推广

返回顶部