python3爬虫 —–爬取古诗文——-from古诗文网站

2023年4月11日上午1:23 • 爬虫

 1 # -*- coding: utf-8 -*-
 2 #author:zxy
 3 #Date:2018-10-19
 4 
 5 
 6 import requests
 7 import re
 8 HEADERS={
 9     "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
10                  "Chrome/69.0.3497.100 Safari/537.36"
11 }
12 
13 
14 def parse_url(url):
15     response=requests.get(url,headers=HEADERS)
16     text=response.text
17     titles=re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL) #r raw
18     dynasties=re.findall(r'<p\sclass="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)
19     authors=re.findall(r'<p\sclass="source">.*?<a.*?<a.*?>(.*?)</a>',text,re.DOTALL)
20     content_tags=re.findall(r'<div\sclass="contson".*?>(.*?)</div>',text,re.DOTALL)
21     contents=[]
22     for content_tag in content_tags:
23         x=re.sub('<.*?>','',content_tag)
24         xx=re.sub('。', '。\n',x)
25         contents.append(xx.strip())
26     poems=[]
27     for value in zip(titles,dynasties,authors,contents):
28         title,dynasty,author,content=value
29         poem={
30             "title":title,
31             "dynasty":dynasty,
32             "author":author,
33             "content":content
34         }
35         poems.append(poem)
36 
37     with open('poems.txt','w',encoding="utf-8") as f:
38         for poem in poems:
39             for (key,value) in poem.items():
40                 if(key=="title"):
41                     f.write("{}\n".format(value))
42                 if (key == "dynasty"):
43                     f.write("\t{}\n".format(value))
44                 if(key=="author"):
45                     str="\t{}\n"
46                     f.write(str.format(value))
47                 if(key=="content"):
48                     print(value)
49                     f.write("{}\n\n\n".format(value))
50                     # print(x+"{}\n\n\n".format(value))
51 
52 if __name__ == '__main__':
53     url="https://www.gushiwen.org/default_1.aspx"
54     parse_url(url)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python3爬虫 —–爬取古诗文——-from古诗文网站 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

强大的aiohttp异步爬虫的使用

上一篇 2023年4月11日

python3爬虫 —–爬取职位招聘信息——-from腾讯社会招聘

下一篇 2023年4月11日

【python爬虫】用python编写LOL战绩查询

介绍一个简单的python爬虫，通过Tkinter创建一个客户端，当输入要查询的LOL用户名称的时候，可以显示出当前用户的所在服务器，当前战力和当前段位。爬取网页地址：http://lol.duowan.com/zdl/ python版本：2.7 需要用到的模块：Tkinter urllib2 json sys 实例代码： import url…

爬虫 2023年4月12日
000
使用python爬取微博数据打造一颗“心”

使用Python爬取微博数据打造一颗“心” 在本攻略中，我们将使用Python编写程序，通过爬取微博数据的方式构建一颗“心”。接下来，将会详细讲解这个过程，包括如何获取微博数据、如何使用Python处理数据、如何使用Python绘制图形。获取微博数据获取微博数据需要一定的技术知识和工具。我们需要使用Python中的第三方模块来实现数据的获取。在本次攻略…

python 2023年5月14日
000
Python使用requests模块爬取百度翻译

下面是关于使用 requests 模块爬取百度翻译的攻略。 1. 学习准备首先，我们需要了解一下 requests 模块。requests 是 Python 中一个非常强大的网络库，常用于网络数据的获取等操作。需要注意的是，requests 库需要单独安装，可以通过 pip 工具进行安装。 pip install requests 另外，我们还需要了解一下…

python 2023年5月14日
000
爬虫项目总结

1.项目架构 2.详细技术点 1.解析，（依赖注入） 2，使用queue队列实现循环抓取 3.实现优先级队列并提取接口 4.使用log4j实现配置检查及日志打印 5.实现多线程爬虫并提取接口 6.实现url调度器 7.使用queue队列实现url随机榨取 8.使用redis队列实现url 随机抓取 10.使用httpclient 实现模拟登录 11.使用cu…

爬虫 2023年4月13日
000
Python3编写网络爬虫02-基本请求库requests的使用

一、requests 库使用需要安装 pip install requests import requests #导入requests库 request = requests.get(“https://www.baidu.com”)#发送get请求（url地址） print(request) #打印响应状态如果要添加额外的信息例如 name =…

爬虫 2023年4月10日
000
C# 学习之路–百度网盘爬虫设计与实现（一）

百度网盘爬虫现在市面上出现了很多网盘搜索引擎，写这系列博文及爬虫程序的初衷：更方面的查找资源学习C# 学习爬虫的设计与实现记录学习历程自我监督能力有限，如有不妥之处，还请各位看官点评。同在学习的网友~与君共勉。工具/库选择 mysql5.6 (习惯使然，sqlserver比较庞大，个人使用起来不是很习惯，后期可能改为sqlserver) Htt…

爬虫 2023年4月13日
000
爬虫–cheerio

const cheerio = require(‘cheerio’) const $ = cheerio.load(‘<h2 class=”title”>Hello world</h2>’) $(‘h2.title’).text(‘Hello there!’) $(‘h2’).addClass(‘welcome’) $.html() …

爬虫 2023年4月13日
000
面试官让我上机写一个爬虫，没有经验，写的也没什么价值，就是想记录一下

1.用WebRequest相关API抓取数据的时候会返回403服务器拒绝的问题。经网上寻找解决方案，是用指定UserAgent参数伪装浏览器，并成功解决问题。 2.大众点评网上要抓取的数据是动态生成。抓取的Html内容中不包含想要获取的内容。后来找到一个网友提供的思路: 用WinForm里的webBrowser控件，可以把网页内容全部加载完后，再通过D…

爬虫 2023年4月10日
000

合作推广

合作推广

返回顶部