一个简单的Python爬虫+写入文本

2023年4月10日下午10:56 • 爬虫

import os
import requests
from bs4 import BeautifulSoup

# 获取HTML文档
def get_html(url):
    response = requests.get(url)
    response.encoding = 'uft-8'
    return response.text

# 获取笑话
def get_joke(html):
    soup = BeautifulSoup(html,'lxml')

    abc = ''
    num = 0
    for link in soup.find_all("div", class_="content"):
# for i in range(10):
    #     joke_content = soup.select('div.content')[i].get_text()
        num = num + 1
        abc += "--------" + str(num) + link.get_text()
return abc

# 将笑话写入txt
# ls = os.linesep

def writeJoke(joke):
while True:
        filename = input('文件名：')
if os.path.exists(filename):
print("错误:'%s' 该文件已存在" % filename)  # 是否存在

        else:
break

    fobj = open(filename, 'w') #写入文本

    fobj.write(joke)
# fobj.writelines(['%s%s' % (x, ls) for x in all])  #每一个字符后面都会换行
    fobj.close()
print('写入成功！')

url_joke = "https://www.qiushibaike.com"
html = get_html(url_joke)
joke = get_joke(html)
writeJoke(joke)
# print(joke)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：一个简单的Python爬虫+写入文本 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python+爬虫+签名

上一篇 2023年4月10日

python 爬虫保存文件的几种方法

下一篇 2023年4月10日

python爬虫爬取网页数据并解析数据

下面是“python爬虫爬取网页数据并解析数据”的完整攻略： 1. 爬虫基础知识在进行Python爬虫之前，我们需要了解一些基础知识，例如： HTTP协议抓包工具 HTML、CSS、JavaScript 正则表达式 lxml、Beautiful Soup等解析库 2. 分析目标网站在进行爬取之前，我们需要分析目标网站的结构，找到需要爬取的具体数据。我…

python 2023年5月14日
000
python爬虫 – js逆向之woff字体反爬破解

前言本篇博文的主题就是处理字体反爬的，其实这种网上已经很多了，那为什么我还要写呢？因为无聊啊，最近是真没啥事，并且我看了下，还是有点难度的，然后这个字体反爬系列会出两到三篇博文，针对市面上主流的字体反爬，一一讲清楚不多bb，先看目标站 aHR0cDo{防查找，删除我，包括花括号}vL3d3dy5kaWFucGluZy5jb20vbW{防查找，删除…

爬虫 2023年4月12日
000
python 黑板课爬虫闯关-第五关

参考链接https://www.bbsmax.com/A/o75NvDYX5W/ 用到的tesserocr模块，安装过程可以参考我之前发的随笔或者网上自行搜索，识别率很低只能多试几次，我也没去研究如何提高识别率，用到再说了。 import re,requests,time,os from lxml import html etree=html.etree i…

爬虫 2023年4月8日
000
python 黑板课爬虫闯关-第四关

这关我慢慢悠悠的做了两天才搞出来，思路太重要了；下面是我最终的代码，写的很烂很low，凑合看吧。这过程中走了不少弯路，思路有问题，给自己出了不少难题，最后发现是自己想复杂了。用到的技术：字符串、列表、集合、字典等基础操作 requests模块的get、post、session等用法多线程、以及获取多线程返回值 import re,requests,…

爬虫 2023年4月13日
000
如何使用Selenium模拟浏览器行为？

使用Selenium可以方便地模拟用户在浏览器上的行为，可以用于爬取需要进行交互的网站数据、自动化测试等场景。下面是详细的使用Selenium模拟浏览器行为的攻略：安装Selenium Selenium是基于Python的第三方库，安装方法如下所示： pip install selenium 安装浏览器驱动 Selenium需要一个对应的浏览器驱动，用于…

爬虫 2023年4月20日
001
Python抓取百度查询结果的方法

Python抓取百度查询结果的方法在Python中使用第三方库BeautifulSoup和requests可以非常方便地实现对百度查询结果的抓取。步骤一：获取查询结果的网页源代码使用requests库发起GET请求获取查询结果的网页源代码。 import requests def get_page_source(keyword): url = f&qu…

python 2023年5月14日
000
爬虫之xpath插件下载与安装

目录简介：下载xpath文件打开chrome浏览器点击右上角小圆点更多工具、阔展程序拖拽xpath插件放到阔展程序如果失效，再次拖拽关闭浏览器重新打开按ctrl+shift+x 出现小黑框 1.简介 XPath Helper是一款免费的专用于chrome内核浏览器的实用型爬虫网页解析工具。当然还可对查询出的xpath进行编辑，正确…

爬虫 2023年4月12日
000
二十七 Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP

设置代理ip只需要，自定义一个中间件，重写process_request方法， request.meta[‘proxy’] = “http://185.82.203.146:1080” 设置代理IP 中间件，注意将中间件注册到配置文件里去 from adc.daili_ip.sh_yong_ip.sh_yong_ip import sui_ji_hq_i…

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部