用python将网上的文章转存为PDF文档,保存电脑上慢慢看

我们有时候看到一篇好的文章,想去保存下来,传统方式一般是收藏书签、复制粘贴到文档或者直接复制链接保存,但这样一次两次还好,数量多了,比较麻烦不说,还可能不好找~

用python将网上的文章转存为PDF文档,保存电脑上慢慢看

这个时候,Python的作用就来了,直接抓下来导出为PDF,直接把整个网站的内容都导下来都行~

在这里插入图片描述

话不多说,我们直接上代码!

import requests
import parsel
import pdfkit
import os
import re


html_str = """
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{article}
</body>
</html>
"""


def change_title(title):
    """
    python学习交流群:279199867
    替换标题中的特殊字符
    :param title: 传入文章标题
    :return: 返回一个替换掉特殊字符的标题
    """
    """
    使用re.compile()将正则表达式的字符串形式编译为一个对象,通过该对象提供的一些列方法对文本
    进行匹配查找
    re.sub() 第一个参数对应的正则表达式,第二个参数为要替换成的字符串, 第三个参数为源字符串
    """
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替换为下划线
    return new_title


for page in range(1, 11):
    """
    发送请求的url地址,唯一资源定位符
    headers: 请求头 把python伪装成浏览器对服务器发送请求, 然后服务器会给我们返回一个响应数据
        请求头所加的参数都是可以在开发者工具中的headers里面的request headers中找到的
        比如 user-agent:代表着浏览器的信息
            cookies:用户的信息 常用于检测是否有登陆账号
            host:域名
            referer:常说的防盗链,告诉服务器是从哪个网页跳转过来的
    请求方式:可以通过开发者工具中headers里面的数据看到是什么样的请求方式
        get请求: 是可以直接从服务器上面获取数据
        post请求:需要向服务器发送一个数据 比如说(搜索/登陆)
    response:响应对象
    状态码: 200表示请求成功 300:重定向 跳转 400:通常是url网址不对 500 一般是服务器问题
    获取网页文本数据 response.text 获取网页json字典数据 response.json() 获取网页二进制数据 response.content
    """
    url = 'https://blog.csdn.net/qdPython/article/list/{page}'
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    """
    把 html 字符串数据转换成一个 Selector 对象
    Selector 就具有一系列数据解析的方法  css/xpath/re
    类选择器 都是使用圆点.开头
    ID选择器 是使用#开头
    属性选择器:
        ::text获取标签里面的文本数据
        ::attr(xxx) 获取标签内某一个属性的数据
        get() 从 Selector 对象中提取第一个数据, 直接返回字符串数据给我们
        getall() 从 Selector 对象中提取提取所有数据, 返回一个列表
    """
    selector = parsel.Selector(response.text)
    href = selector.css('.article-list div.article-item-box a::attr(href)').getall()
    for link in href:
        response_1 = requests.get(url=link, headers=headers)
        selector_1 = parsel.Selector(response_1.text)
        title = selector_1.css('#articleContentId::text').get()
        content = selector_1.css('#content_views').get()
        new_title = change_title(title)
        # 创建文件保存地址以及保存文件的名字 和格式
        pdf_path = 'pdf\\' + new_title + '.pdf'
        html_path = 'pdf\\' + new_title + '.html'
        # str.format() 字符串格式化方法
        html = html_str.format(article=content)
        """
        with open   打开文件时, 当文件对象引用完毕之后会自动关闭文件
        html_path:文件保存路径以及名字格式 
        mode:保存方式 w 写入 如果你不写mode默认是r 读
        encoding: 编码
        as f 重命名 可以自定义
        f = open()
        f.writer()
        f.close()
        """
        with open(html_path, mode='w', encoding='utf-8') as f:
            f.write(html)
            print('正在保存:', title)
        # exe 文件存放的路径
        config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
        # 把 html 通过 pdfkit 变成 pdf 文件
        pdfkit.from_file(html_path, pdf_path, configuration=config)
        os.remove(html_path)

 

兄弟们快去试试吧!

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用python将网上的文章转存为PDF文档,保存电脑上慢慢看 - Python技术站

(0)
上一篇 2023年4月2日
下一篇 2023年4月2日

相关文章

  • 为了防止这个网站消失,我连夜用Python离线了上万张图片

    之前好多高质量网站都不见了,肯定是你们整活整多了,趁你们不注意,我先悄悄多保存点~ 事前准备 让我们开始今天的操作 1、环境配置** 安装一个Python和pycharm就好了 2、模块使用 requests # 数据请求 parsel # 解析模块 (提取数据)   这两个模块没有安装的话,先安装一下,win+R 输入cmd 按回车弹出命令提示符窗口,输入…

    Python开发 2023年4月2日
    00
  • 【Python基础教程】类的定义和使用

    哈喽兄弟们,今天咱们分享一下类的定义和使用。   在Python中,类表示具有相同属性和方法的对象的集合。在使用类时,需要先定义类,然后再创建类的实例,通过类的实例就可以访问类中的属性和方法了。 1、定义类 在Python中,类的定义使用class关键字来实现,语法如下: class ClassName: “”“类的帮助信息”“” # 类文本字符串 stat…

    Python开发 2023年4月2日
    00
  • 挑战在代码里面不写for循环,让代码变得更简洁、规范、结构化,以及更好的代码可读性!

    哈喽兄弟们,又是新的一天!今天你敲代码了吗? 一、序言 为什么要挑战自己在代码里不写 for loop?因为这样可以迫使你去学习使用比较高级、比较地道的语法或 library。文中以 python 为例子,讲了不少大家其实在别人的代码里都见过、但自己很少用的语法。 自从我开始探索 Python 中惊人的语言功能已经有一段时间了。一开始,我给自己一个挑战,目的…

    Python开发 2023年4月2日
    00
  • 用Python简单的绘制词云图,分析展示热点话题

    平常我们爬的评论、弹幕等等,数量又多又密,根本看不过来,这时候数据分析的作用来了,今天我们就试试用Python根据这些数据,来绘制词云图进行热词分析。 知识点 文件读写 基础语法 字符串处理 文件生成 数据构建 代码展示 # 导入系统包 import platform from flask import Flask, render_template from…

    Python开发 2023年4月2日
    00
  • 简单的用Python对手机号进行加密

    基础学的太枯燥了,当然需要用案例来实践一下,才能更好的巩固所学。   所以本次来个对手机号进行加密,检验我们所学~ 知识点: 文件读写 基础语法 字符串处理 正则表达式 代码部分 # 导入系统包 import platform import re print(“Hello,秀儿”) print(“简单的加密手机号 “) # 定义文本内容 # Python学习…

    2023年4月2日
    00
  • Python批量处理Excel表格,将多个表格内容合并到一个,提升工作效率!

    老板最近越来越过分了,快下班了发给我几百个表格让我把内容合并到一个表格内去。还好我会Python,分分钟就搞定了,这要是换个不会Python的,不得加班到第二天天亮去了~ 这么好用的技能,必须分享给大家,话不多说,咱们直接开始! 准备工作 咱们需要先准备表格数据,会爬虫的兄弟可以自己爬一点,不会的,可以找我直接拿数据。 表格内数据     我这里只做展示,所…

    Python开发 2023年4月2日
    00
  • Python实现人脸识别

    哈喽兄弟们,今天实现一下人脸识别。 先问大家一个问题什么是百度Aip模块? 百度AI平台提供了很多的API接口供开发者快速的调用运用在项目中本文写的是使用百度AI的在线接口SDK模块(baidu-aip)进行实现人脸识别 除了人脸识别,其他api功能的调用也同理。 准备工作 本机环境 系统:win11Python版本:3.9.7编辑器:VS2022 安装ba…

    Python开发 2023年4月2日
    00
  • Python遇上SQL,于是一个好用的Python第三方库出现了

    1. 演示数据 本文的所有演示数据,均是基于下方的四张表。下面这四张表大家应该不陌生,这就是网传50道经典MySQL面试题中使用到的几张原表。关于下方各表之间的关联关系,我就不给大家说明了,仔细观察字段名,应该就可以发现。 2. pandasql的使用 1)简介 pandas中的DataFrame是一个二维表格,数据库中的表也是一个二维表格,因此在panda…

    Python开发 2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部