Python 读取PDF文件为文本字符并转换为音频

file

【阅读全文】

设计思路:首先通过PyPDF2非标准库提供的接口函数将PDF文件中的文本提取出来,然后,再使用pyttsx3非标准库将文本转换为音频文件。

使用pip的方式安装两个非标准库PyPDF2、pyttsx3。

pip install PyPDF2 -i https://pypi.tuna.tsinghua.edu.cn/simple/

pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple/

将这两个需要使用到的非标准库导入到当前代码块中。

import pyttsx3 as tsx
import PyPDF2 as pdf

编写PDF文件读取函数并且返回text文本字符串。

def read_pdf_to_txt(pdf_file):
    '''
    读取PDF文件返回text文本
    :param pdf_file: PDF文件路径
    :return:
    '''
    reader = pdf.PdfFileReader(open(pdf_file, 'rb'))
    texts = ''
    for page_num in range(reader.numPages):
        text = reader.getPage(page_num).extractText()
        text = text.strip().replace('n', ' ')
        texts = texts + text
    return texts


def to_video(text):
    '''
    文本转换为音频函数
    :param text: 文本字符串
    :return:
    '''
    sp = tsx.init()
    sp.save_to_file(text, './vi.mp3')
    sp.runAndWait()
    sp.stop()

调用to_video函数完成音频文件的转换。

to_video(text=read_pdf_to_txt('./vi.pdf'))

file

【往期精彩】

python 获取最新房价信息-以北京房价为例

办公自动化:Image图片转换成PDF文档存储...

python做一个微型美颜图片处理器,十行代码即可完成...

用python做一个文本翻译器,自动将中文翻译成英文,超方便的!

小王,给这2000个客户发一下节日祝福的邮件...

python 一行命令开启网络间的文件共享...

PyQt5 批量删除 Excel 重复数据,多个文件、自定义重复项一键删除...

再见XShell,这款国人开源的终端命令行工具更nice!

python 表情包下载器,轻松下载上万个表情包、斗图不用愁...

Python 自动清理电脑垃圾文件,一键启动即可...

有了jmespath,处理python中的json数据就变成了一种享受...

解锁一个新技能,如何在Python代码中使用表情包...

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python 读取PDF文件为文本字符并转换为音频 - Python技术站

(0)
上一篇 2023年4月2日 下午5:46
下一篇 2023年4月2日

相关文章

  • python打包技巧:彻底解决pyinstaller打包exe文件太大的问题

    之前也写过很多的小工具,粉丝朋友们应该都知道在本公众号内回复任意关键字即可获取以往的工具源码或是exe可执行应用。 【阅读全文】 因为以往发过的小工具基本都是几十MB大小的exe应用,也就没有在意exe太大给大家带来的困扰,今天就准备来彻底的解决一下这个问题。 其实每次打包的exe的应用过大无非就是两个方面的语言因导致的,一是我们在开发的代码的过程中为了简便…

    2023年4月2日
    00
  • 又是樱花盛开的季节,使用小乌龟来画一颗樱花树吧

    【阅读全文】 后唐李煜曾说道,樱花落尽春将困,秋千架下归时。漏暗斜月迟迟,花在枝。樱花落尽的时候春天也将过去了,秋千架下归去时。天上的斜月姗姗来迟,花还在枝头。 关于python画图相关的,我们一直使用的是turtle来画,用专业的非标准库来做专业的事儿。将需要使用到的内置库或者非标准库全部都导入到当前的代码块中。 from time import slee…

    2023年4月2日
    00
  • python 获取最新房价信息-以北京房价为例

    整个数据获取的信息是通过房源平台获取的,通过下载网页元素并进行数据提取分析完成整个过程。 【阅读全文】 导入相关的网页下载、数据解析、数据处理库 from fake_useragent import UserAgent # 身份信息生成库 from bs4 import BeautifulSoup # 网页元素解析库 import numpy as np #…

    2023年4月2日
    00
  • 如何实现根据照片获取地理位置及如何防御照片泄漏地理位置

    【阅读全文】 首先,说明一下python确实可以根据照片获取地理位置,但是也是有一定的限制条件的。 获取照片地理位置的实现思路是这样的:通过提取照片中的经纬度信息。然后通过经纬度信息找到具体的地理位置信息。 安装可以读取经纬度信息的python非标准库exifread pip install exifread 将该模块导入到当前代码块中。 import ex…

    2023年4月2日
    00
  • 刚刚发现的可视化动态图库ipyvizzu,太好看了

    ipyvizzu生成的可视化图形是动态的,以前我们生成的可视化图形都是静态不动的。 它是python中的非标准库ipyvizzu,因此使用pip的方式额外安装一下。 【阅读全文】 pip install ipyvizzu 1、小试牛刀 首先,导入绘图相关的库ipyvizzu,以及pandas用来做数据导入操作。 import pandas as pd fro…

    2023年4月2日
    00
  • python 本地音乐播放器制作过程

    制作这个播放器的目的是为了将下载下来的mp3文件进行随机或是顺序的播放。选择需要播放的音乐的路径,选择播放方式,经过测试可以完美的播放本地音乐。 【阅读全文】 在开始之前介绍一个免费下载mp3音乐的网站,有需要的可以下载自己喜欢的音乐。当然有各大音乐平台会员的大佬就不需要了。 http://music.y444.cn/#/ 缺少音乐素材的可以去免费下载即可,…

    2023年4月2日
    00
  • 知识汇总:python办公自动化应该学习哪些内容

    【阅读全文】 当前python自动化越来越受到欢迎,python一度成为了加班族的福音。还有大部分人想利用python自动化来简化工作,不知道从何处下手,所以,这里整理了一下python自动化过程中的各种办公场景以及需要用到的python知识点。 Excel办公自动化 python 针对excel表格处理的非标准库应该是最多的,这也是把excel办公自动化放…

    2023年4月2日
    00
  • 模型已经写好了,怎么表白就看你的了

    【阅读全文】 开始之前先来看看效果图,在控制台输入相应的参数设置即可生成自己独特的表白图。 想要在图片上书写什么样的信息,就看你的发挥了,哈哈哈~ import turtle as tle # 小乌龟绘图库 使用turtle小乌龟画图之前,先进行全局参数初始化的设置,并使得全局初始化函global_init可以动态传参供后面的方便调用。 def global…

    2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部