使用pyttsx3实现简单tts服务

操作系统:Windows 10_x64
python版本:Python 3.9.2_x64
pyttsx3版本: 2.90
 
pyttsx3是一个tts引擎包装器,可对接SAPI5、NSSS(NSSpeechSynthesizer)、espeak等引擎,实现统一的tts接口。
使用pyttsx3实现简单tts服务

 pyttsx3的地址:https://pypi.org/project/pyttsx3/

使用pyttsx3实现简单tts服务

 帮助文档地址:https://pyttsx3.readthedocs.org/

安装pyttsx3依赖包:

pip install pyttsx3

接口介绍

1、init接口

使用的具体引擎可以在init里面指定:

pyttsx3.init([driverName : string, debug : bool]) → pyttsx3.Engine
 
入参:
driverName : 可选,用于指定tts引擎,若未指定,则使用系统默认引擎。
  • sapi5 - windows环境
  • nsss - Mac OS X环境
  • espeak - 非windows和Mac OS X 的其它系统
debug : 可选,用于指定是否开启调试功能,若未指定,则不开启。
使用pyttsx3实现简单tts服务

 

 2、engine接口

使用init接口初始完毕,会返回engine对象。
engine对象的方法如下:
使用pyttsx3实现简单tts服务

  • connect
注册回调函数用于订阅事件。
入参及出参
connect(topic : string, cb : callable) → dict
topic :订阅事件的名称,有效的名称
cb : 回调函数
返回token信息,可用于后续取消订阅。
 
可用事件如下:
started-utterance
引擎开始说话时触发,回调函数定义如下:
onStartUtterance(name : string) -> None
started-word
引擎说词语时触发,回调函数定义如下:
onStartWord(name : string, location : integer, length : integer) -> None
finished-utterance
引擎说话结束时触发,回调函数定义如下:
onFinishUtterance(name : string, completed : bool) -> None
error
引擎遇到错误时触发,回调函数定义如下:
onError(name : string, exception : Exception) -> None 
  • disconnect
反注册回调函数。
disconnect(token : dict)
token是connect函数返回的数据。 
  • endLoop
结束正在运行的事件循环。 
  • getProperty
获取tts的属性,比如语速、嗓音、音量等。
getProperty(name : string) -> object
参数:
name - 属性名称
object - 属性对象
属性列表:
rate - 语速
voice - 嗓音
voices - 嗓音集,列出 pyttsx3.voice.Voice 里面定义的所有嗓音
volume - 音量 
  • isBusy
判断当前引擎是否在执行文本转语音。
isBusy() -> bool
返回值:
True - 正在执行文本转语音
False - 未执行
  • iterate
当使用外部事件循环时,该方法需要被调用。
 
  • runAndWait
runAndWait() -> None
执行缓存的命令并等待完成。
  • save_to_file
执行语音转文本操作,并生成音频文件。
save_to_file(text : unicode, filename : string, name : string)
参数:
text - 要执行转语音的文本
filename - 文件名称
name - 可选,注册需要通知的关键字
示例:
engine.save_to_file('Hello World' , 'test.mp3')
 
  • say
执行语音转文本操作,并播放文本内容。
say(text : unicode, name : string) -> None
参数:
text - 要执行转语音的文本
name - 可选,注册需要通知的关键字
示例:
engine.say('I will speak this text!', 'speak')
 
  • setProperty
设置tts的属性,比如语速、嗓音、音量等。
setProperty(name, value) -> None
参数:
name - 属性名称
value - 属性值
属性列表:
rate - 语速,设置每分钟说几个字
voice - 嗓音,可以设置不同嗓音的说话人
volume - 音量,介于0到1的小数
 
  • startLoop
开始事件循环。
startLoop([useDriverLoop : bool]) -> None
 
  • stop
停止当前正在运行的文本转语音并清理命令队列。 

使用示例

 1、使用pyttsx3播放语音及生成文件
简单示例:
#! /usr/bin/env python3
#-*- coding:utf-8 -*-

# pip install pyttsx3

import pyttsx3

def onStart(name):
   print('starting',name)

def onWord(name,location,length):
   print('word',name,location,length)

def onEnd(name,completed):
   print('finishing',name,completed)

engine = pyttsx3.init()

# 注册回调函数
engine.connect('started-utterance', onStart)
engine.connect('started-word', onWord)
engine.connect('finished-utterance', onEnd)

# 语音转文本测试(直接播放)
engine.say("I will speak this text")
engine.say('I will speak this text!', 'speak') # 注册 speak 关键字,进行事件通知
engine.say("我可以说话了")

# 语音转文本测试(文件存储到磁盘) 
engine.save_to_file('我可以说话了', 'test.mp3')

# 运行并等待
engine.runAndWait()
运行效果如下:
使用pyttsx3实现简单tts服务

 

2、使用pyttsx3搭建简单的tts服务

这里使用tornado搭建简单的http服务(tornado是一个开源的网络服务器框架),来实现tts服务。
时序如下:
使用pyttsx3实现简单tts服务

 主逻辑代码如下:

def text2File(text,dstFile):
    engine = pyttsx3.init()
    engine.save_to_file(text,dstFile)
    engine.runAndWait()

class MainHandler(tornado.web.RequestHandler):
    def get(self):
        tmpFile = "1.mp3" 
        print("get",self.request.arguments)
        text = self.get_query_argument("text").strip()
        print("text : %s" % text)
        if len(text) > 0 :
            text2File(text,tmpFile)
            self.set_header('content-type', 'audio/mpeg')
            fbin = open(tmpFile,"rb").read()
            self.set_header('Content-Length', len(fbin))
            self.set_header('Content-Disposition', 'attachment;filename="%s"'%tmpFile)
            self.write(fbin)
            self.finish()            
        else:
            self.set_header('content-type', 'application/json')
            self.finish(json.dumps({"result" : "input text "}))
        
    def post(self):
        print("post")
        print(self.request.arguments)

运行效果如下:

使用pyttsx3实现简单tts服务

 

 本文涉及资源下载地址:https://pan.baidu.com/s/1Dc8zlL2fs8p4ebF916WyXQ

使用pyttsx3实现简单tts服务

 

 可关注微信公众号(聊聊博文)后回复 2022040401 获得提取码。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:使用pyttsx3实现简单tts服务 - Python技术站

(0)
上一篇 2023年4月2日 下午5:50
下一篇 2023年4月2日 下午5:51

相关文章

  • FreeSWITCH添加iLBC编码及转码

    操作系统 :CentOS 7.6_x64 FreeSWITCH版本 :1.10.9 一、安装ilbc库 从第三方库里下载指定版本: git clone https://freeswitch.org/stash/scm/sd/libilbc.git 如果下载过慢,可从如下途径获取: 关注微信公众号(聊聊博文,文末可扫码)后回复 20230416 获取。 编译及…

    C语言 2023年4月17日
    00
  • sip消息拆包原理及组包流程

    操作系统 :CentOS 7.6_x64      freeswitch版本 :1.10.9 sofia-sip版本: sofia-sip-1.13.14   freeswitch使用sip协议进行通信,当sip消息超过mtu时,会出现拆包的情况,这里整理下sip消息拆包原理及组包流程。 一、拆包的原理  简单来说:拆包的原因是,sip消息过长,超过mtu值…

    python 2023年4月18日
    00
  • python3使用mutagen进行音频元数据处理

    python版本:python 3.9   mutagen版本:1.46.0 mutagen是一个处理音频元数据的python模块,支持多种音频格式,是一个纯粹的python库,仅依赖python标准库,可在Python 3.7及以上版本运行,支持Linux、Windows 和 macOS系统。  github地址:https://github.com/qu…

    2023年4月2日
    00
  • 自定义Python版本ESL库访问FreeSWITCH

    环境:CentOS 7.6_x64Python版本:3.9.12FreeSWITCH版本 :1.10.9 一、背景描述 ESL库是FreeSWITCH对外提供的接口,使用起来很方便,但该库是基于C语言实现的,Python使用该库的话需要使用源码进行编译。如果使用系统自带的Python版本进行编译,过程会比较流畅,就不描述了。这里记录下使用自定义Python版…

    python 2023年4月25日
    00
  • python使用vosk进行中文语音识别

    操作系统:Windows10 Python版本:3.9.2 vosk是一个离线开源语音识别工具,它可以识别16种语言,包括中文。 这里记录下使用vosk进行中文识别的过程,以便后续查阅。  vosk地址:https://alphacephei.com/vosk/ 一、使用vosk-server进行语音识别  docker方式启动vosk服务 1、获取vosk…

    2023年4月2日
    00
  • python3使用libpcap库进行抓包及数据处理

    python版本:python 3.9 libpcap版本:1.11.0b7 python libpcap库是底层绑定c语言libpcap库的开发包,旨在提供python应用可访问的unix c libpcap库API(以及为win32系统提供的Npcap、WinPcap),直接使用底层c代码,性能很好。 这里记录下Windows 10 环境下python3…

    2023年4月2日
    00
  • 自定义Python版本ESL库访问FreeSWITCH

    环境:CentOS 7.6_x64Python版本:3.9.12FreeSWITCH版本 :1.10.9 一、背景描述 ESL库是FreeSWITCH对外提供的接口,使用起来很方便,但该库是基于C语言实现的,Python使用该库的话需要使用源码进行编译。如果使用系统自带的Python版本进行编译,过程会比较流畅,就不描述了。这里记录下使用自定义Python版…

    python 2023年4月25日
    00
  • FreeSWITCH使用L16编码通信及raw数据提取

    环境:CentOS 7.6_x64 FreeSWITCH版本 :1.10.9 Python版本:3.9.12 一、背景描述 PCM(Pulse Code Modulation,脉冲编码调制)音频数据是未经压缩的音频采样数据,它是由模拟信号经过采样、量化、编码转换成的标准数字音频数据。 在FreeSWITCH中体现为L16编码(switch_pcm.c文件),…

    python 2023年5月8日
    00
合作推广
合作推广
分享本页
返回顶部