【发布时间】:2023-04-04 13:55:01
【问题描述】:
我目前正在尝试根据音频文件对情绪进行分类(7 类)。我做的第一件事是使用 python_speech_features 库 (https://python-speech-features.readthedocs.io/en/latest/#functions-provided-in-python-speech-features-module) 中的 mfcc 函数提取特征。
在文档中,它说每一行都包含一个特征向量。问题是每个音频文件返回不同数量的行(特征),因为音频长度不同。例如,对于 audio_1,输出的形状是 (155,13),对于 audio_2,输出的形状是 (258,13)。关于如何使它们具有相同形状的任何建议?我目前正在使用 PCA 来强制数据具有相同的维度,这是正确的方法吗?
这就是我提取特征的方式:
sample_rate, data = wavfile.read(path)
mfccExtract = features.mfcc(data, sample_rate, winfunc=np.hamming)
【问题讨论】:
标签:
python
speech-recognition
feature-extraction
mfcc
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python中的特征提取语音(梅尔频率倒谱系数) - Python技术站