请问关于语音信号fft频谱的问题

YANHUO

2013/4/2镜像同步7 回复

请问语音频谱能量图大致是什么样子的曲线。波峰大约在多少HZ，还有大部分能量在多少HZ。谢谢各位，求指导

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

tonyjansan机器人#1 · 2013/4/2

频谱一般不是用曲线表示吧...一般都用亮度（或者渐变色）图来表示（因为二维不够用啊）X轴表示时间，Y轴表示频率，图中被渐变颜色充满，越亮（或者颜色越深，根据定义而定）的地方表示该频段范围的能量越强~ 你可以搞个音频编辑软件导入音频文件看看，一般比较好的音频编辑软件都支持将时域信号转换成频域信息的~ 你说的大部分能量的主语还是语音吗？人声的参考频率范围一般为300Hz~3500Hz 【在 YANHUO 的大作中提到: 】 : 请问语音频谱能量图大致是什么样子的曲线。波峰大约在多少HZ，还有大部分能量在多少HZ。谢谢各位，求指导

buptwangzhe机器人#2 · 2013/4/2

语音最高采样8KHz 【在 YANHUO (烟火) 的大作中提到: 】 : 请问语音频谱能量图大致是什么样子的曲线。波峰大约在多少HZ，还有大部分能量在多少HZ。谢谢各位，求指导

tonyjansan机器人#3 · 2013/4/2

他问的应该是fft后需要收集能量的频带范围而不是采样率吧- -，之所以语音选择8KHz，也是由语音所在的频带特性而决定的（保证频带信息不会因降采而丢失），但这应该是fft之前就应该确定下来的了~另外对于8KHz这种低采含噪的语音信号数据，就不应该选择标准的FFT处理流程了~ SampleRate >= MaxFrequency * 2 【在 buptwangzhe 的大作中提到: 】 : 语音最高采样8KHz :

buptwangzhe机器人#4 · 2013/4/3

唔~表示献丑了。。。。【在 tonyjansan (FOR THOSE WHO DO.) 的大作中提到: 】 : 他问的应该是fft后需要收集能量的频带范围而不是采样率吧- -，之所以语音选择8KHz，也是由语音所在的频带特性而决定的（保证频带信息不会因降采而丢失），但这应该是fft之前就应该确定下来的了~另外对于8KHz这种低采含噪的语音信号数据，就不应该选择标准的FFT处理流程� : SampleRate >= MaxFrequency * 2

YANHUO机器人#5 · 2013/4/3

我做的是把时域波形直接进行fft变换，得到的肯定是一个横轴为频率纵轴为能量的曲线吧。。大部分能量的主语是语音。。谢谢【在 tonyjansan 的大作中提到: 】 : 频谱一般不是用曲线表示吧...一般都用亮度（或者渐变色）图来表示（因为二维不够用啊）X轴表示时间，Y轴表示频率，图中被渐变颜色充满，越亮（或者颜色越深，根据定义而定）的地方表示该频段范围的能量越强~ : 你可以搞个音频编辑软件导入音频文件看看，一般比较好的音频编辑软件都支持将时域信号转换成频域信息的~ : 你说的大部分能量的主语还是语音吗？人声的参考频率范围一般为300Hz~3500Hz : ...................

tonyjansan机器人#6 · 2013/4/4

你描述的那种曲线不叫频谱~而是在1帧中信号能量随频率的变化曲线~ fft处理前你肯定要首先对原始语音数据分帧、音量标准化吧？每一帧经过时频变换都会得到一个频段能量值的数组E[Freq]，这时候直接把这个数组按E(Freq)离散函数绘制在坐标轴在转换成连续函数就是你说的曲线了~ 问题是哪有光考虑一帧的能量分布的~孤立的短时频带能量完全没有意义~一组语音数据肯定会分出多帧数据（步长一般要小于1/2个帧长，专业的东西就不给你解释了，主要你记住就行了）进行fft变换的~得到的是一个二维数组E[Time][Freq]，这些数据绘制成图谱就是一张完整的频谱了~有三个参变量Time、Frequency和Energy~这怎么用二位曲线表达？建议你还是去看看声音信号处理相关的论文和书籍吧~至少要先搞懂什么是时频变换和为什么要进行时频变换~ 【在 YANHUO 的大作中提到: 】 : 我做的是把时域波形直接进行fft变换，得到的肯定是一个横轴为频率纵轴为能量的曲线吧。。大部分能量的主语是语音。。谢谢

YANHUO机器人#7 · 2013/4/12

其实我是试着把一个wav信号的每一帧的能量曲线做一个百分比再相加到一起的。。。谢谢指教【在 tonyjansan 的大作中提到: 】 : 你描述的那种曲线不叫频谱~而是在1帧中信号能量随频率的变化曲线~ : fft处理前你肯定要首先对原始语音数据分帧、音量标准化吧？每一帧经过时频变换都会得到一个频段能量值的数组E[Freq]，这时候直接把这个数组按E(Freq)离散函数绘制在坐标轴在转换成连续函数就是你说的曲线了~ : 问题是哪有光考虑一帧的能量分布的~孤立的短时频带能量完全没有意义~一组语音数据肯定会分出多帧数据（步长一般要小于1/2个帧长，专业的东西就不给你解释了，主要你记住就行了）进行fft变换的~得到的是一个二维数组E[Time][Freq]，这些数据绘制成图谱就是一张完整的频谱了~有三个参变量Time、Frequency和Energy~这怎么用二位曲线表达？ : ...................