BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #10334同步于 2013/4/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

请问关于语音信号fft频谱的问题

YANHUO
2013/4/2镜像同步7 回复
请问语音频谱能量图大致是什么样子的曲线。 波峰大约在多少HZ,还有大部分能量在多少HZ。谢谢各位,求指导
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
tonyjansan机器人#1 · 2013/4/2
频谱一般不是用曲线表示吧...一般都用亮度(或者渐变色)图来表示(因为二维不够用啊)X轴表示时间,Y轴表示频率,图中被渐变颜色充满,越亮(或者颜色越深,根据定义而定)的地方表示该频段范围的能量越强~ 你可以搞个音频编辑软件导入音频文件看看,一般比较好的音频编辑软件都支持将时域信号转换成频域信息的~ 你说的大部分能量的主语还是语音吗?人声的参考频率范围一般为300Hz~3500Hz 【 在 YANHUO 的大作中提到: 】 : 请问语音频谱能量图大致是什么样子的曲线。 波峰大约在多少HZ,还有大部分能量在多少HZ。谢谢各位,求指导
buptwangzhe机器人#2 · 2013/4/2
语音最高采样8KHz 【 在 YANHUO (烟火) 的大作中提到: 】 : 请问语音频谱能量图大致是什么样子的曲线。 波峰大约在多少HZ,还有大部分能量在多少HZ。谢谢各位,求指导
tonyjansan机器人#3 · 2013/4/2
他问的应该是fft后需要收集能量的频带范围而不是采样率吧- -,之所以语音选择8KHz,也是由语音所在的频带特性而决定的(保证频带信息不会因降采而丢失),但这应该是fft之前就应该确定下来的了~另外对于8KHz这种低采含噪的语音信号数据,就不应该选择标准的FFT处理流程了~ SampleRate >= MaxFrequency * 2 【 在 buptwangzhe 的大作中提到: 】 : 语音最高采样8KHz :
buptwangzhe机器人#4 · 2013/4/3
唔~表示献丑了。。。。 【 在 tonyjansan (FOR THOSE WHO DO.) 的大作中提到: 】 : 他问的应该是fft后需要收集能量的频带范围而不是采样率吧- -,之所以语音选择8KHz,也是由语音所在的频带特性而决定的(保证频带信息不会因降采而丢失),但这应该是fft之前就应该确定下来的了~另外对于8KHz这种低采含噪的语音信号数据,就不应该选择标准的FFT处理流程� : SampleRate >= MaxFrequency * 2
YANHUO机器人#5 · 2013/4/3
我做的是把时域波形直接进行fft变换,得到的肯定是一个横轴为频率纵轴为能量的曲线吧。。大部分能量的主语是语音。。谢谢 【 在 tonyjansan 的大作中提到: 】 : 频谱一般不是用曲线表示吧...一般都用亮度(或者渐变色)图来表示(因为二维不够用啊)X轴表示时间,Y轴表示频率,图中被渐变颜色充满,越亮(或者颜色越深,根据定义而定)的地方表示该频段范围的能量越强~ : 你可以搞个音频编辑软件导入音频文件看看,一般比较好的音频编辑软件都支持将时域信号转换成频域信息的~ : 你说的大部分能量的主语还是语音吗?人声的参考频率范围一般为300Hz~3500Hz : ...................
tonyjansan机器人#6 · 2013/4/4
你描述的那种曲线不叫频谱~而是在1帧中信号能量随频率的变化曲线~ fft处理前你肯定要首先对原始语音数据分帧、音量标准化吧?每一帧经过时频变换都会得到一个频段能量值的数组E[Freq],这时候直接把这个数组按E(Freq)离散函数绘制在坐标轴在转换成连续函数就是你说的曲线了~ 问题是哪有光考虑一帧的能量分布的~孤立的短时频带能量完全没有意义~一组语音数据肯定会分出多帧数据(步长一般要小于1/2个帧长,专业的东西就不给你解释了,主要你记住就行了)进行fft变换的~得到的是一个二维数组E[Time][Freq],这些数据绘制成图谱就是一张完整的频谱了~有三个参变量Time、Frequency和Energy~这怎么用二位曲线表达? 建议你还是去看看声音信号处理相关的论文和书籍吧~至少要先搞懂什么是时频变换和为什么要进行时频变换~ 【 在 YANHUO 的大作中提到: 】 : 我做的是把时域波形直接进行fft变换,得到的肯定是一个横轴为频率纵轴为能量的曲线吧。。大部分能量的主语是语音。。谢谢
YANHUO机器人#7 · 2013/4/12
其实我是试着把一个wav信号的每一帧的能量曲线做一个百分比再相加到一起的。。。谢谢指教 【 在 tonyjansan 的大作中提到: 】 : 你描述的那种曲线不叫频谱~而是在1帧中信号能量随频率的变化曲线~ : fft处理前你肯定要首先对原始语音数据分帧、音量标准化吧?每一帧经过时频变换都会得到一个频段能量值的数组E[Freq],这时候直接把这个数组按E(Freq)离散函数绘制在坐标轴在转换成连续函数就是你说的曲线了~ : 问题是哪有光考虑一帧的能量分布的~孤立的短时频带能量完全没有意义~一组语音数据肯定会分出多帧数据(步长一般要小于1/2个帧长,专业的东西就不给你解释了,主要你记住就行了)进行fft变换的~得到的是一个二维数组E[Time][Freq],这些数据绘制成图谱就是一张完整的频谱了~有三个参变量Time、Frequency和Energy~这怎么用二位曲线表达? : ...................