理解MPEG声学模型中短窗和长窗的判决和使用

在MPEG多层声频编码中,声学模型中用了2种长度的FFT,1024长度的长FFT和3个256长度的短FFT;
得到的结果一起使用,转变成另一组513维的数据数组;再转变到一个63维的数组;
以此同时,还得到帧内总能量,根据能量大小,决定本次MDCT的加权系数选择,我们有四种加权系数窗口,可以分为,一般窗,开始窗,结束窗和短时窗四种;一般窗的能量小,短时窗的能量大,而开始窗和结束窗则是前面两种窗的过渡窗;
从信号的能量大小,引致MDCT的加权系数的改变,当然还有其他的编码影响,这是什么原因呢?
我觉得这里根本上,是要区分能量的大小问题,这是频域声频编码的核心。能量小的信号,由于掩蔽效应基本上不用或用很少的编码带宽,尽量把编码带宽用在能量大的声频帧中。用短窗可以得到MDCT的中频和高频段被boost的效果。
有人说长窗的可以提供最细的频谱解析度,短窗可以提供最细的时间解析度,我需要时间来理解这句话。

登录后才可评论.