We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
您好!我看了您在b站的讲解,对于fbank提取后的特征维度有一些疑问。这里输入是2s的采样率为16khz的音频,在dataloader.py中补齐240个采样点即总共32240个采样点,提取fbank的代码中帧长为400采样点,帧移为160个采样点;那么应该得到(32240-400)/160+1=200帧。为什么我在训练过程提取到的二维fbank特征的形状为[batchsize,80,202]?即在时间维度不是应该是200维吗?