Skip to content

关于特征维度 #86

Open
Open
@123go-maker

Description

您好!我看了您在b站的讲解,对于fbank提取后的特征维度有一些疑问。这里输入是2s的采样率为16khz的音频,在dataloader.py中补齐240个采样点即总共32240个采样点,提取fbank的代码中帧长为400采样点,帧移为160个采样点;那么应该得到(32240-400)/160+1=200帧。为什么我在训练过程提取到的二维fbank特征的形状为[batchsize,80,202]?即在时间维度不是应该是200维吗?

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions