overlap_ratio：表示重叠率（overlap ratio）或者叫做帧移率（hop size ratio），等于n_fft/hop_size，默认为4（相比于设置为1和2，在设置为4时，实验的合成效果更好），参考paddle istft hop_length overlap_ratio 设置为 4 这个是经过实验得出的结论吗？整体用目前这一套参数是训练出模型是可以正常的吗？因为和论文里的算法不太一样，所以需要和你确认下这一点

我们复现的模型为C8C8I；
在https://github.com/rishikksh20/iSTFTNet-pytorch/blob/ecbf0f635b36432bd3e432790326591bc86cadbc/config_v1.json#L21 中同样采用的是hop_size=4, "n_fft": 1024,"hop_size": 256；

根据这三个参数应该在代码里面被算出来，我们将hop_size和n_fft设置为在代码中计算，overlap_ratio取4，来和论文中设置一致；

另外，我们也尝试了让overlap_ratio= 1, 2，合成的音质会有损失，我们认为这是因为nfft的减小带来了频率分辨率的降低影响了合成的音质。
在overlap_ratio=4时，具体得到的hop_size和nfft和论文不一致，这是因为paddlespeech中hifigan的采用upsample_rates和原始hifigan中不同，paddlespeech中为5,5,4,3，hifigan中为8,8,2,2，如果后两个元素的乘积为4，我们的hop_size和n_fft将和原论文一致，

训练模型是ok的，我们在对应的iSTFTNet.md中给出了50000次的hifigan和istftNet的预训练模型百度网盘链接和实验结果对比

请求审核PR #3111

Description

Activity

lizezheng commented on Mar 30, 2023

lym0302 commented on Apr 3, 2023

lym0302 commented on Apr 3, 2023

longRookie commented on Apr 4, 2023

longRookie commented on Apr 5, 2023

longRookie commented on Apr 5, 2023

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions