关于损失函数的一些问题 #123

IndowK · 2023-09-26T06:39:34Z

作者您好！
我在训练的时候发现损失下降很快，但是结果并不好，我查看了前面有人提出的问题，发现是损失函数的输入维度有问题：
x_real的torchsize是[2,128,80]，而x_identic_psnt的torchsize是[2,1,128,80]，我将x_identic_psnt的第二个维度的数据删除后再输入到损失函数中，发现损失下降到0.0007左右就不再下降了，合成的结果相比修改前好了一点（能听懂）但是没什么语音风格迁移的效果，我想知道是否还有哪些地方是我可以修改的？我在前面的提问中找到了可能需要重新训练wavenet的答案，我想知道作者您是重新训练了wavenet吗？

auspicious3000 · 2023-09-26T21:26:43Z

只要频谱的规格和wavenet是对应的音质就不会差到哪里去。还是autoencoder本身的问题。你的batch size多大？

IndowK · 2023-09-27T05:26:59Z

允许差别的规格和wavenet是对应的音质就不会差到哪里。还是autoencoder本身的问题。你的batch size有多大？

我的batch size设置为2，参数这些我都按照源代码来的，并没有做调整：dim_neck=32，freq=32

auspicious3000 · 2023-09-30T19:33:25Z

数据集是什么呢

IndowK · 2023-10-07T05:57:31Z

我按照论文中的来的，用的是VCTK数据集；我选择了其中mic1的语音，通过audition下采样到16k

auspicious3000 · 2023-10-07T17:58:00Z

那可以试试调bottleneck的参数

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于损失函数的一些问题 #123

关于损失函数的一些问题 #123

IndowK commented Sep 26, 2023

auspicious3000 commented Sep 26, 2023

IndowK commented Sep 27, 2023

auspicious3000 commented Sep 30, 2023

IndowK commented Oct 7, 2023

auspicious3000 commented Oct 7, 2023

关于损失函数的一些问题 #123

关于损失函数的一些问题 #123

Comments

IndowK commented Sep 26, 2023

auspicious3000 commented Sep 26, 2023

IndowK commented Sep 27, 2023

auspicious3000 commented Sep 30, 2023

IndowK commented Oct 7, 2023

auspicious3000 commented Oct 7, 2023