最后返回视频，音频和画面时长不一致，是对传入的音频有什么特殊要求？ #54

hjj-lmx · 2024-10-11T03:27:14Z

1.mp4

kleinlee · 2024-10-11T04:38:54Z

语音需要16K采样率，单通道。 readme里面有说明。这个视频采样率是24k赫兹。

hjj-lmx · 2024-10-11T04:45:42Z

语音需要16K采样率，单通道。 readme里面有说明。这个视频采样率是24k赫兹。

tran里面的与训练模型怎么转换为可用render.pth，下载后直接使用不了，是解压出来的效果好点，还是哪个预训练的好点

kleinlee · 2024-10-11T09:12:48Z

语音需要16K采样率，单通道。 readme里面有说明。这个视频采样率是24k赫兹。

tran里面的与训练模型怎么转换为可用render.pth，下载后直接使用不了，是解压出来的效果好点，还是哪个预训练的好点

一样的， training的模型使用可以看issue区的回复，提取里面的net_g来使用。

hjj-lmx · 2024-10-11T09:22:54Z

语音需要16K采样率，单通道。 readme里面有说明。这个视频采样率是24k赫兹。

感觉生成的不稳定，有时候嘴巴会在一个区域内晃动 @

5fbfd501-75f7-4df6-b82e-aa989c8c7e54.mp4

hjj-lmx changed the title ~~最后返回视频，音频和画面时长不一致~~ 最后返回视频，音频和画面时长不一致，是对传入的音频有什么特殊要求？ Oct 11, 2024

kleinlee closed this as completed Dec 9, 2024

Provide feedback