AI Auto Video(Audio) Translation
非常感谢您来到我的 AI Auto Video-Audio Translation 项目!该项目旨在提供一个简单易用的全自动视频(音频)识别、翻译工具,帮助您快速识别声音并翻译生成字幕文件,然后将翻译后的字幕与原视频合并,以便您更快速的实现视频翻译。
- Note :字幕翻译的错位问题会逐步优化。由于考研,更新速度可能会放缓,感谢理解~~~
- Tips:推荐选用 Faster-whisper 和 Large 模型以获得最好的断句、识别体验。
- 命令行模式开发中
- AAVT项目文档-持续更新中
群聊二维码 | 说明 |
---|---|
我是一位学生,目前在备考可能不会及时看issues,还请多多担待。本项目开源,但由于个人技术水平有限,项目的很多地方还不尽人意,在这里欢迎各位大佬和朋友加入群聊交流,有任何问题可以在群里提出,让我们可以一起完善这个项目,感谢支持! |
- 支持
openai
调用和faster-whisper
本地运行。- 支持
GPU
加速、VAD
辅助。- 支持
ChatGPT
、KIMI
、DeepSeek
翻译。- 支持本地大语言模型翻译。
- 支持识别、翻译多种语言。
- 支持输出多种字幕格式。
- 支持对字幕修改、微调、预览。
- 支持对音频直接进行AI总结、问答。
- 支持视频生成博客。
1. 安装 Python >= 3.8
2. 安装 FFmpeg , 并设置 FFmpeg 环境变量
Win+R
快捷键打开运行对话框。- 输入
rundll32 sysdm.cpl,EditEnvironmentVariables
。 - 在用户变量中找到
Path
。 - 点击新建,输入 FFmpeg 的路径。 示例:
D:\APP\ffmpeg\bin
(请根据自己的实际路径调整)。
- 运行
install.bat
,等待安装所有依赖库 - 运行
webui.bat
,启动项目。
项目默认的 Pytorch 为CPU版本,若要使用 GPU,请重新安装 Pytorch
- 安装 CUDA(必须12以上版本)
- 对于 CUDA11,可以参考下方:
CUDA12 之前的版本如何使用
-
卸载之前的CPU版本(若已经运行过
install.bat
)pip uninstall torch -y pip uninstall torchvision -y
-
安装对应版本 PyTorch(请注意版本要和CUDA对应)
-
说明:由于Faster-whisper的最新版本仅支持 CUDA12。对于 CUDA11,当前的有效解决方法是降级ctranslate2。
pip install --force-reinsall ctranslate2==3.24
- 更换更快的Whisper项目
- 支持本地模型加载
- 支持个人微调Whisper模型
- VAD辅助优化
- 字词级断句优化
- 更多的语种识别
- ChatGPT翻译优化*
- 更多的语种翻译
- 更多的翻译模型
- 更多的翻译引擎
- 适配本地大语言模型接口
- 个性化字幕
- 更多字幕格式
- 字幕预览、实时修改
- 自动化字幕文本校对
- 双字幕
- 视频总结、罗列重点
- 视频预览
- AI助手
- 视频生成博客
- 实时语音翻译
- 视频中文配音
本人是 AI 时代的受益者,本项目的开发基本是站在巨人的肩膀上实现的。主要基于 OpenAI 开发的 Whisper 来识别声音和 LLMs 辅助翻译字幕 ,利用 Streamlit 搭建快速使用的 WebUI 界面,以及 FFmpeg 来实现字幕与视频的合并。