Skip to content

这是一个全自动(音频)视频翻译项目。利用Whisper识别声音,AI大模型翻译字幕,最后合并字幕视频,生成翻译后的视频。

License

Notifications You must be signed in to change notification settings

zhuixing05/Chenyme-AAVT

Repository files navigation



英文 下载 群组 Latest Release PyPI - Version License Open In Colab


Note

🌟 如果本项目对您有帮助,记得 Star 🌟 支持一下吧~

📝 推荐识别时使用 Large 模型以获取更好的体验!由于正在备考,更新速度会放缓,感谢理解!

📖 安装教程 | ❓ 常见问题 | 💬 电报群组


项目介绍

Chenyme-AAVT 全自动视频翻译项目 致力于提供一个简便高效且免费的媒体识别与翻译自动化流程,帮助您快速完成音视频字幕的识别、翻译和处理等多种功能,当然目前项目已经不仅仅是帮您识别并翻译声音,还可以自动化生成营销图文、对字幕单独翻译。计划未来会基于现有基本功能继续加入更多有意思的工具,比如 实时识别、口型校正、声音克隆、音色辨别 等等,敬请期待!

当前已支持的基本功能,非全部功能:


20240820210851.jpg


项目亮点

👉 TODO | 待办事项

识别相关

  • 更换更快的Whisper项目
  • 支持本地模型加载
  • 支持个人微调Whisper模型
  • VAD辅助优化
  • 字词级断句优化
  • 更多的语种识别
  • 音色辨别
  • 实时语音翻译

翻译相关

  • 翻译优化
  • 更多的语种翻译
  • 更多的翻译模型
  • 更多的翻译引擎
  • 支持本地大语言模型翻译

视频相关

  • 个性化字幕
  • 更多字幕格式
  • 字幕预览、实时修改
  • 自动化字幕文本校对
  • 双字幕
  • 视频中文配音
  • 声音克隆
  • 口型校对

图文博客

  • 生成图文
  • 更多写作风格
  • 优化生成效率
  • 提高成品率

其他

  • AI助手
  • 视频预览
  • 支持识别和翻译多种语言
  • 支持 全流程本地化、免费化部署
  • 支持对视频 一键生成博客内容、营销图文
  • 支持 自动化翻译二次修改字幕预览视频
  • 支持开启 GPU 加速VAD 辅助FFmpeg 加速
  • 支持使用 ChatGPTClaudeGeminiDeepSeek 等众多大模型翻译引擎

Warning

关于 dll 缺失的公告

这些 dll 缺失 多个依赖 CUDA 和 Pytorch 的项目均有此问题,希望相关官方尽快修复 ~

以下解决方法经过本人验证可有效解决,麻烦给颗🌟Star吧!

 

1. ❌ fbgemm.dll 缺失。此为pytorch对win的mkl文件构建错误,官方已在2.4.1 Beta版本中修正,请遇到后重新 Install.bat,并在菜单栏选择 修复版本(2.4.1)修正

2. ❌ cudnn_ops_infer64_8.dll 缺失,导致启用GPU失败。请前往 github.com/Chenyme/Chenyme-AAVT/releases/tag/V0.9 中下载 CUDA_dll.zip 压缩包解压到CUDA目录 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin 修复


Windows 部署

👉 前置环境:Python、FFmpeg、CUDA 说明

Python | 📖 教程

  • 💡 选择 Python > 3.8 的版本
  • 前往 Python 官网下载 安装程序
  • 运行安装,在安装时请点击 ADD TO PATH 选项

FFMpeg | 📖 教程

  • 💡 若您不知道如何安装编译,请直接在项目Release中的下载 Win 版本,自带编译后的FFMpeg
  • 前往 FFMpeg 官网下载编译好的 Windows 版本
  • 设置 FFmpeg 为环境变量

CUDA(CPU 可忽略) | 📖 教程

  • 💡 推荐使用版本为 CUDA11.8、12.1、12.4
  • 前往 CUDA 官网下载 CUDA 安装程序
  • 安装 CUDA

 


‼️ 请确保前置环境已准备好后再继续下面的步骤‼️

1. 运行部署脚本

  • 前往 Release 页面下载 Win 的最新发行版 (Win/Small)
  • 运行 1_Install.bat,等待脚本检查
  • 通过后根据界面内提示选择版本安装

2. 运行项目Web

  • 运行 2_WebUI.bat
  • 输入 chenymeaavt 进入项目(此为新版本的保护功能,可关闭)

 

ℹ️ WebUI 会自动拉起,若没有自动跳转请手动在浏览器输入localhost:8501


Mac OS 部署

👉 前置环境:Python、Brew 说明

Python

  • 💡 选择 Python > 3.8 的版本
  • 前往 Python 官网下载 PGK 安装包
  • 运行安装,页面内选择标准安装

Brew

  • 💡 使用下面的命令进行一键安装安装 brew
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

 


‼️ 请确保前置环境已准备好后再继续下面的步骤‼️

1. 安装FFMpeg

brew install FFMpeg

2. 安装项目依赖

  • 前往 Release 页面下载 Mac 的最新发行版 (Mac/Small)
  • cd 到项目根路径
pip3 install -r requirements.txt

3. 运行项目Web

streamlit run Chenyme-AAVT
  • 输入 chenymeaavt 进入项目(此为新版本的保护功能,可关闭)

 

ℹ️ WebUI 会自动拉起,若没有自动跳转请手动在浏览器输入localhost:8501


Linux 部署

感谢 @dhlsam 提供此版本

具体使用方法,请查阅:📖 issues/36


Google Colab 部署

感谢 @Kirie233 提供此版本

具体使用方法,请查阅:Open In Colab


Docker 部署

💡 目前 项目最新版本为 V0.9.0 此 Docker 方法的版本为 V0.8.x,

感谢 @Eisaichen 提供此版本

具体使用方法,请查阅:📖 eisai/chenyme-aavt

docker pull eisai/chenyme-aavt


Star History

Star History Chart



主页BOT


11


部分设置


12


音频识别


13


视频识别


14


图文博客


15


字幕翻译


16


声音模拟


17


About

这是一个全自动(音频)视频翻译项目。利用Whisper识别声音,AI大模型翻译字幕,最后合并字幕视频,生成翻译后的视频。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 94.3%
  • Jupyter Notebook 3.0%
  • Batchfile 2.3%
  • Other 0.4%