本项目从零实现了RLHF三阶段训练,并在文档中详细写了实现细节,欢迎大家交流讨论WeChat
- 支持指令微调Alpaca模型
- 支持训练Reward模型
- 支持PPO算法训练RL模型(PPO算法实现细节)
[23/8/10] 支持基于LLaMA模型训练
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb=0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
- LLaMA
- LoRA
- 支持DeepSpeed训练
- PPO部分提升训练稳定性
- 支持LLaMA-2模型
- 支持BLOOM模型
- 支持Baichuan模型
- 支持QLoRA训练
欢迎加群讨论 WeChat