Skip to content

Joyce94/LLM-RLHF-Tuning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LLM-RLHF-Tuning

本项目从零实现了RLHF三阶段训练,并在文档中详细写了实现细节,欢迎大家交流讨论WeChat

主要内容:

  • 支持指令微调Alpaca模型
  • 支持训练Reward模型
  • 支持PPO算法训练RL模型(PPO算法实现细节

更新

[23/8/10] 支持基于LLaMA模型训练

使用指引

环境搭建
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb=0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0

支持模型
  • LLaMA
支持训练方式
  • LoRA

训练细节

指令微调模型
训练奖励模型
PPO训练

TODO

  • 支持DeepSpeed训练
  • PPO部分提升训练稳定性
  • 支持LLaMA-2模型
  • 支持BLOOM模型
  • 支持Baichuan模型
  • 支持QLoRA训练

欢迎加群讨论 WeChat

Releases

No releases published

Packages

No packages published