LLM-RLHF-Tuning

本项目从零实现了RLHF三阶段训练，并在文档中详细写了实现细节，欢迎大家交流讨论WeChat

主要内容：

支持指令微调Alpaca模型
支持训练Reward模型
支持PPO算法训练RL模型（PPO算法实现细节）

更新

[23/8/10] 支持基于LLaMA模型训练

使用指引

环境搭建

accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb=0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0

支持模型

LLaMA

支持训练方式

LoRA

训练细节

指令微调模型

训练指南

训练奖励模型

训练指南

PPO训练

TODO

支持DeepSpeed训练
PPO部分提升训练稳定性
支持LLaMA-2模型
支持BLOOM模型
支持Baichuan模型
支持QLoRA训练

欢迎加群讨论 WeChat

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
assets		assets
pt_data		pt_data
rm_data		rm_data
script		script
sft_data		sft_data
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM-RLHF-Tuning

主要内容：

更新

使用指引

环境搭建

支持模型

支持训练方式

训练细节

指令微调模型

训练奖励模型

PPO训练

TODO

About

Releases

Packages

Languages

Joyce94/LLM-RLHF-Tuning

Folders and files

Latest commit

History

Repository files navigation

LLM-RLHF-Tuning

主要内容：

更新

使用指引

环境搭建

支持模型

支持训练方式

训练细节

指令微调模型

训练奖励模型

PPO训练

TODO

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages