Skip to content

Commit

Permalink
update code
Browse files Browse the repository at this point in the history
  • Loading branch information
Joyce94 committed Aug 13, 2023
1 parent 33cf2e6 commit f9fef6c
Showing 1 changed file with 10 additions and 4 deletions.
14 changes: 10 additions & 4 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
# LLM-RLHF-Tuning

本项目从零实现了RLHF三阶段训练,并在文档中详细写了实现细节,欢迎大家交流讨论
本项目从零实现了RLHF三阶段训练,并在文档中详细写了实现细节,欢迎大家交流讨论[WeChat](assets/RLHF讨论群.jpeg)

### 主要内容:
- 支持指令微调Alpaca模型
Expand All @@ -9,7 +9,7 @@


### 更新
[23/8/10] 支持基于LLaMA模型训练
[23/8/10] 支持LLaMA模型训练


### 使用指引
Expand All @@ -34,7 +34,7 @@ trl==0.5.0
##### 支持训练方式
- LoRA

#### 训练细节
### 训练细节
##### 指令微调模型
- [训练指南](https://github.com/Joyce94/LLM-RLHF-Tuning/wiki/%E6%8C%87%E4%BB%A4%E5%BE%AE%E8%B0%83%E6%A8%A1%E5%9E%8B)

Expand All @@ -47,7 +47,13 @@ trl==0.5.0
- [PPO算法实现细节](https://zhuanlan.zhihu.com/p/649665766)


#### TODO
### TODO
- 支持DeepSpeed训练
- PPO部分提升训练稳定性
- 支持LLaMA-2模型
- 支持BLOOM模型
- 支持Baichuan模型
- 支持QLoRA训练


欢迎加群讨论 [WeChat](assets/RLHF讨论群.jpeg)
Expand Down

0 comments on commit f9fef6c

Please sign in to comment.