Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于loss的走势? #4

Open
gi2wzh opened this issue Dec 5, 2024 · 10 comments
Open

关于loss的走势? #4

gi2wzh opened this issue Dec 5, 2024 · 10 comments

Comments

@gi2wzh
Copy link

gi2wzh commented Dec 5, 2024

您好,最近我也在训练一个多模态的小模型。请问下,可以公开下你的训练的loss图吗?我想看看loss是怎么降低的

@wyf3
Copy link
Owner

wyf3 commented Dec 5, 2024

您好,最近我也在训练一个多模态的小模型。请你下,可以公开下你的训练的loss图吗?看看loss是怎么降低的

screenshot-20241205-203004
这是预训练的损失变化图,SFT训练的中间过程被删除了,只剩下权重了,损失变化暂时看不到

@gi2wzh
Copy link
Author

gi2wzh commented Dec 6, 2024

您好,最近我也在训练一个多模态的小模型。请你下,可以公开下你的训练的loss图吗?看看loss是怎么降低的

screenshot-20241205-203004 这是预训练的损失变化图,SFT训练的中间过程被删除了,只剩下权重了,损失变化暂时看不到

image
我也练了一个,模型用的你这个,数据也是,但是loss是这样的。只有一个epoch训练完之后loss下降,中间loss几乎都不怎么变。总感觉有问题,您遇到过吗

@wyf3
Copy link
Owner

wyf3 commented Dec 6, 2024

您好,最近我也在训练一个多模态的小模型。请你下,可以公开下你的训练的loss图吗?看看loss是怎么降低的

screenshot-20241205-203004 这是预训练的损失变化图,SFT训练的中间过程被删除了,只剩下权重了,损失变化暂时看不到

image 我也练了一个,模型用的你这个,数据也是,但是loss是这样的。只有一个epoch训练完之后loss下降,中间loss几乎都不怎么变。总感觉有问题,您遇到过吗

权重是怎么冻结的

@wyf3
Copy link
Owner

wyf3 commented Dec 6, 2024

您好,最近我也在训练一个多模态的小模型。请你下,可以公开下你的训练的loss图吗?看看loss是怎么降低的

screenshot-20241205-203004 这是预训练的损失变化图,SFT训练的中间过程被删除了,只剩下权重了,损失变化暂时看不到

image 我也练了一个,模型用的你这个,数据也是,但是loss是这样的。只有一个epoch训练完之后loss下降,中间loss几乎都不怎么变。总感觉有问题,您遇到过吗

如果是只训练视觉投影层的权重,还是出现这种情况,可以考虑只训练一个epoch。我看llavaonevision在训练的时候基本上是都训练一个epoch,我当时可能训练的epoch有点多了

@gi2wzh
Copy link
Author

gi2wzh commented Dec 6, 2024

您好,最近我也在训练一个多模态的小模型。请你下,可以公开下你的训练的loss图吗?看看loss是怎么降低的

screenshot-20241205-203004 这是预训练的损失变化图,SFT训练的中间过程被删除了,只剩下权重了,损失变化暂时看不到

image 我也练了一个,模型用的你这个,数据也是,但是loss是这样的。只有一个epoch训练完之后loss下降,中间loss几乎都不怎么变。总感觉有问题,您遇到过吗

如果是只训练视觉投影层的权重,还是出现这种情况,可以考虑只训练一个epoch。我看llavaonevision在训练的时候基本上是都训练一个epoch,我当时可能训练的epoch有点多了

对,训练的是投影层。但是我在想,为什么训练完一个epoch,loss就会下降一部分,但是中间为什么不下降呢?

我看你那个loss好像没有出现这个现象

@wyf3
Copy link
Owner

wyf3 commented Dec 6, 2024

您好,最近我也在训练一个多模态的小模型。请你下,可以公开下你的训练的loss图吗?看看loss是怎么降低的

screenshot-20241205-203004 这是预训练的损失变化图,SFT训练的中间过程被删除了,只剩下权重了,损失变化暂时看不到

image 我也练了一个,模型用的你这个,数据也是,但是loss是这样的。只有一个epoch训练完之后loss下降,中间loss几乎都不怎么变。总感觉有问题,您遇到过吗

如果是只训练视觉投影层的权重,还是出现这种情况,可以考虑只训练一个epoch。我看llavaonevision在训练的时候基本上是都训练一个epoch,我当时可能训练的epoch有点多了

对,训练的是投影层。但是我在想,为什么训练完一个epoch,loss就会下降一部分,但是中间为什么不下降呢?

我看你那个loss好像没有出现这个现象

呈这种阶梯式下降其实就是过拟合了,我那个其实仔细看,也是有一点点这个问题的,可能是batchsize的问题

@BaolanChen
Copy link

大模型训练经常出现阶梯型loss变化

@gi2wzh
Copy link
Author

gi2wzh commented Dec 6, 2024

大模型训练经常出现阶梯型loss变化

那这是过拟合吗,大佬 ,还是正常现象? @BaolanChen

@BaolanChen
Copy link

大模型训练经常出现阶梯型loss变化

那这是过拟合吗,大佬 ,还是正常现象? @BaolanChen

现在的现象是大模型训练loss经常成阶梯型,这是正常的训练结果。具体是什么原因还都在进行推测研究。具体看需要训练几个epoch还是自己找验证数据测试一下指标比较好。

@BrenchCC
Copy link

BrenchCC commented Dec 9, 2024

大模型训练经常出现阶梯型loss变化

那这是过拟合吗,大佬 ,还是正常现象? @BaolanChen

不过大模型过拟合有时候不一定是不好的事情,可能是格式过拟合了也许是好事,也可能是 answer 过拟合了这种就不符合期望,大部分都是由于数据本身的问题以及训练epoch的问题

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants