Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

训练数据生成相关细节问题 #30

Open
ArmandAlbert opened this issue Dec 16, 2024 · 3 comments
Open

训练数据生成相关细节问题 #30

ArmandAlbert opened this issue Dec 16, 2024 · 3 comments

Comments

@ArmandAlbert
Copy link

作者你好,您做的这份字体识别工作很棒!
我想请教一些关于数据集生成和模型训练效果的问题。

我有约700种私有字体,目的是用Resnet50模型训练得到较高的字体识别准确度。但是在训练了50epoch,test-acc=0.83的情况下,拿随机生成的字体数据集来测试,准确度却很低,经常出现识别结果和正确结果相差甚远的问题。

我使用你在github提供的字体生成代码生成的数据集,其中背景图采集了约200张动漫/自然场景图,训练集-验证集-测试集比例为500:25:90,即一共500*700=350000张训练数据。

模型test-acc很高但是实际图片测试结果较差,我怀疑是数据集的问题,具体而言,是生成数据集的背景图数量、质量和作者训练时有较大差别。
请问作者能否详细介绍下生成训练用数据集时的背景图选取规则背景图数量数据集特征,以及训练数据集数量?这些会对我复现此份工作和提升自己的实验效果有重要帮助,十分感谢!

@JeffersonQin
Copy link
Owner

作者你好,您做的这份字体识别工作很棒!
我想请教一些关于数据集生成和模型训练效果的问题。

我有约700种私有字体,目的是用Resnet50模型训练得到较高的字体识别准确度。但是在训练了50epoch,test-acc=0.83的情况下,拿随机生成的字体数据集来测试,准确度却很低,经常出现识别结果和正确结果相差甚远的问题。

没看懂这段是什么意思。test-acc是测试集的acc吧,那这个测试集和你说的随机生成的字体数据集有什么关系?是在有私有的测试集之外还生成了一个随机数据集?

我使用你在github提供的字体生成代码生成的数据集,其中背景图采集了约200张动漫/自然场景图,训练集-验证集-测试集比例为500:25:90,即一共500*700=350000张训练数据。

模型test-acc很高但是实际图片测试结果较差,我怀疑是数据集的问题,具体而言,是生成数据集的背景图数量、质量和作者训练时有较大差别。
请问作者能否详细介绍下生成训练用数据集时的背景图选取规则背景图数量数据集特征,以及训练数据集数量?这些会对我复现此份工作和提升自己的实验效果有重要帮助,十分感谢!

以及你确定是test-acc?还是你是指train-acc,我有点困惑。

@ArmandAlbert
Copy link
Author

感谢您的回复!我再具体一些描述情况。

没看懂这段是什么意思。test-acc是测试集的acc吧,那这个测试集和你说的随机生成的字体数据集有什么关系?是在有私有的测试集之外还生成了一个随机数据集?

我是用自己的一些私有字体分别生成了train、val和test三套数据,比例是20:1:6。Resnet训练50epoch后train_acc已经接近1,val_acc在0.82左右,在筛选没有过拟合的模型后,单独运行测试,test_acc在0.83以上。
然后遇到了上述问题。(但是在训练了50epoch,test-acc=0.83的情况下,拿随机生成的字体数据集来测试,准确度却很低,经常出现识别结果和正确结果相差甚远的问题。)

以及你确定是test-acc?还是你是指train-acc,我有点困惑。

是指的test_acc,我在tensorboard进行了完整的train和test结果追踪观测。

请问作者能否详细介绍下生成训练用数据集时的背景图选取规则、背景图数量和数据集特征,以及训练数据集数量?这些会对我复现此份工作和提升自己的实验效果有重要帮助,十分感谢!

具体问题就是,我用你在hf提供的预训练模型识别字体(demo.py),能找出和我提供的预测图片字体大致相同的一些字体,但是我用自己训练的模型,识别出来的字体样式和预测图片相差甚远,甚至无法归类为与之相似的字体。
关于我自己的疑问,在固定了模型和训练策略的情况下,我推测是我生成的数据集数量、比例或质量存在问题,现在已经10倍扩大了训练数据,正开始新一轮训练,看看结果是否会提升。

我的具体训练策略如下:
202500张train数据,10125张val数据,20250张test数据。50epoch。
0.001学习率,v1数据增强,图像大小512*512,batchsize16。

恳请作者能帮我分析下这种情况出现的原因🙏,是不是哪个步骤出了问题,非常感谢!

@ArmandAlbert
Copy link
Author

作者你好,您做的这份字体识别工作很棒!
我想请教一些关于数据集生成和模型训练效果的问题。
我有约700种私有字体,目的是用Resnet50模型训练得到较高的字体识别准确度。但是在训练了50epoch,test-acc=0.83的情况下,拿随机生成的字体数据集来测试,准确度却很低,经常出现识别结果和正确结果相差甚远的问题。

没看懂这段是什么意思。test-acc是测试集的acc吧,那这个测试集和你说的随机生成的字体数据集有什么关系?是在有私有的测试集之外还生成了一个随机数据集?

我使用你在github提供的字体生成代码生成的数据集,其中背景图采集了约200张动漫/自然场景图,训练集-验证集-测试集比例为500:25:90,即一共500*700=350000张训练数据。
模型test-acc很高但是实际图片测试结果较差,我怀疑是数据集的问题,具体而言,是生成数据集的背景图数量、质量和作者训练时有较大差别。
请问作者能否详细介绍下生成训练用数据集时的背景图选取规则背景图数量数据集特征,以及训练数据集数量?这些会对我复现此份工作和提升自己的实验效果有重要帮助,十分感谢!

以及你确定是test-acc?还是你是指train-acc,我有点困惑。

这个任务对我来说比较紧急,请问能否加个联系方式?这样交流起来方便高效些。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants