-
Notifications
You must be signed in to change notification settings - Fork 22
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
训练数据生成相关细节问题 #30
Comments
没看懂这段是什么意思。test-acc是测试集的acc吧,那这个测试集和你说的随机生成的字体数据集有什么关系?是在有私有的测试集之外还生成了一个随机数据集?
以及你确定是test-acc?还是你是指train-acc,我有点困惑。 |
感谢您的回复!我再具体一些描述情况。
我是用自己的一些私有字体分别生成了train、val和test三套数据,比例是20:1:6。Resnet训练50epoch后train_acc已经接近1,val_acc在0.82左右,在筛选没有过拟合的模型后,单独运行测试,test_acc在0.83以上。
是指的test_acc,我在tensorboard进行了完整的train和test结果追踪观测。
具体问题就是,我用你在hf提供的预训练模型识别字体(demo.py),能找出和我提供的预测图片字体大致相同的一些字体,但是我用自己训练的模型,识别出来的字体样式和预测图片相差甚远,甚至无法归类为与之相似的字体。 我的具体训练策略如下: 恳请作者能帮我分析下这种情况出现的原因🙏,是不是哪个步骤出了问题,非常感谢! |
这个任务对我来说比较紧急,请问能否加个联系方式?这样交流起来方便高效些。 |
作者你好,您做的这份字体识别工作很棒!
我想请教一些关于数据集生成和模型训练效果的问题。
我有约700种私有字体,目的是用Resnet50模型训练得到较高的字体识别准确度。但是在训练了50epoch,test-acc=0.83的情况下,拿随机生成的字体数据集来测试,准确度却很低,经常出现识别结果和正确结果相差甚远的问题。
我使用你在github提供的字体生成代码生成的数据集,其中背景图采集了约200张动漫/自然场景图,训练集-验证集-测试集比例为500:25:90,即一共500*700=350000张训练数据。
模型test-acc很高但是实际图片测试结果较差,我怀疑是数据集的问题,具体而言,是生成数据集的背景图数量、质量和作者训练时有较大差别。
请问作者能否详细介绍下生成训练用数据集时的背景图选取规则、背景图数量和数据集特征,以及训练数据集数量?这些会对我复现此份工作和提升自己的实验效果有重要帮助,十分感谢!
The text was updated successfully, but these errors were encountered: