-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请求分享处理数据代码 #7
Comments
我用0填充NAN,这个100为间隔分割学生数据是什么意思?
…---原始邮件---
发件人: ***@***.***>
发送时间: 2024年12月22日(周日) 晚上9:21
收件人: ***@***.***>;
抄送: ***@***.***>;
主题: [PengLinzhi/DyGKT] 请求分享处理数据代码 (Issue #7)
我在assist12上删除skill为NaN的数据,以100为间隔分割学生数据并编码,丢弃小于等于5条的数据,最后用DyGFormer的方法处理数据,但训练结果AUC一直在0.767左右,与论文差0.015。能否分享下数据处理的代码?
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>
|
在论文里你们提到了使用了Ma [16]的数据处理方法,而Ma [16]中提到For calculate effciency, we set the max sequence length to 100 and truncate student learning sequences longer than 100 to several sub-sequences following to [Shen et al., 2021].在assist17上我使用了这个方法,生成的数据只比你们提供的数据集多2个,生成的节点数一致,训练效果一样, |
我想你可能没太理解我们论文里采用动态图的第一个意义在于适应不断动态增长的数据,建议还是再看一下introduction和动态图相关论文。我们只是跟着处理了小于5个数据量的item和user,你可能也没看全实验设置那句话。
…---原始邮件---
发件人: ***@***.***>
发送时间: 2024年12月23日(周一) 中午1:58
收件人: ***@***.***>;
抄送: ***@***.******@***.***>;
主题: Re: [PengLinzhi/DyGKT] 请求分享处理数据代码 (Issue #7)
在论文里你们提到了使用了Ma [16]的数据处理方法,而Ma [16]中提到For calculate effciency, we set the max sequence length to 100 and truncate student learning sequences longer than 100 to several sub-sequences following to [Shen et al., 2021].在assist17上我使用了这个方法,生成的数据只比你们提供的数据集多2个,生成的节点数一致,训练效果一样,
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you commented.Message ID: ***@***.***>
|
谢谢你的回答,我去掉了删除,在assist12上删除skill为NaN的数据,以100为间隔分割学生数据并编码的操作,AUC和AP都达到了论文结果 |
容我再确认一遍,数据处理步骤是:删除小于5次的学生和问题;对学生和问题使用LabelEncoder编码;传到DyGFormer的数据处理模块,对吗? |
学生,题目Filter小于5的,按时间递增排序,传入dygformer数据预处理模块。
序列模型为了方便批量训练才会截取前100个或50个学生做题历史,但这会损伤很多信息并且只能追踪学生刚刚开始学习的过程。
…---原始邮件---
发件人: ***@***.***>
发送时间: 2024年12月23日(周一) 晚上6:27
收件人: ***@***.***>;
抄送: ***@***.******@***.***>;
主题: Re: [PengLinzhi/DyGKT] 请求分享处理数据代码 (Issue #7)
容我再确认一遍,数据处理步骤是:删除小于5次的学生和问题;对学生和问题使用LabelEncoder编码;传到DyGFormer的数据处理模块,对吗?
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you commented.Message ID: ***@***.***>
|
好的,我明白了,模型是在训练过程中生成50个学生历史交互并在此基础上学习,不是在处理输入数据时截取数据 |
不过处理数据时是使用0填充NAN吗,论文里面的assist12数据集描述的数据对应的是丢弃skill中NAN的数据,抛弃skill的交互数量是2, 621.3k,原数据集交互数量是6, 123.2k |
填充0
…---原始邮件---
发件人: ***@***.***>
发送时间: 2024年12月23日(周一) 晚上7:26
收件人: ***@***.***>;
抄送: ***@***.******@***.***>;
主题: Re: [PengLinzhi/DyGKT] 请求分享处理数据代码 (Issue #7)
不过处理数据时是使用0填充NAN吗,论文里面的assist12数据集描述的数据对应的是丢弃skill中NAN的数据,抛弃skill的交互数量是2, 621.3k,原数据集交互数量是6, 123.2k
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you commented.Message ID: ***@***.***>
|
好的,谢谢你的回答 |
我在assist12上删除skill为NaN的数据,以100为间隔分割学生数据并编码,丢弃小于等于5条的数据,最后用DyGFormer的方法处理数据,但训练结果AUC一直在0.767左右,与论文差0.015。能否分享下数据处理的代码?
The text was updated successfully, but these errors were encountered: