请求分享处理数据代码 #7

theuserroot · 2024-12-22T13:21:07Z

我在assist12上删除skill为NaN的数据，以100为间隔分割学生数据并编码，丢弃小于等于5条的数据，最后用DyGFormer的方法处理数据，但训练结果AUC一直在0.767左右，与论文差0.015。能否分享下数据处理的代码？

PengLinzhi · 2024-12-22T14:25:44Z

我用0填充NAN，这个100为间隔分割学生数据是什么意思？

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年12月22日(周日) 晚上9:21 收件人: ***@***.***>; 抄送: ***@***.***>; 主题: [PengLinzhi/DyGKT] 请求分享处理数据代码 (Issue #7) 我在assist12上删除skill为NaN的数据，以100为间隔分割学生数据并编码，丢弃小于等于5条的数据，最后用DyGFormer的方法处理数据，但训练结果AUC一直在0.767左右，与论文差0.015。能否分享下数据处理的代码？ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

theuserroot · 2024-12-23T05:58:02Z

在论文里你们提到了使用了Ma [16]的数据处理方法，而Ma [16]中提到For calculate effciency, we set the max sequence length to 100 and truncate student learning sequences longer than 100 to several sub-sequences following to [Shen et al., 2021].在assist17上我使用了这个方法，生成的数据只比你们提供的数据集多2个，生成的节点数一致，训练效果一样，

PengLinzhi · 2024-12-23T06:08:08Z

我想你可能没太理解我们论文里采用动态图的第一个意义在于适应不断动态增长的数据，建议还是再看一下introduction和动态图相关论文。我们只是跟着处理了小于5个数据量的item和user，你可能也没看全实验设置那句话。

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年12月23日(周一) 中午1:58 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [PengLinzhi/DyGKT] 请求分享处理数据代码 (Issue #7) 在论文里你们提到了使用了Ma [16]的数据处理方法，而Ma [16]中提到For calculate effciency, we set the max sequence length to 100 and truncate student learning sequences longer than 100 to several sub-sequences following to [Shen et al., 2021].在assist17上我使用了这个方法，生成的数据只比你们提供的数据集多2个，生成的节点数一致，训练效果一样， — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

theuserroot · 2024-12-23T10:24:57Z

谢谢你的回答，我去掉了删除，在assist12上删除skill为NaN的数据，以100为间隔分割学生数据并编码的操作，AUC和AP都达到了论文结果

theuserroot · 2024-12-23T10:27:04Z

容我再确认一遍，数据处理步骤是：删除小于5次的学生和问题；对学生和问题使用LabelEncoder编码；传到DyGFormer的数据处理模块，对吗？

PengLinzhi · 2024-12-23T11:00:18Z

学生，题目Filter小于5的，按时间递增排序，传入dygformer数据预处理模块。序列模型为了方便批量训练才会截取前100个或50个学生做题历史，但这会损伤很多信息并且只能追踪学生刚刚开始学习的过程。

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年12月23日(周一) 晚上6:27 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [PengLinzhi/DyGKT] 请求分享处理数据代码 (Issue #7) 容我再确认一遍，数据处理步骤是：删除小于5次的学生和问题；对学生和问题使用LabelEncoder编码；传到DyGFormer的数据处理模块，对吗？ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

theuserroot · 2024-12-23T11:19:34Z

好的，我明白了，模型是在训练过程中生成50个学生历史交互并在此基础上学习，不是在处理输入数据时截取数据

theuserroot · 2024-12-23T11:25:58Z

不过处理数据时是使用0填充NAN吗，论文里面的assist12数据集描述的数据对应的是丢弃skill中NAN的数据，抛弃skill的交互数量是2, 621.3k，原数据集交互数量是6, 123.2k

PengLinzhi · 2024-12-23T11:52:02Z

填充0

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年12月23日(周一) 晚上7:26 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [PengLinzhi/DyGKT] 请求分享处理数据代码 (Issue #7) 不过处理数据时是使用0填充NAN吗，论文里面的assist12数据集描述的数据对应的是丢弃skill中NAN的数据，抛弃skill的交互数量是2, 621.3k，原数据集交互数量是6, 123.2k — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

theuserroot · 2024-12-23T11:58:35Z

好的，谢谢你的回答

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请求分享处理数据代码 #7

请求分享处理数据代码 #7

theuserroot commented Dec 22, 2024

PengLinzhi commented Dec 22, 2024 via email

theuserroot commented Dec 23, 2024

PengLinzhi commented Dec 23, 2024 via email

theuserroot commented Dec 23, 2024

theuserroot commented Dec 23, 2024

PengLinzhi commented Dec 23, 2024 via email

theuserroot commented Dec 23, 2024

theuserroot commented Dec 23, 2024

PengLinzhi commented Dec 23, 2024 via email

theuserroot commented Dec 23, 2024

请求分享处理数据代码 #7

请求分享处理数据代码 #7

Comments

theuserroot commented Dec 22, 2024

PengLinzhi commented Dec 22, 2024 via email

theuserroot commented Dec 23, 2024

PengLinzhi commented Dec 23, 2024 via email

theuserroot commented Dec 23, 2024

theuserroot commented Dec 23, 2024

PengLinzhi commented Dec 23, 2024 via email

theuserroot commented Dec 23, 2024

theuserroot commented Dec 23, 2024

PengLinzhi commented Dec 23, 2024 via email

theuserroot commented Dec 23, 2024