腾讯2017广告大赛的代码。可惜只排名到了23名,很是可惜。模型很少,融合效果较差。跪在了最后阶段。 本人机器只有16G内存。因此本套代码可以保证运行不会出现要挂通宵的情况(stacking部分除外,这个大概要几小时)。速度相对可观。 最后使用的特征一共50维左右。
具体的参赛过程,特征提取思路请参照我写的博客:http://blog.csdn.net/haphapyear/article/details/75057407
1.特征我们是一个个版本生成的。代码中标有生成步骤。要V1-V9一步步生成。部分文件需要先生成才能进行特征提取。例如用户点击记录等。
2.原始数据放在data/origin下,其余的中间数据按照目录保存
3.第30天的数据,特征生成步骤一样,是后面加上去的。最终模型用上了,原始模型只用了28,29两天来训练。代码在day30目录下。 *第30天的代码有个BUG我已标出。但是我比赛时是带着它调模型的,因此改正后效果比改正前要差点。也许改正BUG后通过调整模型可以得到比原来更好的结果,可以自行尝试。
4.最终模型说明。 用28,29,20天数据生成lgb模型(模型1) 用xgb生成stacking作为特征加上原始特征训练lgb模型(模型2) 用lgb生成stacking作为特征加上原始特征训练xgb模型(模型3) 融合模型:(0.25模型一结果+0.25模型二结果+0.5*模型3) 最终模型:讲融合模型的均值按比例提高到0.0273
原始数据下载地址:http://pan.baidu.com/s/1gflA8T1
附:2018届腾讯社交赛决赛代码:https://github.com/BladeCoda/Tencent2018_Final_Phrase_Presto