比赛任务为表格数据的回归问题。特点为train data较大,达到了GB级别。这就导致了在特征工程阶段使用pandas处理速度不够。同时特征维度较高,可进行的特征构造较多。
采取了分批次处理的方法,通常全量数据需要分成20-25个epoch才能完全处理。在进行代码复盘时,参考了高分的参考方案,即针对不同的数据,通过不同的Class来定义数据结构,脱离了pandas的框架进行特征处理,构造的特征以字典的形式返回,加快了特征的处理速度。
进行了多次的特征构造,同时结合了lag特征,滑窗特征和针对不同player和team的统计特征对数据的信息进行抽取。
是否可以结合MLB的专业知识,针对不同的player和team,基于他们的统计特征,先行构造embedding特征,抽取出player和team对应的embedding向量? 是否可以结合spark框架,改进出pyspark版本的code,缩短代码运行的时间?