第六届泰迪杯数据挖掘竞赛C题 三等奖
data文件夹里为题目数据
参考资料文件夹里为准备的参考资料
支撑材料文件夹里为程序与处理的数据
利用Python对所给的数据进行预处理,预处理主要从三个方面进行:分词、去除停用词和训练词向量。将问题、回答与标签进行排列,排列为(Q,A,L)格式。 根据预处理的词向量,建立了一个索引词典,将问题和答案转换为索引表示。然后,借助基于tensorflow的Keras平台搭建出LSTM的双输入单输出的深度网络模型,使用预训练的词向量作为嵌入层参数,将问题和答案的索引列表分别输入到模型中进行训练。