用一个网格7x24个小时的数据预测该网格第7x24+1个小时的in out,如果这个预测in out与真实值的差距大于一个阈值(该阈值最终取3,见Fig3),就把这小时对应的网格当做一个异常的网格,可以达到实时检测的效果
1)过滤掉稀疏的网格,一个网格用一个向量存储2088个小时的in/out,如果2088个值里边有超过三分之一的值为0,则过滤掉,不用该网格的数据进行模型训练。原因:一天24小时,可以有三分之一的时间比如0a.m.-8a.m. 没有in/out,其他时间段有in/out,比较符合该数据合理的直觉,共1317个符合条件的向量,原始数据有104000*2个向量
2)最终训练数据生成:将符合条件的向量用一个24*7的窗口划分
A.为了减少模型过拟合,窗口之间不重合
B.为了增加模型的适用性,划分窗口时加一个offset,使得模型从一周的随便一个小时起开始预测都可以, 最终有大约1317*(2088/(24*7))=16368个训练样本