prepare() 将按类文件保存的数据原地去重,去除停用词,统一替换地区、时间等
特殊词,merge() 将数据汇总、打乱,保存为 (text, label) 格式
make_pair() 对每条数据取同类组合为正例,从异类数据中抽样 fold 次
组合为反例,汇总、打乱,保存为 (text, pos, neg) 格式
vectorize() 和 vectorize_pair() 分别进行向量化,不处理 label、flag
定义 triple_loss、希望负例与正例的间距之差大于 margin
train 80% / dev 20% 划分,分别通过 dnn、cnn、rnn 构建匹配模型
定义模型的编码部分、按层名载入相应权重,对训练数据进行预编码
使用欧氏距离、省去定义模型的匹配部分,predict() 读取缓存数据
去除停用词,统一替换地区、时间等特殊词,输出相似概率前 3 的语句
取相似概率最大语句的标签,test_pair() 和 test() 分别评估匹配、分类的准确率