此仓库是基于Tensorflow2.3的评论分类任务,使用Word2vec+(TextCNN/TextRCNN)模型,代码支持二分类和多分类,此项目做了个二元的情感分类。
- python 3.6.7
- tensorflow==2.3.0
- gensim==3.8.3
- jieba==0.42.1
- sklearn==0.0
其他环境见requirements.txt
我的另外一个爬虫项目app_comments_spider中爬取
可以参考我的博客文章01-NLP介绍和词向量和02-词向量第二部分和词义
也可看博客刘建平Pinard和文章技术干货 | 漫谈Word2vec之skip-gram模型
在config.py中配置好各个参数,文件中有详细参数说明
在config.py中的mode中改成train_word2vec并运行
# [train_classifier, interactive_predict, train_word2vec]
mode = 'train_word2vec'
训练好word2vec模型后,开始训练分类器,目前项目支持textcnn/textrcnn模型
# [train_classifier, interactive_predict, train_word2vec]
mode = 'train_classifier'
- textcnn训练结果
- att-textcnn训练结果
- textrcnn训练结果
训练好textcnn可以开始测试
# [train_classifier, interactive_predict, train_word2vec]
mode = 'interactive_predict'
- 交互测试结果