entities_risk

|
|---auto_digest   ：做自动摘要相关的一些代码、模型等
|		|
|		|---------（未完待续。。。）
|
|------data
|		|---DATA: 包含了初赛的训练集和测试集
|		|
|		|----NEGATIVE_WORDS.excel: 基于字典情感分析的情感词列表
|		|
|		|---others: 包含了复赛的训练集和测试集，（训练集初赛和一样）
|
|---data_cleans
|		|
|		|--------generate_test_data.py : 生成测试数据集格式，结果用来利用crf++进行预测
|		|
|		|--------generate_train_data.py: 生成训练集，其生成的数据需要使用crf++进行实体训练
|		
|---entity_extraction： 做实体抽取的相关代码模块、模型等
|		|
|		|-----------（未完待续）
|		
|---extra_data
|		|
|		|--------enties.txt: 实体字典 （已改进地方一：将实体字典与模型抽取出的字典进行融合，然后再预测出训练集的实体）
|		|
|		|--------user_dict.txt: 分词所使用的用户自定义字典，包含了所给的情感词
|		
|---feature_data
|		|
|		|-------testdata_pos_ch： 用来抽取实体的测试集原始数据，由data_cleans.generate_test_data.py 生成
|		|
|		|-------testresult: 存放已经经过crf++模型预测出来实体数据集
|		|
|		|-------submission_final_11.tfrecords: 经过情感深度学习模型预测出来的实体情感文件
|		|
|		|-------test.csv、train.csv: 测试集中出现的实体及它的摘要，用来生成情感学习模型需要的tsv格式, 为了处理里面出现的"\r"字符先转成tsv格式，再转tfrecords
|		|
|		|-------test.tfrecords、train.tfrecords、user_dict.tfrecords: 数据集的tfrecords格式
|		|
|		|-------test.tsv：测试集中出现的实体及它的摘要，用来生成情感学习模型需要的tfrecords格式
|		|
|		|-------traintokens_pos_ch.txt: 进行训练crf++模型的训练集,以单字为特征，并且加上了词性特征
|
|---model
|		|-------train_tag_new_2.0: 训练出来的crf++实体抽取模型
|
|---sentiment_analysis：做情感分析的相关代码模块、模型等
|		|
|		|-------（未完待续）
|
|---submission
|		|
|		|-------final_baseline(perfer)_12_18.txt：最终的结果文件
|		|
|		|-------sub_12_18.txt: 不带实体情感的结果文件
|
|---untils
|		|
|		|-------cnn_clound.py: 利用摘要训练实体的情感（需改进的地方：加上关键字、采用预训练词向量进行情感的分类）
|		|
|		|-------data2tfrecords.py: 将使用到的数据集转换为tfrecords格式的数据
|		|
|		|-------get_entities.py: 从测试集中获取crf++模型抽取的实体结果文件并且保存到feature_data.testresult下面
|		|
|		|-------get_result_test_without_emotion.py: 得到submission.sub_12_18.txt文件
|		|
|		|-------get_submission_result_from_tfrecords.py 得到submission.final_baseline(perfer)_12_18.txt文件
|		|
|		|-------tfrecords2data.py: 验证tfrecords格式的数据
|		|
|		|-------tools.py: 该项目所使用的工具函数
|
|---others
|		|
|		|-------crf_test：利用模型进行测试数据生成结果文件，其他的都是该文件的依赖
|		|
|		|-------CRF++-0.58.rar： crf++的工具
|
|

备注：该项目的运行顺序是：

先运行data_cleans-generate_train_data.py 和data_cleans-generate_test_data.py,生成想要的模型训练的测试集和训练集
再运行crf_learn进行实体抽取的模型训练（在虚拟机1里进行训练）生成实体抽取模型
运行untils-get_entities.py 利用训练好的模型进行实体的抽取
运行untils-get_result_test_without_emotion.py 初步获取最终的结果文件，其中包括摘要、关键字等
运行untils-data2tfrecords.py 将所使用的数据集转换为tfrecords格式，其中包括训练集、测试集、字典等，为了进行情感的抽取
运行untils-cnn_clound.py 利用摘要训练实体情感分类模型，产生feature_data-submission_final_11.tfrecords文件
运行untils-get_submission_result_from_tfrecords.py 产生最终的结果文件

htdove / entities_risk Goto Github PK

entities_risk's Introduction

entities_risk

entities_risk's People

Contributors

Stargazers

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent