Giter VIP home page Giter VIP logo

lxp5945 / real_time_datamining_software Goto Github PK

View Code? Open in Web Editor NEW

This project forked from carrychang/real_time_datamining_software

0.0 0.0 0.0 1.9 MB

携程/榛果民宿实时评论挖掘软件,包含数据的实时采集/数据清洗/结构化保存/ UGC 数据主题提取/情感分析/后结构化可视化等技术的综合性演示 Demo。基于在线民宿 UGC 数据的意见挖掘项目,包含数据挖掘和 NLP 相关的处理,负责数据采集、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线 UGC 进行数据挖掘并可视化,demo 视频演示见链接。

Home Page: https://github.com/CarryChang/C-CNN-for-Chinese-Sentiment-Analysis/blob/master/video/demo.mp4

License: Apache License 2.0

Python 100.00%

real_time_datamining_software's Introduction

996.icu

Real_Time_DataMining_Sortware

Stargazers over time

一款能实时进行文本挖掘的软件,不占用多余的存储空间,直接将采集后的数据集中存储在本地txt中,运用本软件无需进行大量的手动翻页操作,输入对应的店铺链接即可对民宿进行分析包含接结构化数据的可视化和非结构化UGC的情感分析,包含数据的实时采集/数据清洗/结构化保存/UGC数据主题提取/情感分析/后结构化可视化等技术的综合性演示demo。基于在线民宿UGC数据的意见挖掘项目,包含数据挖掘和NLP相关的处理,负责数据采集、整句切分、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线UGC进行数据挖掘并可视化,对比顾客直接打分的结果来看,运用机器学习的情感分析方法更能挖掘到详细的顾客意见和对应的合理评分。

软件包含数据采集(txt_analysis/spiders)/清理/可视化(txt_analysis/picturing)部分组成,直接运行Python3 RealTime_UGC_Analysis_GUI.py 即可打开本软件的GUI界面,缺失的库按照提示进行安装即可。
主要功能包括美团/携程在线民宿UGC的原始评论采集、主题分类、实时数据清洗、文本情感分析与后结构化结果可视化展示等模块。
  1. 使用Request模拟浏览实现了美团/携程民宿的实时自动化的采集民宿UGC内容的功能,提取后的民宿地址和在线评论等信息如下。
  1. 单一的UGC情感分析,使用清洗后的用户打分进行标注然后训练的分类模型,然后对切分后的UGC进行分类。
  1. 对提取后的民宿主题进行UGC主题情感分析:如环境
  1. 提取UGC标签,并进行量化可视化
  1. 单家民宿的UGC情感分析结果
  1. UGC顾客打分占比
  1. 分析该民宿第二次以上的预定情况
  1. 通过数据清洗和结构化展示该民宿在不同月份的住宿情况

本软件包含了自己对NLP技术落地的一些实践,针对整句UGC中包含的多主题问题,使用基于词性标注的标点符号切分,将整句切分为多个分句子,然后使用主题字典1的方式对主题进行分类,工作包含数据的实时采集/数据清洗/结构化保存/UGC数据主题提取/情感分析/后结构化可视化等技术的综合性演示demo,对比顾客直接打分的结果来看,运用机器学习的情感分析方法更能挖掘到详细的顾客意见和对应的合理评分。

real_time_datamining_software's People

Contributors

carrychang avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.