MBA课程体验教学:使用Scrapy框架去抓取新闻网站,使用Elasticsearch构建新闻搜索引擎,使用Python做新闻文本分析
这个工程主要分为三个部分
- 第一部分负责抓取指定的新闻的网页信息,并存取到JSON文件中,在News_Scrapy文件夹中
- 第二部分是建立相应的新闻搜索引擎,提供搜索,在News_Index文件夹中
- 第三部分是对新闻的文本进行聚类主题发现以及实体的新闻极性分析,在News_Analysis文件夹中
本项目基于https://github.com/liuguiyangnwpu/NewsSearch 项目进行更改,爬虫相关详细内容请看个人博客!