有需要为该开源项目贡献的小伙伴可以联系我哟。

Deep learning for Knowledge-Graph

Deep learning for Knowledge-Graph

探索认知智能系列---趋势：1. 数据融合知识；2. All in LLM。包括知识获取、知识库构建、基于知识库的问答系统系列技术研究与应用。涉及到NLP领域的前沿技术和论文。

资源外链

NLP-Progress

Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks.
paperswithcode

提供了论文和代码。
技术在线

个人日常技术和闲聊网站。

知识图谱的前世今生

序号	文章
1	为什么要将「知识图谱」追溯到 1956 年?

研究总结列表

专题研究

基于知识图谱的对话系统

KG&QA相关理论解析

知识图谱综述
知识图谱的挑战
深度学习与知识图谱
CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System
KBQA
赵汀阳：人工智能的自我意识何以可能？1-3
NLP University 开张大吉--李维老师，Simon Fraser University，博士
ACL 2019 知识图谱的全方位总结

NLP 相关论文解析

中文金融文档结构化研究

Doc2EDAG

知识图谱相关会议

编号	名称	等级	类型	领域
1	ACL	A类	学术会议	人工智能
2	CVPR	A类	学术会议	人工智能
3	ICML	A类	学术会议	人工智能
4	IJCAI	A类	学术会议	人工智能
5	EMNLP	B类	学术会议	人工智能
6	CIKM	B类	学术会议	数据库／数据挖掘／内容检索
7	AAAI	A类	学术会议	人工智能
8	SIGKDD	A类	学术会议	数据库／数据挖掘／内容检索
9	TKDE	A类	学术期刊	(数据库/数据挖掘/内容检索)
10	SIGIR	A类	学术会议	数据库／数据挖掘／内容检索

事理图谱

对话系统技术

关于NLP/对话/KG的商业化相关（仅供交流学习）

主流开源的问答&&对话系统列表

编号	名称	地址
1	questionAnsweringsystem	QuestionAnsweringSystem是一个Java实现的人机问答系统，能够自动分析问题并给出候选答案。
2	QABasedOnMedicaKnowledgeGraph	从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱，并以该知识图谱完成自动问答与分析服务。python
3	DeepPavlov	An open source library for deep learning end-to-end dialog systems and chatbots. python

主流语义平台列表

编号	名称
1	腾讯文智中文语义平台
2	科大讯飞开放语义平台
3	玻森中文语义开放平台
4	哈工大语言云

中英文文本预处理工具列表

编号	名称	主要功能
1	THULAC	中文词法分析工具，支持C++/JAVA/Python by清华
2	LTP	语言技术平台 pylyp LTP的Python封装 by 哈工大
3	HanLP	支持Java
4	结巴分词	中文分词（仅支持分词），Java、python、C++
5	jiagu	提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。Python
6	fudanNLP	中文分词（分词、词性标注、命名实体识别），支持Java
7	deepdive	斯坦福大学的开源知识抽取工具（三元组抽取），支持python
8	FudanDNN-NLP3.0	用于中文分词、命名识别、词性标注、句子分类、语义分析、知识库访问、对话问答,支持Java----复旦大学计算机学院机器人研究实验室所开发的基于深度学习的中文自然语言处理工具
9	Stanford CoreNLP	可进行多语言的词性标注器、命名实体的识别器、解析器（句子与语法结构）、指代消解器（就是在篇章中确定代词指向哪个名词短语的问题）、情感分析器、引导模式学习器、开放信息提取器， Java/Python----- Stanford CoreNLP是斯坦福大学的自然语言处理工具包,工具包需要java的支持

图存储与查询工具

编号	名称	主要功能
1	Neo4j	开源图形数据库，由Java开发。
2	OrientDB	开源的noSQL数据库，可处理文档、图形、传统数据库组件。由Java编写，存储速度快。
3	Virtuoso	支持RDF与SPARQL查询。
4	Titan	可与Gremlin/Hbase进行集成，可实现分布式存储和计算的图数据处理。
5	Apache Jena-IDB	在JAVA下操作RDF。其中TDB是使用triple store的形式对RDF数据提供持久性存储（persistent store），TDB相比RDB、SDB更快且具有扩展性。
6	Cypher	声明式图查询语言，表达高效查询和更新图数据库。
7	Gremlin	一种函数式数据流语言，可以使得用户使用简洁的方式表述复杂的属性图（property graph）的遍历或查询。
8	SPARQL	为RDF开发的一种查询语言和数据获取协议。
9	rdflib	基于Python语言编写的，RDF / XML，N3，NTriples，N-Quads，Turtle，TriX，RDFa和Microdata的解析器和序列化器，支持SPARQL 1.1查询和更新语句。

可视化工具

编号	名称	主要功能
1	ECharts	百度开源工具，API封装完善，简单好用，易上手，但不支持事件处理。
2	Cytoscape.js	针对图形和网络，事件交互性的支持不错，同样易上手。
3	D3.js	使用门槛较高，但支持事件处理器，D3的开销极小，支持大型数据集和交互动画的动态行为，支持图形丰富。

中英文知识图谱数据集列表

编号	名称	应用任务
1	OpenKG	开放知识图谱
2	CN-Probase	大规模中文概念图谱
3	SentiBridge	中文实体情感知识库，刻画人们如何描述某个实体，包含新闻、旅游、餐饮，共计30万对
4	音乐知识图谱	中文音乐知识图谱，歌手、歌曲等信息
5	人物类RDF知识	采集自百科网站的人物类知识，共65万个RDF三元组
6	**旅游景点知识图谱	**旅游景点中文知识图谱是CASIA-KB知识图谱的一部分。抽取自百度百科和互动百科。旅游景点知识图谱可用于地理、生活、娱乐等应用。
7	200万条商品画像数据	本数据是百分点在7年运营过程中积累的产品画像数据的小结，百分点自建了丰富的电商品分类体系和媒体分类体系。
8	中文症状库	这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。
9	cnSchema机场知识图谱	基于cnSchema的机场知识图谱可查询世界各机场的属性，包含名称、时区、机场代码、地理位置（经纬度）等。
10	七律-通用知识图谱	本数据共包含8000万条百科三元组，为七律的一部分子集，后续将持续加大开放。七律-7Lore，是狗尾草科技精心打造的百科知识图谱，是人类世界海量知识的集合，它包含了事物、事实、概念、规则等等。

比赛

ATEC蚂蚁开发者大赛之学习赛--NLP之问题相似度计算--2019-3
百度2019语言与智能技术竞赛之第二赛道--知识驱动对话--2019-4
SMP2019中文人机对话技术评测（ECDT）,子任务：领域分类、意图识别和语义槽填充--Task1:自然语言理解评测--2019-5

思考

知识图谱的构建是一个体系化的工程项目，目前结合深度学习技术以及自然语言处理知识在一定程度上提升了构建的效率并降低了成本。知识图谱的地位在认知智能是一个基础资源设施，基于此可以进行问答、对话、、推荐系统、可解释性的增强等方面的应用。
目前对于垂直领域的知识图谱构建需求较多。应用方面在智能问答和主动式对话系统的实践是比较热点的方向。
个人觉得一套爬虫系统可以为知识库提供动态更新的知识来源。
结合知识/常识的对话系统，更具准确性和多样性，是一个值得研究的方向，可让机器引导用户进行话题的交流。如上面比赛２就是这一方向的应用。　　
自然语言处理/理解目前门槛已经高升到了BERT啦,在绝大数任务中基本都是必提的，基于Transformer做编码器！如何在模型训练中融入知识（可以是多模态）已是目前研究的热点方向，如百度最近提出的ERNIE表示模型就引入这一**，也在下游任务中取得了不错的效果。
知识图谱的表示研究问题（Knowledge Graph Embedding, KGE)是当前的一个研究热点。
多模态数据知识融合应该是领域性机器智能走向通用知识智能的一个重要探索阶段。一是，由于多模态数据自身特点，结构化是非常重要的，结构化后可以极大丰富知识图谱的知识构成，更具丰富的表达。二是，CV、NLP组件化后的若能打通两者并协同工作感觉也比较有意思，比如问答场景的回复内容更丰富，和人们更加自然交流等。
<strong>针对文本数据的结构化，除了选用机器学习方法外，也可以结合正则表达式进行数据的抽取、模型建模的中间处理环节等。如：正则表达式结合深度学习 </strong>
20230226：NLP的发展从2022年的后半程到2023年又是一次范式的变化，随着ChatGPT问世，领域内外无人不晓，在各行各业引起了热列的讨论，国内外大厂纷纷跟进。譬如LLM（Large Language Model）、AIGC（AI Generated Content）、NLP部分细分任务因LLM走向大一统，LLM成为各行各业基础设施等话题层出不穷。ChatGPT的出现一是给人一种惊喜，二是给人新的探索可能，三是对于AI也算一是普及。
- 从体验chatgpt来看，基本上是我把前面的思考全部覆盖了，信息抽取，对话，观点生成，思维链--有推理，可加入新知识进行更新，写代码，最为惊喜的是能一本正经的胡说八道，对于逻辑性问题还能罗列步骤。
- 从论文中进一步了解原理。GPT-1到GPT3的发展，认识Transformer基础架构。
20230521：国内的LLM跟进速度非常快，发布了自研大语言模型，也有开源的，如清华的ChatGLM-6/130b等。围绕LLM的生态发展也很快，各类应用，如Chatpdf，插件等，最近OpenAI发布了ChatGpt IOS版本，更是将LLM的落地推进了一大步，可以畅想未来好多应用都会基于LLM的能力。针对如何基于LLM搭建一些应用，开源框架LangChain迭代速度非常快，基本几行代码就能让你快速体验如基于个人文档的问答，向量的计算，存储等，方便快捷，推荐大家学习和使用。针对文本，其实大多数文本是非结构化的，如pdf，word，html等需要基于其他工具结构化，langchain也提供了开源方式。LLM私有化部署+本地化知识接入+插件化扩展LLM的能力是当前发展的方向。

Star History

说明

以上内容均为个人在学习过程的相关整理（包含互联网内容、个人整理笔记等），希望对研究学习认知智能领域的小伙伴有帮助。

Contact

CSDN
个人网站
wiki-技术总结
邮箱：[email protected]
更新时间：2023.5.21
李航航

lihanghang / nlp-knowledge-graph Goto Github PK

nlp-knowledge-graph's Introduction

Deep learning for Knowledge-Graph

资源外链

知识图谱的前世今生

研究总结列表

专题研究

KG&QA相关理论解析

NLP 相关论文解析

中文金融文档结构化研究

知识图谱相关会议

事理图谱

对话系统技术

关于NLP/对话/KG的商业化相关（仅供交流学习）

主流开源的问答&&对话系统列表

主流语义平台列表

中英文文本预处理工具列表

图存储与查询工具

可视化工具

中英文知识图谱数据集列表

比赛

思考

Star History

说明

Contact

nlp-knowledge-graph's People

Contributors

Stargazers

Watchers

Forkers

nlp-knowledge-graph's Issues

Recommend Projects

Recommend Topics

Recommend Org