KG

definition

 知识图谱的基本单位,便是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组,这也是知识图谱的核心

concept

 “The world is not made of strings , but is made of things.”

 知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。

data type

 结构化数据(Structed Data),如关系数据库

 非结构化数据,如图片、音频、视频

 半结构化数据 如XML、JSON、百科

storage type

 RDF(资源描述框架)这样的规范存储格式来进行存储,比较常用的有Jena等。

  

   

 图数据库来进行存储,常用的有Neo4j等。

  

 

知识图谱的架构

 逻辑架构

  模式层:在数据层之上,是知识图谱的核心,存储经过提炼的知识,通常通过本体库来管理这一层这一层(本体库可以理解为面向对象里的“类”这样一个概念,本体库就储存着知识图谱的类)。 数据层:存储真实的数据。

  模式层:实体-关系-实体,实体-属性-性值 数据层:比尔盖茨-妻子-梅琳达·盖茨,比尔盖茨-总裁-微软

 技术架构

  

构建技术

 

 信息抽取

  信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;

  关系抽取

   研究历史

    人工构造语法和语义规则(模式匹配) 统计机器学习方法 基于特征向量或核函数的有监督学习方法 研究重点转向半监督和无监督 开始研究面向开放域的信息抽取方法 将面向开放域的信息抽取方法和面向封闭领域的传统方法结合

  属性抽取

   研究历史

    将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务。 基于规则和启发式算法,抽取结构化数据 基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。 采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。

  实体抽取 命名实体识别(named entity recognition,NER)

   研究历史

    要是从面向单一领域进行实体抽取,逐步跨步到面向开放域(open domain)的实体抽取。

 知识融合

  存在的问题

   拼图碎片(信息)之间的关系是扁平化的,缺乏层次性和逻辑性; 拼图(知识)中还存在大量冗杂和错误的拼图碎片(信息)

  实体链接

   研究历史

    仅关注如何将从文本中抽取到的实体链接到知识库中,忽视了位于同一文档的实体间存在的语义联系。 开始关注利用实体的共现关系,同时将多个实体链接到知识库中。即集成实体链接(collective entity linking)

   流程

    从文本中通过实体抽取得到实体指称项; 进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义; 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。

  知识合并

   合并外部知识库,主要处理数据层和模式层的冲突 合并关系数据库,有RDB2RDF等方法

 知识加工

  本体构建

   本体(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。

   构建过程

    实体并列关系相似度计算 实体上下位关系抽取 本体的生成

     

  知识推理

   推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性; 推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)

   算法分类

    基于逻辑的推理、基于图的推理和基于深度学习的推理。

     

  质量评估

   质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

 知识更新

  逻辑上

   概念层的更新和数据层的更新。

  内容更新

   全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;

   增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。

应用

 如何从0构建知识图谱 https://mp.weixin.qq.com/s/5G-xon0i5Aq-M4i0rHJPBg