-
题名基于语义一致性的集成实体链接算法
被引量:10
- 1
-
-
作者
刘峤
钟云
刘瑶
吴祖峰
秦志光
-
机构
电子科技大学信息与软件工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第8期1696-1708,共13页
-
基金
国家自然科学基金项目(61133016
61272527
+2 种基金
61202445)
国家自然科学基金青年项目(61502087)
中央高校基本科研业务费专项资金项目(ZYGX2014J066)~~
-
文摘
实体链接任务的目标是将从文本中抽取得到的实体指称项正确地链接到知识库中的对应实体对象上.当前主流的实体链接算法大致可分为2类:基于上下文相似度的实体链接算法和基于图的集成实体链接算法.这2类算法各自存在一些优点和不足.前者有利于从上下文语义的角度对实体进行区分,但难以充分利用知识库中已有的知识体系辅助决策;后者能够更好地利用知识库中实体间的语义关联关系,但在上下文信息不充分的情况下,较难区分概念相近的实体.提出一种基于语义一致性的集成实体链接算法,该算法能够更好地利用知识库中实体间的结构化语义关系,帮助提高算法对概念相似实体的区分度,实验结果表明:该算法能够有效提高实体链接结果的准确率和召回率,性能显著优于当前的主流算法,在对长、短文本的实体链接任务中性能表现稳定,具有良好的适应性和可推广性.
-
关键词
集成实体链接
信息抽取
知识库扩容
个性化PageRank
语义相关性
-
Keywords
collective entity linking
information retrieval
knowledge base population
personalized PageRank
semantic correlation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于图的中文集成实体链接算法
被引量:8
- 2
-
-
作者
刘峤
钟云
李杨
刘瑶
秦志光
-
机构
电子科技大学信息与软件工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第2期270-283,共14页
-
基金
国家自然科学基金项目(61133016
61272527
+2 种基金
61202445)
教育部-中国移动科研基金项目(MCM20121041)
中央高校基本科研业务费专项资金(ZYGX2014J066)~~
-
文摘
实体链接(entity linking)是知识库扩容的核心关键技术,传统的实体链接方法通常受制于本地知识库的知识水平,而且忽略共现实体间的语义相关性.提出了一种基于图的中文集成实体链接方法,不仅能够充分利用知识库中实体间的结构化关系,而且能够通过增量证据挖掘获取外部知识,从而实现对同一文本中出现的多个歧义实体的批量实体链接.在开放域公开测试语料上的实验结果表明,所提出的实体相关图构造方法、增量证据挖掘方法和实体语义一致性判据是有效的,算法整体性能一致且显著地优于当前的主流算法.
-
关键词
集成实体链接
知识库扩容
知识图谱
实体相关图
中文信息处理
-
Keywords
collective entity linking
knowledge base population
knowledge graph
referent graph
Chinese information processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双层随机游走的关系推理算法
被引量:13
- 3
-
-
作者
刘峤
韩明皓
江浏祎
刘瑶
耿技
-
机构
电子科技大学信息与软件工程学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2017年第6期1275-1290,共16页
-
基金
国家自然科学基金重点项目(61133016
U1401257)
+1 种基金
国家自然科学基金青年项目(61502087)
四川省高新技术及产业化面上项目(2017GZ0308)~~
-
文摘
关系推理是知识库构建的关键技术之一,典型应用场景包括关系预测和实体链接等.关系推理研究的问题是如何利用知识库中已有的知识推理得到新的知识.当前主流知识库采用的推理模型包括潜在因子模型和随机游走模型.前者将实体和关系映射到一个低维实数向量空间,通过向量相似度计算实现推理.后者基于一阶谓词逻辑进行实体间的关系推理,通过随机算法降低算法复杂度.比较而言,前者由于需要进行大规模矩阵运算而计算复杂度较高,后者则因为采用了随机采样方法,难以完全利用知识库中已有的结构化信息,而导致召回率较低.通过研究现有随机游走模型基本假设存在的问题,提出了两项新的推理建模假设.首先,以PRA为代表的随机游走模型采用关系单向性假设,将知识库中的实体关系三元组视为一阶Horn子句,将关系处理为主语和宾语间的偏序关系,该文提出的假设是,尽管实体间的关系从字面和句法上具有方向性,但关系所包含的信息对两侧实体而言具有语义上的双向性,允许关系推理算法利用从宾语到主语的逆向关系语义进行知识推理;其次,PRA算法采用一阶谓词逻辑进行推理,并通过引入一个随机采样机制来避免穷举搜索和提高计算速度,该文认为这是导致PRA算法及类似算法无法完全利用知识库中已有信息的一个主要原因,据此提出了一个新的假设,即知识库中特定关系子网的拓扑结构所包含的信息可以被利用来改善随机游走模型的关系推理结果,为验证上述假设的有效性,提出了一种基于双层随机游走策略的关系推理新算法,在WN18、FB15K和FB40K等公开数据集上的实验结果表明,该算法能够有效地提高基于随机游走的关系推理模型的准确性和召回率,性能显著优于当前主流的基于潜在因子模型的关系推理算法.
-
关键词
关系推理
统计关系学习
知识库扩容
随机游走
路径排序算法
人工智能
-
Keywords
relational inference
statistical relational learning
knowledge base population
random walk
path ranking algorithm
artificial intelligence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-