-
题名基于聚类集成的人名消歧算法
被引量:6
- 1
-
-
作者
阳怡林
周杰
李弼程
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2016年第9期2716-2720,共5页
-
文摘
传统人名消歧算法中,每类特征仅反映人物实体的部分信息,且不同聚类算法各有优缺点。提出了一种基于聚类集成的人名消歧算法。从文本中提取上下文特征、实体特征、社会关系特征得到三个相似度矩阵,并对这三个相似度矩阵进行融合得到一个融合相似度矩阵,把这四个相似度矩阵作为输入,利用不同的聚类算法得到不同的划分,采用基于均方误差邻接矩阵聚类(squared error adjacency matrix clustering,SEAM)算法对这些划分进行集成,实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,新算法有效地提高了人名消歧的准确性和鲁棒性。
-
关键词
聚类集成
人名消歧
凝聚层次聚类
相似度矩阵
-
Keywords
ensemble
name disambiguation
hierarchical clustering
similarity matrix
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于分步聚类的人名消歧算法
被引量:3
- 2
-
-
作者
阳怡林
周杰
李弼程
席耀一
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2016年第1期213-222,共10页
-
基金
国家社会科学基金(14BXW028)资助项目
全军军事研究生课题(2011JY002k-158)资助项目
-
文摘
针对知识库中存在单条实体定义特征稀疏和人工设置相似度阈值适用性不强的问题,本文提出了一种基于分步聚类的人名消歧算法。首先,将知识库中人名实体定义的人物属性特征作为查询特征,利用文本检索的方式实现基于知识库的初次聚类,弥补了知识库中单条实体定义中特征稀疏的问题;然后,利用初次聚类的结果,采用基于自适应阈值的凝聚层次聚类算法实现知识库人名消歧;最后,采用条件随机场进行Other类识别,利用基于自适应阈值的凝聚层次聚类完成S类聚类,从而实现非知识库人名消歧。在CLP2012的中文人名消歧评测语料上进行实验,结果表明本文的算法能够有效地对人名进行消歧。
-
关键词
人名消歧
特征稀疏
文本检索
凝聚层次聚类
相似度阈值
-
Keywords
name disambiguation
characteristics of sparse
text retrieval
hierarchical clustering
similarity threshold
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于职业特征的人名消歧算法
被引量:2
- 3
-
-
作者
阳怡林
周杰
李弼程
李爱国
-
机构
信息工程大学
[
-
出处
《信息工程大学学报》
2016年第5期548-554,共7页
-
基金
国家社会科学基金资助项目(14BXW028)
-
文摘
职业是人物实体的代表性特征,能够有效地区分人物实体。传统人名消歧算法仅把职业当作一个普通的特征,忽视了它的重要性。针对以上问题,提出了基于职业特征的人名消歧算法。首先通过互联网手动构建基础职业词典;其次以维基百科的所有中文页面为训练语料,通过词激活力模型扩展基础职业词典得到职业特征词典;然后从文本中提取职业特征,并抽取人名和作品名作为其补充特征,弥补文本中职业特征缺失和同一人物具有多个职业的问题;最后采用凝聚层次聚类实现人名消歧。在CLP2010的人名消歧训练语料上进行实验,结果表明文章算法能够有效地实现人名消歧。
-
关键词
职业特征
亲和度
人名消歧
词激活力
凝聚层次聚类
-
Keywords
occupational characteristics
affinity
name disambiguation
word activation force
agglomerative hierarchical clustering
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名人名消歧研究综述
被引量:1
- 4
-
-
作者
阳怡林
陈刚
周杰
李弼程
-
机构
信息工程大学
-
出处
《信息工程大学学报》
2016年第4期478-483,共6页
-
基金
国家社会科学基金资助项目(14BXW028)
-
文摘
人名歧义性是自然语言处理中亟待解决的问题。首先介绍了人名消歧的研究背景与研究意义;其次,给出了基于聚类的人名消歧与基于实体链接的人名消歧的定义以及区别;然后,重点分析了以上两种人名消歧的研究方法以及存在的问题,并给出了可能的解决方案;最后,对全文进行总结并给出下一步的研究方向。
-
关键词
人名消歧
实体链接
歧义性
聚类
-
Keywords
name disambiguation
entity linking
ambiguity
clustering
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-