-
题名数据空间中时间为中心的集合实体识别策略
被引量:4
- 1
-
-
作者
杨丹
申德荣
于戈
聂铁铮
寇月
-
机构
东北大学信息科学与工程学院
辽宁科技大学软件学院
-
出处
《计算机科学与探索》
CSCD
2012年第11期974-984,共11页
-
基金
国家自然科学基金(60973021
61003060)
+1 种基金
国家重点基础研究发展规划(973)(2012CB316201)
中央高校基本科研业务费专项资金(N100704001)~~
-
文摘
数据空间是一个异构的环境,并且数据及模式具有随时间演化的特性。已有的实体识别技术很少考虑时间信息在识别中所起的作用,并且没有考虑实体随时间演化的特性。针对数据空间中具有时间信息的实体识别,提出了一个四阶段的时间为中心的集合实体识别策略(time-centered collective entity resolution,T-CER)。T-CER在实体识别过程的不同阶段都考虑了时间信息所起的作用,在识别阶段提出了基于时间的聚类算法(time-based clustering,T-Clustering),并使用基于时间的约束对识别结果进行检查,以获得更精确的识别结果。在真实数据集上的大量实验结果表明了T-CER的可行性和有效性。
-
关键词
数据空间
集合实体识别
时间信息
-
Keywords
dataspace
collective entity resolution
temporal information
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名数据空间中一种灵活的集合式实体识别框架
被引量:1
- 2
-
-
作者
杨丹
申德荣
聂铁铮
于戈
寇月
-
机构
辽宁科技大学软件学院
东北大学信息科学与工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2015年第3期418-423,共6页
-
基金
国家自然科学基金项目(61003060)资助
中央高校基本科研业务费专项资金项目(N110404010
N120316001)资助
-
文摘
数据空间是一个异构、动态的环境,具有随时间演化的特性.针对数据空间中随时间演化的、彼此间具有相互关联关系的大量异构实体,提出一个灵活的、基于演化的集合式实体识别框架TE-CER.TE-CER在实体识别过程中考虑时间信息和演化的影响,提出基于时间的blocking算法T-blocking和基于时间演化的聚类算法TE-Clustering.TE-Clustering聚类算法考虑了演化对实体相似度的影响,在相似度度量中引入属性演化系数和关联关系演化系数;在聚类过程中引入簇的时间约束.并且TE-CER提出基于识别顺序依赖图来确定集合式实体识别的识别顺序的策略,这样一种实体的识别结果可以用来后续另一种相关联实体的识别证据,以提高识别的准确率.在真实数据集上的大量实验结果表明所提出方法的有效性.
-
关键词
数据空间
时间演化
集合式实体识别
-
Keywords
dataspaces
evolution
collective entity resolution
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-