摘要
实体解析是数据清理、数据集成、数据挖掘等技术中关键的一步,是数据质量的保障。介绍了实体解析含义、背景起源以及算法基础。列举并解释了实体解析发展过程中的经典算法,包括成对实体解析、集合实体解析、大数据的实体解析、复杂数据上的实体解析等,以及它们的特点和局限性,分享了在新的应用环境下衍生出来的针对不同需求的新的实体解析算法。最后展望了实体解析领域当前的研究热点以及发展方向。
Entity Resolution(ER)is a key step in data cleaning,data integration,data mining and the insurance of data quality.This paper listed and explained some classic algorithms in the development of entity resolution,including pairwise entity resolution,collective entity resolution,entity resolution on big data,and entity resolution on complex data et al.We also introduced the characteristics and limitation of these algorithms and shared some state-of-the-art algorithms derived from new application environment according to different requirements.Finally,the research hotspots and the development direction of this field were discussed.
出处
《计算机科学》
CSCD
北大核心
2015年第3期8-12,18,共6页
Computer Science
基金
国家自然科学基金(61272438)
上海市科委项目(12511502704
14511107702)资助
关键词
实体解析
记录链接
集合数据
复杂数据
大数据
Entity resolution
Record linkage
Collective data
Complex data
Big data