摘要
提出了一种基于聚类技术的多数据源记录匹配算法,该算法运用的罩盖(Canopy)聚类技术是一种专门对付大型数据的聚类方法,此算法不仅是一个与应用领域无关的算法,跟其它模型相比,在保证原有准确程度的前提下,大大地减少了必需的计算量,提高了记录匹配的效率.
This paper put forward an algorithm, by using the canopy clustering technique which focuses on large data set, to match data records among multi data sources. The algorithm is a kind of domain-independent method, and compare to other model, when it promises the algorithm's accuracy, this method increases the effectiveness.
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第9期1546-1550,共5页
Journal of Chinese Computer Systems
基金
广西师范大学青年基金资助.