-
题名一种自适应信息集成方法
被引量:2
- 1
-
-
作者
程国达
邹亚会
朱静
-
机构
南京财经大学信息工程学院
南京财经大学图书馆
-
出处
《计算机应用》
CSCD
北大核心
2005年第3期666-669,共4页
-
文摘
检测相似重复记录是信息集成中的关键任务之一,尽管已经提出了各种检测相似重复记录的方法,但字符串匹配算法是这些检测方法中的核心。在提出的自适应信息集成算法中,用一个综合了编辑距离和标记距离的混合相似度去度量字符串之间的相似度。为了避免由于表达方式的差异而造成的字符串之间的不匹配,字符串被分割成独立的单词后按单词的第一个字符进行排序。在单词的匹配中,对拼写错误和缩写有一定的容错功能。实验结果表明,自适应信息集成方法比用Smith Waterman和Jaro距离有更高的正确率。
-
关键词
相似重复记录
混合相似度
自适应信息集成
字符串匹配
-
Keywords
approximately duplicate records
hybrid similarity
self-adaptive information integration
strings matching
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名检测大型数据库中汉语相似重复记录的方法
被引量:1
- 2
-
-
作者
邹亚会
-
机构
南京财经大学图书馆
-
出处
《内蒙古科技与经济》
2011年第14期77-78,共2页
-
文摘
提出了一种基于信息增益选择排序属性的消除汉语相似重复记录的方法。其中,记录之间的匹配方法考虑了汉语的缩写和输入错误。实验证明,该方法是有效的。
-
关键词
相似重复记录
信息增益
匹配
数据库
汉语
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名一种有效检测汉语相似重复记录的方法
- 3
-
-
作者
邹亚会
-
机构
南京财经大学图书馆
-
出处
《科技情报开发与经济》
2011年第21期133-135,共3页
-
文摘
从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的方法。
-
关键词
相似重复记录
匹配
排序属性
-
Keywords
approximately duplicate records
matching
sort properties
-
分类号
G250.74
[文化科学—图书馆学]
-