期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种自适应信息集成方法 被引量:2
1
作者 程国达 邹亚会 朱静 《计算机应用》 CSCD 北大核心 2005年第3期666-669,共4页
检测相似重复记录是信息集成中的关键任务之一,尽管已经提出了各种检测相似重复记录的方法,但字符串匹配算法是这些检测方法中的核心。在提出的自适应信息集成算法中,用一个综合了编辑距离和标记距离的混合相似度去度量字符串之间的相... 检测相似重复记录是信息集成中的关键任务之一,尽管已经提出了各种检测相似重复记录的方法,但字符串匹配算法是这些检测方法中的核心。在提出的自适应信息集成算法中,用一个综合了编辑距离和标记距离的混合相似度去度量字符串之间的相似度。为了避免由于表达方式的差异而造成的字符串之间的不匹配,字符串被分割成独立的单词后按单词的第一个字符进行排序。在单词的匹配中,对拼写错误和缩写有一定的容错功能。实验结果表明,自适应信息集成方法比用Smith Waterman和Jaro距离有更高的正确率。 展开更多
关键词 相似重复记录 混合相似度 自适应信息集成 字符串匹配
下载PDF
检测大型数据库中汉语相似重复记录的方法 被引量:1
2
作者 邹亚会 《内蒙古科技与经济》 2011年第14期77-78,共2页
提出了一种基于信息增益选择排序属性的消除汉语相似重复记录的方法。其中,记录之间的匹配方法考虑了汉语的缩写和输入错误。实验证明,该方法是有效的。
关键词 相似重复记录 信息增益 匹配 数据库 汉语
下载PDF
一种有效检测汉语相似重复记录的方法
3
作者 邹亚会 《科技情报开发与经济》 2011年第21期133-135,共3页
从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的方法。
关键词 相似重复记录 匹配 排序属性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部