期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种检测多语言文本相似重复记录的综合方法
被引量:
26
1
作者
俞荣华
田增平
周傲英
《计算机科学》
CSCD
北大核心
2002年第1期118-121,共4页
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输...
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性.
展开更多
关键词
数据仓库
数据挖掘
数据库
信息
重复
多语言文本相似重复记录方法
检测
下载PDF
职称材料
一种新的基于N-gram模型的重复软件缺陷报告检测方法
被引量:
2
2
作者
李宁
李战怀
张利军
《西北工业大学学报》
EI
CAS
CSCD
北大核心
2010年第2期298-303,共6页
软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模...
软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模型的重复缺陷报告检测方法,文中第2小节中详细介绍了该方法的细节。通过在小数据集上的实验,明确了在使用该方法检测重复缺陷报告时,参数N取3/4/5,利用全句法仅针对缺陷报告的概要信息进行相似度计算将取得较好的效果。最终使用一个含有4 503条Firefox缺陷报告的数据集对该方法进行了验证。实验证明N-gram模型法与向量空间模型法相比,重复缺陷的查全率(Recall Rate)提高了25%~55%。
展开更多
关键词
自然
语言
处理系统
重复
缺陷报告
N-gram
方法
文本
相似
度
下载PDF
职称材料
题名
一种检测多语言文本相似重复记录的综合方法
被引量:
26
1
作者
俞荣华
田增平
周傲英
机构
复旦大学计算机系
出处
《计算机科学》
CSCD
北大核心
2002年第1期118-121,共4页
文摘
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性.
关键词
数据仓库
数据挖掘
数据库
信息
重复
多语言文本相似重复记录方法
检测
Keywords
Approximate duplicates records, Clustering, Pairwise comparison, Priority queue
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种新的基于N-gram模型的重复软件缺陷报告检测方法
被引量:
2
2
作者
李宁
李战怀
张利军
机构
西北工业大学计算机学院
出处
《西北工业大学学报》
EI
CAS
CSCD
北大核心
2010年第2期298-303,共6页
基金
国家自然科学基金(60970070)资助
文摘
软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模型的重复缺陷报告检测方法,文中第2小节中详细介绍了该方法的细节。通过在小数据集上的实验,明确了在使用该方法检测重复缺陷报告时,参数N取3/4/5,利用全句法仅针对缺陷报告的概要信息进行相似度计算将取得较好的效果。最终使用一个含有4 503条Firefox缺陷报告的数据集对该方法进行了验证。实验证明N-gram模型法与向量空间模型法相比,重复缺陷的查全率(Recall Rate)提高了25%~55%。
关键词
自然
语言
处理系统
重复
缺陷报告
N-gram
方法
文本
相似
度
Keywords
natural language processing systems
duplicate defect report
N-gram method
N-gram similarity
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种检测多语言文本相似重复记录的综合方法
俞荣华
田增平
周傲英
《计算机科学》
CSCD
北大核心
2002
26
下载PDF
职称材料
2
一种新的基于N-gram模型的重复软件缺陷报告检测方法
李宁
李战怀
张利军
《西北工业大学学报》
EI
CAS
CSCD
北大核心
2010
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部