期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于后缀树的重复文档检测
1
作者 冯金波 《软件导刊》 2015年第5期70-73,共4页
传统的重复文档检测方法是以单词或n-grams为单位提取特征,造成特征集合过于庞大。针对该缺点,提出以句子块作为文档特征的提取方法,将每个文档表示成句子长度序列,使用后缀树快速匹配公共子串。实验中,使用两个标准文档集与3种经典方... 传统的重复文档检测方法是以单词或n-grams为单位提取特征,造成特征集合过于庞大。针对该缺点,提出以句子块作为文档特征的提取方法,将每个文档表示成句子长度序列,使用后缀树快速匹配公共子串。实验中,使用两个标准文档集与3种经典方法在有效性和效率方面进行比较,结果表明新算法有较高的准确率和效率。 展开更多
关键词 重复文档 后缀树 句子块
下载PDF
基于语言节奏的大规模文档去重算法研究 被引量:3
2
作者 陈钒 冯志勇 +1 位作者 李晓红 赵庚 《计算机工程与应用》 CSCD 北大核心 2011年第11期15-18,33,共5页
通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良... 通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良好的召回率和准确率,可以将内容完全重复的文档、部分段落内容重复的文档及打乱段落顺序重组文档的重复性均检测出来,检测精度高且占用系统资源少。 展开更多
关键词 文档重复性检测 语言节奏 标点
下载PDF
Reasonable NoCIone 2011 Enterprise v5.0.44.0
3
作者 王厚勇 《网管员世界》 2011年第18期121-121,共1页
一款搜索本地及网络上重复文档的工具,可以搜索的文件类型例如DLL、图片、音乐等。即使名称不一样也可以辨别出是否重复,重复名称、不完整下载及相似的文件同样能查找出来。重复文档的标准是内容上完全的相同,
关键词 REASONABLE NoCIone 2011 重复文档 搜索工具 应用软件
下载PDF
文档革命:信息时代统计类科研成果应该如何储存
4
作者 谢邦昌 梁振杰 《中国统计》 2020年第2期47-49,共3页
当前的科研成果文挡形式制约了成果的广泛利用。本文讨论了理想的科研成果文档形式应具备的特点:可重复性、可交互性和可检索性,以及对这些特点对应的文档实现方式进行初步的介绍。
关键词 科研成果 文档形式:可重复性研究 网页脚本 知识图谱
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部