期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于R-Grams的文本聚类方法 被引量:1
1
作者 王贤明 谷琼 胡智文 《计算机应用》 CSCD 北大核心 2015年第11期3130-3134,共5页
针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法。该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚... 针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法。该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚类标志文档的确定并完成初始聚类,最后通过对初始聚类结果进行聚类合并完成最终聚类。实验结果表明:聚类结果可以通过聚类阈值灵活调整以适应不同的需求,最佳聚类阈值为15左右。随着聚类阈值的增大,各聚类准确率增大,召回率呈现先增后降的趋势。此外,该聚类方法避免了大量的分词、特征提取等繁琐处理,实现简单。 展开更多
关键词 文本 聚类 随机 r-grams
下载PDF
一种基于随机n-Grams的文本相似度计算方法 被引量:8
2
作者 王贤明 胡智文 谷琼 《情报学报》 CSSCI 北大核心 2013年第7期716-723,共8页
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gra... 文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明:基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。 展开更多
关键词 文本相似度 评价函数 集合 N-GRAM r-gram
下载PDF
基于R-gram的语料库分析软件PowerConc的设计与开发 被引量:29
3
作者 许家金 贾云龙 《外语电化教学》 CSSCI 北大核心 2013年第1期57-62,共6页
在继承以往语料库分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料库分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regular expressions)的... 在继承以往语料库分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料库分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regular expressions)的N元组(N-gram)为基础。二者的有机结合即本文所提出的R-gram。R-gram这一概念大大增强了检索和匹配的灵活性。同时我们设计了兼容正则表达式的简易输入语法——Smart Input,降低了用户使用的难度,提高了软件的易用性。PowerConc软件基于面向对象的思想开发,核心功能被封装在不同的类中,与界面分离,具有很好的扩展性和可维护性。PowerConc的开发将有效促进语料库语言学研究的开展。 展开更多
关键词 语料库分析工具 PowerConc软件 r-gram 语料库
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部