期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于R-Grams的文本聚类方法
被引量:
1
1
作者
王贤明
谷琼
胡智文
《计算机应用》
CSCD
北大核心
2015年第11期3130-3134,共5页
针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法。该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚...
针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法。该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚类标志文档的确定并完成初始聚类,最后通过对初始聚类结果进行聚类合并完成最终聚类。实验结果表明:聚类结果可以通过聚类阈值灵活调整以适应不同的需求,最佳聚类阈值为15左右。随着聚类阈值的增大,各聚类准确率增大,召回率呈现先增后降的趋势。此外,该聚类方法避免了大量的分词、特征提取等繁琐处理,实现简单。
展开更多
关键词
文本
聚类
随机
r-grams
下载PDF
职称材料
一种基于随机n-Grams的文本相似度计算方法
被引量:
8
2
作者
王贤明
胡智文
谷琼
《情报学报》
CSSCI
北大核心
2013年第7期716-723,共8页
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gra...
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明:基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。
展开更多
关键词
文本相似度
评价函数
集合
N-GRAM
r-gram
下载PDF
职称材料
基于R-gram的语料库分析软件PowerConc的设计与开发
被引量:
29
3
作者
许家金
贾云龙
《外语电化教学》
CSSCI
北大核心
2013年第1期57-62,共6页
在继承以往语料库分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料库分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regular expressions)的...
在继承以往语料库分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料库分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regular expressions)的N元组(N-gram)为基础。二者的有机结合即本文所提出的R-gram。R-gram这一概念大大增强了检索和匹配的灵活性。同时我们设计了兼容正则表达式的简易输入语法——Smart Input,降低了用户使用的难度,提高了软件的易用性。PowerConc软件基于面向对象的思想开发,核心功能被封装在不同的类中,与界面分离,具有很好的扩展性和可维护性。PowerConc的开发将有效促进语料库语言学研究的开展。
展开更多
关键词
语料库分析工具
PowerConc软件
r-gram
语料库
原文传递
题名
基于R-Grams的文本聚类方法
被引量:
1
1
作者
王贤明
谷琼
胡智文
机构
温州大学瓯江学院
温州信息化研究中心
湖北文理学院数学与计算机科学学院
西南大学逻辑与智能研究中心
浙江传媒学院新媒体学院
出处
《计算机应用》
CSCD
北大核心
2015年第11期3130-3134,共5页
基金
浙江省自然科学基金资助项目(LY13F010005)
教育部人文社会科学研究项目(15YJAZH015)
+1 种基金
湖北省科技支撑计划软科学项目(2015BDH109)
温州市科技计划项目(R20130021)
文摘
针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法。该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚类标志文档的确定并完成初始聚类,最后通过对初始聚类结果进行聚类合并完成最终聚类。实验结果表明:聚类结果可以通过聚类阈值灵活调整以适应不同的需求,最佳聚类阈值为15左右。随着聚类阈值的增大,各聚类准确率增大,召回率呈现先增后降的趋势。此外,该聚类方法避免了大量的分词、特征提取等繁琐处理,实现简单。
关键词
文本
聚类
随机
r-grams
Keywords
text
clustering
random
r-grams
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于随机n-Grams的文本相似度计算方法
被引量:
8
2
作者
王贤明
胡智文
谷琼
机构
温州大学瓯江学院
湖北文理学院数学与计算机科学学院
出处
《情报学报》
CSSCI
北大核心
2013年第7期716-723,共8页
基金
国家自然科学基金项目(61172084)
浙江省自然科学基金项目(Y1100137)
乐清市科技项目(2011R003)
文摘
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明:基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。
关键词
文本相似度
评价函数
集合
N-GRAM
r-gram
Keywords
text similarity, evaluation function, set, n-Gram,
r-gram
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于R-gram的语料库分析软件PowerConc的设计与开发
被引量:
29
3
作者
许家金
贾云龙
机构
北京外国语大学中国外语教育研究中心.北京
出处
《外语电化教学》
CSSCI
北大核心
2013年第1期57-62,共6页
基金
国家社科基金项目“基于双语语料库的汉语复杂动词结构英译研究”(项目编号:12CYY060)
教育部“新世纪优秀人才支持计划”(项目编号:NCET-12-0790)的资助
文摘
在继承以往语料库分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料库分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regular expressions)的N元组(N-gram)为基础。二者的有机结合即本文所提出的R-gram。R-gram这一概念大大增强了检索和匹配的灵活性。同时我们设计了兼容正则表达式的简易输入语法——Smart Input,降低了用户使用的难度,提高了软件的易用性。PowerConc软件基于面向对象的思想开发,核心功能被封装在不同的类中,与界面分离,具有很好的扩展性和可维护性。PowerConc的开发将有效促进语料库语言学研究的开展。
关键词
语料库分析工具
PowerConc软件
r-gram
语料库
Keywords
Corpus Tools
PowerConc
r-gram
Corpus
分类号
H319.3 [语言文字—英语]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于R-Grams的文本聚类方法
王贤明
谷琼
胡智文
《计算机应用》
CSCD
北大核心
2015
1
下载PDF
职称材料
2
一种基于随机n-Grams的文本相似度计算方法
王贤明
胡智文
谷琼
《情报学报》
CSSCI
北大核心
2013
8
下载PDF
职称材料
3
基于R-gram的语料库分析软件PowerConc的设计与开发
许家金
贾云龙
《外语电化教学》
CSSCI
北大核心
2013
29
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部