期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
向量空间法中单词权重函数的分析和构造 被引量:126
1
作者 陆玉昌 鲁明羽 +1 位作者 李凡 周立柱 《计算机研究与发展》 EI CSCD 北大核心 2002年第10期1205-1210,共6页
文本分类是文本挖掘的基础与核心 ,是近年来数据挖掘和网络挖掘的一个研究热点 ,在传统的情报检索、网站索引体系结构的建立和 Web信息检索等方面占有重要地位 .深入分析了一种简单而常用的经典文本分类模型——向量空间模型 ( vector s... 文本分类是文本挖掘的基础与核心 ,是近年来数据挖掘和网络挖掘的一个研究热点 ,在传统的情报检索、网站索引体系结构的建立和 Web信息检索等方面占有重要地位 .深入分析了一种简单而常用的经典文本分类模型——向量空间模型 ( vector space model,VSM)——的实质 ,找出了其分类精度低的原因 ,提出了一种利用特征筛选中的评估函数代替 IDF函数进行权值调整的方法 ,并对采用各种不同评估函数进行权值调整的性能进行了理论分析和实验比较 ,提出了一种构造新的高性能评估函数的新颖方法 . 展开更多
关键词 向量空间法 单词权重函数 分析 构造 向量空间模 重调整 文本分类 数据挖掘 数据库
下载PDF
一种新型的文本无监督特征选择方法 被引量:2
2
作者 何中市 徐浙君 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第6期77-79,83,共4页
结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS。该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征。采用K-均值方法,对比DFF... 结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS。该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征。采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能。实验一:当特征数量由6000减少到1047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降。实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法。 展开更多
关键词 自然语言处理 特征选择 文档频数 单词权 单词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部