期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种改进的文本网页分类特征选择方法 被引量:8
1
作者 李粤 李星 +1 位作者 刘辉 许静芳 《计算机应用》 CSCD 北大核心 2004年第7期119-121,共3页
网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上 ,提出了一种联合特征选择方法。该方法将已有的X2 统计方法和互信息方法综合起来 ,在标准文本... 网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上 ,提出了一种联合特征选择方法。该方法将已有的X2 统计方法和互信息方法综合起来 ,在标准文本网页数据集分类实验中 ,综合查全率和查准率得到明显的提高。该选择方法已应用于“网络指南针” 展开更多
关键词 文本网页分类 特征选择 X^2统计量 互信息量 联合特征选择
下载PDF
基于潜在语义分析的网页文本分类研究 被引量:2
2
作者 王剑锋 乔冬 +1 位作者 麻丽娜 李新叶 《应用能源技术》 2009年第11期41-44,共4页
传统的基于词空间的文本分类方法很难处理文本的高维特性,提出基于潜在语义空间的网页文本分类方法,将文本数据由高维空间映射到低维空间,通过奇异值分解提取文本的潜在语义空间。在潜在语义空间中利用支持向量机方法实现文本分类;实验... 传统的基于词空间的文本分类方法很难处理文本的高维特性,提出基于潜在语义空间的网页文本分类方法,将文本数据由高维空间映射到低维空间,通过奇异值分解提取文本的潜在语义空间。在潜在语义空间中利用支持向量机方法实现文本分类;实验表明该方法对于改进文本分类的性能具有较好的效果。 展开更多
关键词 潜在语义分析 网页文本分类 支持向量机
下载PDF
基于NB和CHI值的农业文本分类方法 被引量:4
3
作者 周云成 许童羽 邓寒冰 《江苏农业科学》 2018年第17期219-223,共5页
对采集自网络的农业文本进行自动化分类是进一步利用的前提。拟提出1种结合朴素贝叶斯(naive Bayes,简称NB)和χ2(Chi-square,简称CHI)特征词选取的农业文本分类方法,并用Python语言实现相应的文本分类程序和特征词选择程序。通过从农... 对采集自网络的农业文本进行自动化分类是进一步利用的前提。拟提出1种结合朴素贝叶斯(naive Bayes,简称NB)和χ2(Chi-square,简称CHI)特征词选取的农业文本分类方法,并用Python语言实现相应的文本分类程序和特征词选择程序。通过从农业信息网站获取已经过良好分类的文档,并对其进行净化、分词等预处理,构建含有4种文本的农业语料库。针对特征词选择数量、训练样本数等对分类识别率的影响及用标题进行网页文本分类的可行性问题开展研究。结果表明,文本分类的正确率主要由CHI值较高的少量特征词条决定,但是按CHI值降序增加特征词条的数量不会对文本识别率造成负面影响;训练样本数量对文本分类的正确率具有一定影响,为了达到较高的识别率,训练样本需要达到一定的数量,然后持续增加样本量,对识别率没有明显贡献;利用网页标题对采集自网络的农业文本进行分类是可行的。通过结合朴素贝叶斯和基于CHI值的特征词选取方法能够很好地对农业文本进行分类,识别率较高。 展开更多
关键词 文本分类 农业文本 朴素贝叶斯 CHI值 特征词选取 标题 网页文本分类
下载PDF
支持增量学习的文本单类别分类算法 被引量:1
4
作者 戴洪 朱明 刘守群 《计算机工程与应用》 CSCD 北大核心 2008年第27期157-158,164,共3页
目前的文本单类别分类算法在进行增量学习时需要进行大量的重复计算,提出了一种新的用于文本的单类别分类算法,在不降低分类效果的同时,有效地减少了加入新样本学习时所需的计算量,从而比较适合于需要进行增量学习的情况。该方法已进行... 目前的文本单类别分类算法在进行增量学习时需要进行大量的重复计算,提出了一种新的用于文本的单类别分类算法,在不降低分类效果的同时,有效地减少了加入新样本学习时所需的计算量,从而比较适合于需要进行增量学习的情况。该方法已进行了测试实验,获得了较好的实验结果。 展开更多
关键词 简单贝叶斯 支持向量机 单类别分类 文本/网页分类
下载PDF
Meaningful String Extraction Based on Clustering for Improving Webpage Classification
5
作者 Chen Jie Tan Jianlong +1 位作者 Liao Hao Zhou Yanquan 《China Communications》 SCIE CSCD 2012年第3期68-77,共10页
Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with ... Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with this problem,we propose two scenarios to extract meaningful strings based on document clustering and term clustering with multi-strategies to optimize a Vector Space Model(VSM) in order to improve webpage classification.The results show that document clustering work better than term clustering in coping with document content.However,a better overall performance is obtained by spectral clustering with document clustering.Moreover,owing to image existing in a same webpage with document content,the proposed method is also applied to extract image meaningful terms,and experiment results also show its effectiveness in improving webpage classification. 展开更多
关键词 webpage classification meaningfulstring extraction document clustering term cluste-ring K-MEANS spectral clustering
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部