期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于反馈式文本分类技术自动识别项目标签
1
作者 谢波 何凤 《现代信息科技》 2021年第17期100-102,106,共4页
为对广东省投资项目在线审批监管平台积累的近40万个固定资产投资项目的产业类别进行分类,利于政府内部统计管理。在专家识别的人工打标签的方法基础上,进一步采用了线性支持向量机等分类算法,并基于反馈式文本分类机器学习原理再次识... 为对广东省投资项目在线审批监管平台积累的近40万个固定资产投资项目的产业类别进行分类,利于政府内部统计管理。在专家识别的人工打标签的方法基础上,进一步采用了线性支持向量机等分类算法,并基于反馈式文本分类机器学习原理再次识别了所有项目的标签类别,项目标签分类准确率由82%提升到91%。结果表明,反馈式文本分类技术,显著提高了项目分类的准确性。 展开更多
关键词 项目标签 文本分类向量 分类 线性支持向量机 反馈学习
下载PDF
基于二进制烟花算法的特征选择方法 被引量:5
2
作者 路永和 陈泳珊 《情报学报》 CSSCI CSCD 北大核心 2017年第3期249-259,共11页
文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设... 文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设置,从而达到提高分类性能的目的。实验数据使用中英文两种语料库,其中英文数据使用路透社的21578经典文本分类语料库(Reuters21578)的R8单标签语料集;中文数据使用复旦语料库,每种语料库随机抽取训练文本和测试文本各为1800篇。分别使用KNN、SVM分类器在预选维数为300维、600维、900维、1200维、2000维、3000维、4000维、5000维、10000维中进行实验。结果表明:采用二进制烟花算法对特征词选择进行优化后,其效果优于传统的特征选择方法,且具有良好的稳定性。 展开更多
关键词 词文本分类 特征选择 二进制烟花算法 信息增益 卡方统计量
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部