-
题名基于反馈式文本分类技术自动识别项目标签
- 1
-
-
作者
谢波
何凤
-
机构
广东省投资和信用中心
广东中标数据科技股份有限公司
-
出处
《现代信息科技》
2021年第17期100-102,106,共4页
-
文摘
为对广东省投资项目在线审批监管平台积累的近40万个固定资产投资项目的产业类别进行分类,利于政府内部统计管理。在专家识别的人工打标签的方法基础上,进一步采用了线性支持向量机等分类算法,并基于反馈式文本分类机器学习原理再次识别了所有项目的标签类别,项目标签分类准确率由82%提升到91%。结果表明,反馈式文本分类技术,显著提高了项目分类的准确性。
-
关键词
项目标签
文本分类、词向量
分类器
线性支持向量机
反馈学习
-
Keywords
project label
text classification
word vector
classifier
linear support vector machine
feedback learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于二进制烟花算法的特征选择方法
被引量:5
- 2
-
-
作者
路永和
陈泳珊
-
机构
中山大学资讯管理学院
-
出处
《情报学报》
CSSCI
CSCD
北大核心
2017年第3期249-259,共11页
-
基金
国家自然科学基金项目"面向文本分类的多学科协同建模理论与实验研究"(71373291)
广东省科技计划项目"面向主题的中文语料库构建方法与技术"(2015A030401037)
-
文摘
文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设置,从而达到提高分类性能的目的。实验数据使用中英文两种语料库,其中英文数据使用路透社的21578经典文本分类语料库(Reuters21578)的R8单标签语料集;中文数据使用复旦语料库,每种语料库随机抽取训练文本和测试文本各为1800篇。分别使用KNN、SVM分类器在预选维数为300维、600维、900维、1200维、2000维、3000维、4000维、5000维、10000维中进行实验。结果表明:采用二进制烟花算法对特征词选择进行优化后,其效果优于传统的特征选择方法,且具有良好的稳定性。
-
关键词
词文本分类
特征选择
二进制烟花算法
信息增益
卡方统计量
-
Keywords
text classification
feature selection
binary fireworks algorithm
information gain
chi-square statistic
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-