面向短文本分类的特征提取与算法研究被引量：2

Research on different feature extraction and algorithms for ultra-short text classification

下载PDF

导出

摘要近年来以大数据为中心的人工智能技术得到蓬勃发展,自然语言处理成为了人工智能时代最突出的前沿研究领域之一。然而,在自然语言处理领域的短文本分类中,不同的特征提取方法与机器学习算法集成时,处理效果差异明显。针对短文本分类精度较低的问题,基于组合的方式和预设的评价指标,通过将不同特征提取方法与不同机器学习算法进行组合,探究其在超短文本分类中的效果以寻求最优组合模型进而获得最佳分类效果。实验结果表明,在所选取的四种最优组合方法中,以词频-逆文件频率为特征提取方法、以逻辑回归为算法的组合模型在公开数据集中取得最好的实验效果,精度为92. 13%,查全率为90. 12%,适合应用于超短文本的分类应用场景。 In recent years,artificial intelligence technology centered on big data has been booming,natural language processing has become one of the most prominent frontier research areas in the era of artificial intelligence.However,in the short text classification of natural language processing,when different feature extraction methods are integrated with machine learning algorithms,the processing effects are significantly different.For the problem of low precision of short text classification,this paper combines different feature extraction methods with different machine learning algorithms based on the combination method and preset evaluation indicators to explore its effect in ultra-short text classification to seek the most excellent combination model to get the best classification effect.The experimental results show that among the four optimal combination methods selected,the method that the word frequency-reverse file frequency is used as the feature extraction method and the logistic regression algorithm is used as the combined model can obtain the best experimental results in the public data set with an accuracy of 92.13%, the recall rate is 90.12%,which is suitable for the classification application scene of ultra- short text.

作者刘晓鹏杨嘉佳卢凯田昌海唐球 Liu Xiaopeng;Yang Jiajia;Lu Kai;Tian Changhai;Tang Qiu(National Computer System Engineering Research Institute of China,Beijing 100083,China;Information Research Center of Military Science,PLA Academy of Military Science,Beijing 100142,China)

机构地区华北计算机系统工程研究所军事科学院军事科学信息研究中心

出处《信息技术与网络安全》 2019年第5期48-52,共5页 Information Technology and Network Security

关键词自然语言处理文本分类超短文本 natural language processing text classification ultra short text

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献12

1唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
2张成功,刘培玉,朱振方,方明.一种基于极性词典的情感分析方法[J].山东大学学报（理学版）,2012,47(3):47-50. 被引量：51
3宋凤义,胡太,杨明.基于外观的复合属性学习的细粒度识别[J].数据采集与处理,2016,31(6):1205-1212. 被引量：1
4陈自岩,黄宇,王洋,傅兴玉,付琨.一种利用语义相似特征提升细粒度情感分析方法[J].计算机应用与软件,2017,34(3):27-30. 被引量：4
5涂文博,袁贞明,俞凯.针对文本分类的神经网络模型[J].计算机系统应用,2019,28(7):145-150. 被引量：8
6崔莹.深度学习在文本表示及分类中的应用研究[J].电脑知识与技术,2019,15(6):174-177. 被引量：6
7韦灵,倪志平.基于自然语言处理和机器学习的文本分类及其运用[J].科技视界,2019,0(27):88-89. 被引量：4
8朱烨,陈世平.融合卷积神经网络和注意力的评论文本情感分析[J].小型微型计算机系统,2020,41(3):551-557. 被引量：13
9向进勇,刘小龙,丁明扬,李欢,曹文婷.基于卷积递归深度学习模型的句子级文本情感分类[J].东北师大学报（自然科学版）,2020,52(2):73-79. 被引量：3
10郑诚,曹源,薛满意.面向方面级情感分类的多层注意网络[J].计算机工程与应用,2020,56(19):176-181. 被引量：8

引证文献2

1陈菲琪,王珂.基于NLP技术的企业名称智能分类系统设计[J].信息与电脑,2020,32(2):46-48. 被引量：3
2王萍,李璋寅,郭茹燕,黄勃,王董祺.面向医疗文本信息的方面级情感分析[J].武汉大学学报（理学版）,2023,69(1):60-68. 被引量：1

二级引证文献4

1蒋海刚,於琦.主动式智能建筑运维模式下的数据应用技术研究[J].智能建筑与智慧城市,2020(12):49-51. 被引量：2
2唐嘉迪,文琴,秦胜,曾益钦.基于NLP技术的情感咨询系统设计与实现[J].长江信息通信,2022,35(5):148-150. 被引量：1
3沈海伦.NLP和知识图谱技术在钢铁电商用户分类场景的应用[J].宝钢技术,2023(5):56-60.
4赵江元,王伟军,黄微.网络舆情群体观点提取模型构建与实证研究——以生猪期现货网络舆情为例[J].现代情报,2024,44(2):152-159.

1徐徐.送给妈妈的裙子[J].动漫界（幼教365）,2019,0(19):23-23.
2宋人杰,毛月蓉,刘耀伟,宋锐.基于组合赋权的城市配电网模糊综合评价方法[J].科技通报,2018,0(3):148-154. 被引量：2
3刘凯.浅谈演示实验在化学教学中的作用[J].科教导刊（电子版）,2019,0(11):144-144.
4谢文,赵小敏,郭熙,叶英聪,孙小香,匡丽花.基于RBF组合模型的山地红壤有机质含量光谱估测[J].林业科学,2018,54(6):16-23. 被引量：13
5曹瑞雪,马英红,李海洋,于青林.基于SCOPUS的数据科学发展现状与趋势分析[J].计算机与数字工程,2019,47(4):737-742.
6周园林,邵国林.基于群聊文本的分类研究[J].现代计算机,2019,25(8):22-28. 被引量：1
7艾楚涵,熊新,吴建德.基于LDA主题模型的专利文本分析应用研究[J].科技和产业,2019,19(3):77-82. 被引量：5
8王旭,李思臻,王路.中蒙小麦粉标准指标比对研究[J].中国标准化,2019,0(9):121-124. 被引量：1
9韩玉玲.初中物理平面镜成像实验的改进[J].中国现代教育装备,2019(8):34-36. 被引量：3
10张岗岗,高鹏.高职院校计算机网络专业实验教学的探索[J].信息周刊,2019,0(8):0322-0322.

信息技术与网络安全

2019年第5期

浏览历史

内容加载中请稍等...

面向短文本分类的特征提取与算法研究被引量：2

同被引文献12

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

面向短文本分类的特征提取与算法研究 被引量：2

同被引文献12

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

面向短文本分类的特征提取与算法研究被引量：2