基于nLD-SVM-RF的短文本分类研究被引量：10

Classification of Short Texts Based on nLD-SVM-RF Model

导出

摘要【目的】解决短文本内容简短而引起的数据稀疏问题,提高短文本分类效果。【方法】针对短文本数据稀疏的特点,采用多通道文本建模方式,形成融合短文本语义、语序特征和主题特征的文本向量表示作为分类器的输入,采用集成SVM与随机森林的nLD-SVM-RF方法实现短文本分类。【结果】使用投诉短文本进行验证,相较于仅使用Doc2Vec作为特征的SVM单分类器和RF单分类器,当n=5时,nLD-SVM-RF方法准确率分别提高9.70%、6.25%。【局限】本文数据为电信投诉文本,数据量较小,没有在大样本数据集上进行验证。【结论】nLD-SVM-RF算法有助于企业分析短文本信息,辅助决策。 [Objective]This paper addresses the issue of data sparseness due to short texts,which also improves the performance of short texts classification.[Methods]We proposed a multi-channel text model for the input of short text classifier by integrating the semantics,word order features and topic features.Then,we created the classification method named nLD-SVM-RF with the help of SVM and random forest algorithms.Finally,we examined the new model with short text of complaints.[Results]We compared the performance of our new model with the SVM and RF single classifiers using Doc2 vec as the feature.When n=5,the accuracy of the nLD-SVMRF method increased by 9.70%and 6.25%,respectively.[Limitations]The experimental data size needs to be expanded.[Conclusions]The nLD-SVM-RF model provides a practical solution for the business community to analyse short texts and improve decision-making.

作者余本功曹雨蒙陈杨楠杨颖 Yu Bengong;Cao Yumeng;Chen Yangnan;Yang Ying(School of Management,Hefei University of Technology,Hefei 230009,China;Key Laboratory of Process Optimization&Intelligent Decision-making,Ministry of Education,Hefei University of Technology,Hefei 230009,China)

机构地区合肥工业大学管理学院合肥工业大学过程优化与智能决策教育部重点实验室

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第1期111-120,共10页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目“基于制造大数据的产品研发知识集成与服务机制研究”(项目编号:71671057) 国家自然科学基金项目“不确定环境下的复杂产品研发协同绩效动态评价研究”(项目编号:71573071) 过程优化与智能决策教育部重点实验室开放课题的研究成果之一.

关键词短文本分类多通道建模 SVM 随机森林集成学习 nLD-SVM-RF Short Text Classification Multi-Channel Modelling SVM Random Forest Ensemble Learning nLD-SVM-RF

分类号 G254.1 [文化科学—图书馆学]

引文网络
相关文献

参考文献19

1胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：38
2孙建旺,吕学强,张雷瀚.基于语义与最大匹配度的短文本分类研究[J].计算机工程与设计,2013,34(10):3613-3618. 被引量：18
3朱青,卫柯臻,丁兰琳,黎建强.基于文本挖掘和自动分类的法院裁判决策支持系统设计[J].中国管理科学,2018,26(1):170-178. 被引量：18
4陈晓美,高铖,关心惠.网络舆情观点提取的LDA主题模型方法[J].图书情报工作,2015,59(21):21-26. 被引量：51
5岳文应.基于Doc2Vec与SVM的聊天内容过滤[J].计算机系统应用,2018,27(7):127-132. 被引量：5
6黄沛杰,王俊东,柯子烜,林丕源.限定领域口语对话系统中超出领域话语的对话行为识别[J].中文信息学报,2016,30(6):182-189. 被引量：3
7韩栋,王春华,肖敏.基于句子级学习改进CNN的短文本分类方法[J].计算机工程与设计,2019,40(1):256-260. 被引量：12
8梁昕露,李美娟.电信业投诉分类方法及其应用研究[J].中国管理科学,2015,23(S1):188-192. 被引量：14
9陈燕方.基于DDAG-SVM的在线商品评论可信度分类模型[J].情报理论与实践,2017,40(7):132-137. 被引量：10
10刘敬学,孟凡荣,周勇,刘兵.字符级卷积神经网络短文本分类算法[J].计算机工程与应用,2019,55(5):135-142. 被引量：22

二级参考文献223

1靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
2赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
3王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
4董茂云.法典法,判例法与中国的法典化道路[J].比较法研究,1997,11(4):1-31. 被引量：22
5樊嘉禄,陈发俊.“盲人摸象”的认识论启示[J].安徽农业大学学报（社会科学版）,2001,10(1):33-34. 被引量：4
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
7侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
8王来华,刘毅.2004年舆情研究综述[J].天津大学学报（社会科学版）,2005,7(4):309-313. 被引量：32
9宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
10薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].南京农业大学学报（社会科学版）,2005,5(4):85-92. 被引量：10

共引文献338

1宰新宇,田学东.基于公式描述结构和词嵌入的科技文档检索方法[J].数据分析与知识发现,2020,4(1):131-138. 被引量：4
2李锋亮,舒宜彬.大学优秀学生集体形成要素的实证分析——以清华大学为例[J].教育发展研究,2020(13):50-56. 被引量：1
3李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
4林少娃,陈奕汝,顾洁,伍蓓蓓,雍旭龙.基于隐含狄利克雷分布主题模型和特征级异构数据融合的电力故障主动性预警研究[J].电子器件,2022,45(2):432-438. 被引量：12
5扈宁,董丽莎,王民.基于文本挖掘技术应用的计算机漏洞自动分类[J].新一代信息技术,2022,5(5):74-76.
6温志强,刘楠.从单向线性到迭代闭环:重大公共决策网络舆情风险研判体系构建[J].上海行政学院学报,2021,22(4):30-42. 被引量：9
7王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145. 被引量：18
8王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
9丁军平,蔡皖东.面向元信息分类的支持向量机改进技术[J].西安交通大学学报,2011,45(8):37-42. 被引量：1
10李频.刊林:还看今朝——从第二届“百刊工程”和首届国家期刊奖(社科类)透视中国社科期刊现状[J].中国出版,2000(2):37-42. 被引量：2

同被引文献96

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9
2陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
3韩华,张子刚.多级模糊综合评价法评估固定资产的成新率[J].武汉理工大学学报（信息与管理工程版）,2006,28(3):134-137. 被引量：7
4叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：72
5潘玉娜,陈进,李兴林.基于模糊c-均值的设备性能退化评估方法[J].上海交通大学学报,2009,43(11):1794-1797. 被引量：19
6秦玉平,耿姝,孙宗宝.基于C-SVM和KPCA的垃圾邮件检测研究[J].计算机工程与应用,2010,46(19):94-96. 被引量：3
7丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. 被引量：919
8李海刚,于洪志.藏文文本情感分类系统设计[J].甘肃科技纵横,2011,40(1):106-107. 被引量：6
9姚沂婕,安宏玉.网络表情符号分析[J].校园心理,2011,9(5):336-337. 被引量：13
10赖英超,曾剑铭,沈海斌.基于连笔消除的空间手写字符识别方法[J].计算机工程,2012,38(19):154-158. 被引量：5

引证文献10

1靳春妍,牟冬梅,王萍,邵琦,杨鑫禹.融入表情特征的网络舆情情感分析方法研究[J].科技情报研究,2020,2(4):13-22. 被引量：10
2徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛.基于双向长效注意力特征表达的少样本文本分类模型研究[J].数据分析与知识发现,2020,4(10):113-123. 被引量：2
3余本功,汲浩敏.基于多粒度建模的半监督文本分类方法研究[J].现代情报,2021,41(6):42-53. 被引量：3
4施国良,陈宇奇.文本增强与预训练语言模型在网络问政留言分类中的集成对比研究[J].图书情报工作,2021,65(13):96-107. 被引量：10
5吴龙涛,安军政,巩存阁,罗坤.基于GA-SVM的装备保障设备报废技术鉴定方法[J].火力与指挥控制,2021,46(9):51-55. 被引量：1
6李秀.复杂产品的关键质量特性识别[J].现代制造技术与装备,2022,58(1):218-221. 被引量：2
7程雅倩,黄玮,金晓祥,贾佳.5G环境下高校图书馆自媒体平台多标签文本分类方法研究[J].情报科学,2022,40(2):155-161. 被引量：10
8朱亚军,次曲,拥措.基于SVM算法的藏文微博情感分析研究[J].计算机仿真,2022,39(8):226-229. 被引量：6
9刘恒源,倪中新,陆贵斌.基于截断Pinball损失的支持向量机多类别概率估计[J].计算机应用与软件,2023,40(5):297-304.
10赵欣,张树森.面向选煤厂领域知识图谱的数据分类方法[J].选煤技术,2024,52(2):73-79.

二级引证文献44

1亚历山大.杰夫·塞德里克的摄影经营之道[J].摄影世界,2000(6):54-56.
2蒋翠清,王香香,王钊.基于消费者关注度的汽车销量预测方法研究[J].数据分析与知识发现,2021,5(1):128-139. 被引量：7
3牟冬梅,靳春妍,邵琦.基于情感分析的突发公共卫生事件网络舆情热度预测模型仿真[J].现代情报,2021,41(10):59-66. 被引量：16
4周泽聿,王昊,赵梓博,李跃艳,张小琴.融合关联信息的GCN文本分类模型构建及其应用研究[J].数据分析与知识发现,2021,5(9):31-41. 被引量：4
5牟冬梅,邵琦,杨鑫禹,彭浩,毕强.信息生态视域下突发公共事件网络舆情运行方式研究[J].现代情报,2022,42(3):22-30. 被引量：9
6黄金源,孙若莹.大宗商品交易领域词典构建[J].北京信息科技大学学报（自然科学版）,2022,37(1):71-75.
7王国英.基于多粒度与动态词向量的机器翻译关键技术研究[J].自动化与仪器仪表,2022(9):181-185. 被引量：1
8刘逍,龚庆悦,李铁军,王红云.基于SimBERT的中医医案实体间关系抽取[J].软件导刊,2022,21(11):12-18. 被引量：2
9琚沅红,牟冬梅,王书童,李桦,徐静雯,吕淑贞.少样本高质量医学知识的命名实体识别研究——以肺癌诊疗规范为例[J].现代情报,2023,43(2):9-19. 被引量：6
10管雨翔,王娟,刘静,秦瑞青,张鹏.突发事件网络舆情领域情感词典构建[J].情报探索,2023(2):1-8. 被引量：4

1魏伟,孟祥主,郭崇慧.考虑文本空间结构的单篇文本特征词排序方法[J].系统工程理论与实践,2020,40(5):1293-1303. 被引量：2
2贺胜晖,李灵巧,刘彤,刘振丙,杨辉华.柑橘黄龙病检测的近红外光谱集成建模方法[J].分析科学学报,2020,36(2):287-290. 被引量：4

数据分析与知识发现

2020年第1期

浏览历史

内容加载中请稍等...

基于nLD-SVM-RF的短文本分类研究被引量：10

参考文献19

二级参考文献223

共引文献338

同被引文献96

引证文献10

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于nLD-SVM-RF的短文本分类研究 被引量：10

参考文献19

二级参考文献223

共引文献338

同被引文献96

引证文献10

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于nLD-SVM-RF的短文本分类研究被引量：10