基于Word2Vec的中文短文本分类问题研究被引量：38

Research on Chinese Short Text Classification Based on Word2Vec

下载PDF

导出

摘要针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语义关系.但进一步发现单纯利用Word2Vec模型忽略了不同词性的词语对短文本的影响力,因此引入词性改进特征权重计算方法,将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重,并结合Word2Vec词向量生成短文本向量,最后利用SVM实现短文本分类.在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性. To address the problems such as the inherent sparsity in the short text and the ＂lexical gap＂ of traditional classification model, using Word2 Vec model to map words to a spatial vector of low-dimensional real number according to context semantic relations can effectively ease the sparse feature issue of short text. However, further study found that only using Word2 Vec will ignore the influence of different parts of speech on the short text. Therefore, we introduce part of speech to improve the feature weighting approach, in which the contribution of speech is embedded into the traditional TF-IDF algorithm to calculate the weight of the words in the short text, and the vector of short text is generated by combining the word vector of Word2 Vec. Finally, we use the SVM to achieve short text classification. Experimental results on Fudan University Chinese text classification corpus validate the effectiveness of the proposed method.

作者汪静罗浪王德强 WANG Jing;LUO Lang;WANG De-Qiang(School of Computer Science, South-Central University for Nationalities, Wuhan 430074, Chin)

机构地区中南民族大学计算机科学学院

出处《计算机系统应用》 2018年第5期209-215,共7页 Computer Systems & Applications

基金赛尔网络下一代互联网技术创新项目(NGII20150106)

关键词 Word2Vec TF-IDF 文本表示短文本分类 Word2Vec TF-IDF text representation short text classification

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279. 被引量：58
2王荣波,谌志群,周建政,李治,高飞.基于Wikipedia的短文本语义相关度计算方法[J].计算机应用与软件,2015,32(1):82-85. 被引量：15
3唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：143
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
5黄贤英,张金鹏,刘英涛,赵明军.基于词项语义映射的短文本相似度算法[J].计算机工程与设计,2015,36(6):1514-1518. 被引量：11
6李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报（自然科学版）,2011,28(4):44-47. 被引量：45

二级参考文献109

1唐发明,陈绵云,王仲东.基于支持向量机的仓储害虫声音识别[J].华中科技大学学报（自然科学版）,2005,33(2):34-36. 被引量：10
2万红新,彭云,聂承启.基于模糊集和粗糙集的关联规则挖掘策略[J].江西师范大学学报（自然科学版）,2005,29(1):23-25. 被引量：7
3樊建聪,张问银,梁永全.基于贝叶斯方法的决策树分类算法[J].计算机应用,2005,25(12):2882-2884. 被引量：20
4余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
5荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
6张丽娟,李舟军.分类方法的新发展:研究综述[J].计算机科学,2006,33(10):11-15. 被引量：20
7余瑞康,施润身.聚类思想在贝叶斯算法中的应用[J].计算机工程与应用,2006,42(28):159-160. 被引量：10
8季桂树,陈沛玲,宋航.决策树分类算法研究综述[J].科技广场,2007(1):9-12. 被引量：40
9李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
10温泉彻,彭宏,黎琼.基于粗糙集和遗传算法的神经网络模型研究[J].计算机工程与设计,2007,28(11):2652-2654. 被引量：4

共引文献378

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
3李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：4
4王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
5熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
6林永民,吕震宇,赵爽,朱卫东.文本特征加权方法TF·IDF的分析与改进[J].计算机工程与设计,2008,29(11):2923-2925. 被引量：10
7吕震宇,林永民,赵爽,陈景年,朱卫东.基于类信息的文本特征选择与加权算法研究[J].计算机工程与应用,2008,44(20):145-147. 被引量：8
8褚力,张世永.基于集成合并的文本特征提取方法[J].计算机应用与软件,2008,25(10):212-213. 被引量：1
9吕震宇,赵爽,林永民.kNN在文本分类中的应用研究[J].计算机与现代化,2008(11):69-72. 被引量：3
10朱振方,刘培玉,张洪军,王美方.基于退火遗传算法的网络信息过滤系统研究[J].计算机工程与设计,2009,30(2):419-422. 被引量：3

同被引文献249

1宰新宇,田学东.基于公式描述结构和词嵌入的科技文档检索方法[J].数据分析与知识发现,2020,4(1):131-138. 被引量：4
2王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
3余丹.关于查全率和查准率的新认识[J].西南民族大学学报（人文社会科学版）,2009,30(2):283-285. 被引量：15
4王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
5单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
6伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
7谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量：9
8贾君枝,毛海飞.基于法律框架网络本体的语义匹配技术研究[J].情报理论与实践,2008,31(1):124-128. 被引量：5
9李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
10陈沈焰,吴军华.基于本体的概念语义相似度计算及其应用[J].微电子学与计算机,2008,25(12):96-99. 被引量：31

引证文献38

1李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
2秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
3闫海磊,施水才.一种面向时政新闻的命名实体识别方法[J].北京信息科技大学学报（自然科学版）,2018,33(6):23-26. 被引量：3
4尤垂桔,罗媛云,何月娟.Web大数据环境下P-信息聚合体生成及智能推送[J].宜春学院学报,2018,40(6):30-34.
5张诗林.基于Bi-LSTM和CRF的中文网购评论中商品属性提取[J].计算机与现代化,2019(2):93-97. 被引量：4
6曹湘,李誉坤,钱叶,闫晨阳,杨忠光.基于混合神经网络的电力短文本分类方法研究[J].计算机与数字工程,2019,47(5):1145-1150. 被引量：6
7曹彬,王峰,李诗语.面向中医领域的智能聊天机器人系统设计[J].电脑知识与技术,2019,15(4X):174-175. 被引量：1
8黑富郁,王景中,赵林浩.基于CNN和LSTM的异构数据舆情分类方法[J].计算机系统应用,2019,28(6):141-147. 被引量：11
9牛雪莹,赵恩莹.基于Word2Vec的微博文本分类研究[J].计算机系统应用,2019,28(8):256-261. 被引量：19
10牛雪莹.结合主题模型词向量的CNN文本分类[J].计算机与现代化,2019,0(10):7-10. 被引量：6

二级引证文献153

1章宣,赵宝奇,孙军梅,葛青青,肖蕾,尉飞.面向微博文本的自杀风险识别模型[J].计算机系统应用,2020,29(11):121-127. 被引量：3
2王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
3余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
4陆晨晨,王昊,石斌,裘靖文.面向电商用户评论的细粒度观点挖掘及其分布规律探究[J].知识管理论坛,2024(3):253-268.
5张秋颖,傅洛伊,王新兵.基于BERT-BiLSTM-CRF的学者主页信息抽取[J].计算机应用研究,2020,37(S01):47-49. 被引量：14
6张礼星,唐湘华,唐胜,章克昌.里氏木霉纤维素酶在大曲酒丢糟中的应用[J].酿酒科技,2000(3):52-53. 被引量：12
7王倩倩,陈康.在线评论文本特征表示方法研究[J].金陵科技学院学报（社会科学版）,2019,33(1):56-60. 被引量：1
8侯乔,陈宏伟.基于多策略改进蝙蝠算法的文本特征选择[J].湖北工业大学学报,2019,34(5):64-66.
9高昌盛.基于人工智能的鉴黄系统开发[J].数码世界,2019,0(11):54-54.
10谢琦,陈芑伊,李雅婷.基于双向长短时记忆网络的产品画像构建研究[J].信息与电脑,2019,31(22):22-23.

1姚灵菊.初中英语阅读教学中词汇教学的策略研究[J].新校园（中旬刊）,2018,0(3):46-46. 被引量：2
2董延华,陈中华,宋和烨,黄雨.改进特征匹配算法在银行卡号识别中的应用[J].吉林大学学报（理学版）,2018,56(1):126-129. 被引量：13
3杜修明,秦佳峰,郭诗瑶,闫丹凤.电力设备典型故障案例的文本挖掘[J].高电压技术,2018,44(4):1078-1084. 被引量：69
4郑星.高中英语写作中词块教学策略研究[J].考试周刊,2018,0(49):120-120. 被引量：1
5张静,周佐.基于联合法选取特征的产品评论情感分类研究[J].工业仪表与自动化装置,2018(1):10-14.
6魏方.经贸类学术型与专业学位研究生专业能力协同提升体系研究[J].对外经贸,2017(12):133-135. 被引量：2
7李冰,陈奡,张永伟.基于知识地图的文本分类方法[J].指挥信息系统与技术,2018,9(1):92-95. 被引量：2
8何金金,郭振波,王开西.基于TextRank的网评产品特征提取方法[J].青岛大学学报（自然科学版）,2018,31(1):109-114. 被引量：3
9曾珍珍.一种计算机视觉算法的图像处理技术[J].信息技术,2018,42(4):74-78. 被引量：8

计算机系统应用

2018年第5期

浏览历史

内容加载中请稍等...

基于Word2Vec的中文短文本分类问题研究被引量：38

参考文献6

二级参考文献109

共引文献378

同被引文献249

引证文献38

二级引证文献153

相关作者

相关机构

相关主题

浏览历史

基于Word2Vec的中文短文本分类问题研究 被引量：38

参考文献6

二级参考文献109

共引文献378

同被引文献249

引证文献38

二级引证文献153

相关作者

相关机构

相关主题

浏览历史

基于Word2Vec的中文短文本分类问题研究被引量：38