面向微博短文本分类的文本向量化方法比较研究被引量：14

Comparing Text Vector Generators for Weibo Short Text Classification

导出

摘要【目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式,以期在文本分类时获得较低的计算成本和较高的分类效果。【方法】使用文本中词的0-1矩阵进行分类,将分类效果作为基准线;采用Word2Vec算法生成词向量并用不同方式合成句子的向量表示,进行文本分类,并与基准线进行对比;利用Sent2Vec算法直接生成句子向量进行分类,综合评价3种方法的优缺点。【结果】研究显示使用Word2Vec算法和Sent2Vec算法能够极大程度上压缩文本特征,对比于使用所有3万多个词作为特征,Word2Vec算法和Sent2Vec算法将特征数压缩在1 000以内。在分类准确率方面,Word2Vec算法的分类准确率比基准线低约3%,准确率为75.14%。Sent2Vec算法的分类效果远不如其他两种方法,准确率只有63.08%。【局限】由于语料有限,Word2Vec算法在计算词向量时可能缺少足够的语义信息,导致词向量的准确性不高,而Sent2Vec算法在中文文本语境下生成句向量的分类结果较差。【结论】Word2Vec算法更适用大规模语料文本分类,在文本量较少时应使用词为特征分类。 [Objective] This paper uses the Word2Vec and Sent2Vec algorithms to generate vectors for the text posts of Sina Weibo, aiming to achieve lower computational cost and higher efficiency in text classification. [Methods] First, we classified words from the posts with the 0-1 matrix and used results as the baseline. Then, we used the Word2Vec algorithm to generate the word vector and the vector representation of the sentences in different ways. Third, we classified the Weibo posts using sentence vectors generated by the Sent2Vec algorithm. Finally we comprehensively evaluated the advantages and disadvantages of the three methods. [Results] Both Word2Vec and Sent2Vec algorithms could reduce the text features significantly. We used 30,000 words as features and found Word2Vec and Sent2Vec algorithms could reduce feature numbers to less than 1000. The classification accuracy rate of the Word2Vec algorithm was 75.14%, which was 3% lower than the baseline. The accuracy rate of the Sent2Vec algorithm was far less than the other two methods, with the accuracy rate was only 63.08%. [Limitations] The corpus size of this paper needs to be expanded. We found that the Word2Vec algorithm did not have enough semantic information to calculate word vector. However, Sent2Vec has poor classification results for Chinese sentence vectors. [Conclusions] Word2Vec algorithm is suitable for large-scale corpus classification, and words should be used as classification features for lack of text.

作者李心蕾王昊刘小敏邓三鸿 Li Xinlei;Wang Hao;Liu Xiaomin;Deng Sanhong(School of Information Management, Nanjing University, Nanjing 210023, China;Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China)

机构地区南京大学信息管理学院江苏省数据工程与知识服务重点实验室

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第8期41-50,共10页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目"面向学术资源的TSD与TDC测度及分析研究"(项目编号:71503121) "江苏青年社科英才"人才培养项目的研究成果之一

关键词短文本分类 Word2Vec 口语化文本词向量合成句向量 Short Text Classification Word2Vec Colloquial Text Word Vector Composition Sentence Vector

分类号 TP393 [自动化与计算机技术—计算机应用技术] G350 [文化科学—情报学]

引文网络
相关文献

参考文献16

1王峥,刘师培,彭艳兵.基于句法决策树和SVM的短文本语境识别模型[J].计算机与现代化,2017(3):13-17. 被引量：7
2郭东亮,刘小明,郑秋生.基于卷积神经网络的互联网短文本分类方法[J].计算机与现代化,2017(4):78-81. 被引量：13
3宋倩,王东明.基于遗传算法及概率论的文本分类算法[J].电脑与电信,2015(3):49-52. 被引量：2
4尹芳,郑亮,陈田田.基于Adaboost算法的场景中文文本定位[J].计算机工程与应用,2017,53(4):200-204. 被引量：6
5王日宏,崔兴梅,周炜,王成龙,李永珺.改进的基于语义理解的文本情感分类方法研究[J].计算机科学,2017,44(B11):92-97. 被引量：4
6王昊,邓三鸿,苏新宁.中文短文本自动分类中的汉字特征优化研究[J].情报理论与实践,2015,38(6):121-127. 被引量：4
7贺科达,朱铮涛,程昱.基于改进TF-IDF算法的文本分类方法研究[J].广东工业大学学报,2016,33(5):49-53. 被引量：22
8胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：38
9李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17
10杨天平,朱征宇.使用概念描述的中文短文本分类算法[J].计算机应用,2012,32(12):3335-3338. 被引量：7

二级参考文献145

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
4于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
5张爱丽,刘广利,刘长宇.基于SVM的多类文本分类研究[J].情报杂志,2004,23(9):6-7. 被引量：7
6刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
7John Durkin,蔡竞峰,蔡自兴.决策树技术及其当前研究方向[J].控制工程,2005,12(1):15-18. 被引量：62
8吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
9张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
10顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35

共引文献287

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
3孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
4齐浩翔,马莉媛,朱翌民.基于Word2Vec的疫情虚假信息检测方法[J].智能计算机与应用,2021,11(10):134-138. 被引量：3
5李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：4
6孙霞,郑庆华.教育资源元数据语义扩展查找方法的研究[J].计算机研究与发展,2004,41(12):2170-2174. 被引量：9
7谈文蓉,杨宪泽,刘莉.汉语自动排歧方法研究[J].西南民族大学学报（自然科学版）,2005,31(6):971-976. 被引量：1
8余希田,李丹亚,胡铁军.汉语自动分词歧义处理研究[J].医学信息学杂志,2007,28(6):541-544.
9韩耀廷,许志伟,刘利民.基于Storm云平台的增量文本分类机制研究[J].内蒙古工业大学学报（自然科学版）,2018,37(4):279-286.
10苏良良,雷蕾,李景文,黄敏杰.基于Word2Vec技术隐性特征挖掘及潜在升级投诉用户识别研究[J].电信技术,2018(12):36-39. 被引量：1

同被引文献174

1叶佳鑫,熊回香,蒋武轩.一种融合患者咨询文本与决策机理的医生推荐算法[J].数据分析与知识发现,2020,4(2):153-164. 被引量：9
2陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
3伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
4万小丽,朱雪忠.专利价值的评估指标体系及模糊综合评价[J].科研管理,2008,29(2):185-191. 被引量：221
5姜胜洪.网络舆情热点的形成与发展、现状及舆论引导[J].理论月刊,2008(4):34-36. 被引量：245
6朱凡微,吴明晖,金苍宏,吕嘉,应晶.基于关键字的数据库搜索研究综述[J].计算机应用研究,2008,25(11):3238-3242. 被引量：9
7胡琴,郑向前.成本法在无形资产价值评估中的应用[J].财会通讯（中）,2009(10):112-113. 被引量：7
8魏建良,朱庆华.社会化标注理论研究综述[J].中国图书馆学报,2009,35(6):88-96. 被引量：46
9刘晓亮,丁世飞,朱红,张力文.SVM用于文本分类的适用性[J].计算机工程与科学,2010,32(6):106-108. 被引量：26
10李振亚,孟凡生,曹霞.基于四要素的专利价值评估方法研究[J].情报杂志,2010,29(8):87-90. 被引量：59

引证文献14

1叶佳鑫,熊回香,蒋武轩.一种融合患者咨询文本与决策机理的医生推荐算法[J].数据分析与知识发现,2020,4(2):153-164. 被引量：9
2梁艳平,安璐,刘静.同类突发公共卫生事件微博话题共振研究[J].数据分析与知识发现,2020,4(2):122-133. 被引量：13
3王昊,虞为,孟镇,张卫.民生话题下政务微博评论Emotion-Cause Pair抽取方法研究[J].情报科学,2023,41(12):136-146.
4周庆华,李晓丽.基于MCNN的铁路信号设备故障短文本分类方法研究[J].铁道科学与工程学报,2019,16(11):2859-2865. 被引量：15
5叶佳鑫,熊回香,童兆莉,孟秋晴.在线医疗社区中面向医生的协同标注研究[J].数据分析与知识发现,2020,4(6):118-128. 被引量：4
6段尧清,姚兰.政媒融合问政平台非正式文本自动分类匹配研究[J].情报理论与实践,2020,43(6):156-161. 被引量：5
7许彩滇,刘晓丽.基于改进K-means算法的网络入侵行为取证研究[J].中国人民公安大学学报（自然科学版）,2020,26(2):68-74.
8李跃艳,熊回香,李晓敏.在线问诊平台中基于组合条件的医生推荐研究[J].数据分析与知识发现,2020,4(8):130-141. 被引量：8
9周雷.专利发明人对专利价值的影响研究--以中国科学院2018年3月专利拍卖为例[J].文献与数据学报,2020,2(4):70-83. 被引量：6
10韩广,卜桐,王明明,郑海青,孙晓云,金龙.基于双通道双向长短时记忆网络的铁路行车事故文本分类[J].铁道学报,2021,43(9):71-79. 被引量：5

二级引证文献84

1张博旭.铁路事故灰色关联分析[J].中国安全科学学报,2022,32(S02):60-63. 被引量：2
2蒋斓.集体记忆视角下的网络舆情共振研究[J].新媒体研究,2021,7(20):10-13.
3黄茜,贺超城,李欣儒,吴江.后疫情时代下短租民宿用户购买行为研究——基于BERT衡量的网络口碑[J].知识管理论坛,2023(3):238-257.
4魏太琛,刘敏榕,陈振标.高校专利可转化性与转化金额影响因素对比研究及其对高校专利分级管理的启示[J].知识管理论坛,2023(2):92-103. 被引量：1
5赵法森,刘飞翔,李泽荃,李靖.基于BiLSTM+Attention模型的煤矿事故隐患自动分类研究[J].煤炭科学技术,2022,50(S02):210-217. 被引量：1
6任娇菡,肖尤丹.中国科学院被质押专利现状、问题与对策研究[J].科技促进发展,2022,18(7):854-863.
7林海香,赵正祥,陆人杰,卢冉,白万胜,胡娜娜.基于字词融合的高铁道岔多级故障诊断组合模型[J].电子测量与仪器学报,2022,36(10):217-226. 被引量：2
8高继轩.《压力容器安全技术监察规程》问答[J].中国锅炉压力容器安全,2000,16(2):27-29. 被引量：3
9张玉霞.基于深度信念网络的铁路信号设备故障识别[J].信息技术,2020,44(5):150-154. 被引量：3
10李伟,孙玉梅,苏莉,丁炎明,迟春花.北京市社区居民对新型冠状病毒肺炎知识的调查分析[J].中华全科医学,2020,18(12):2060-2064. 被引量：4

1史晓刚.牢记使命创新拼搏[J].北京青年工作研究,2018,0(7):31-31.
2乐兵.在新时代释放青春之光[J].党的生活（河南）,2018,0(15):39-39.
3王磊,曾诚,奚雪峰,皮洲,顾建伟,卓文婕,陈帅天.基于Spark的海量文本评论情感分析[J].苏州科技大学学报（自然科学版）,2018,35(1):71-75. 被引量：4
4张焕成.基于词向量的手机网评观点句提取方法研究[J].信息通信,2017,30(2):32-35.
5陈亮,徐玲玲.一类特殊0-1二次规划问题解的必要条件和算法[J].南京师大学报（自然科学版）,2018,41(1):22-25.
6杨顺仪.2018年高考语言文字运用题解析[J].语文月刊,2018(9):65-73.
7马春平.犬细小病毒病的诊断与治疗方法比较研究[J].畜牧兽医科学（电子版）,2018,0(8):131-132.
8陈小敏,吴铿,秦喧柯,赵路朋,赵勇,潘文.基于粘结强度特征数的烧结矿强度评价方法[J].重庆大学学报（自然科学版）,2018,41(7):23-29. 被引量：3
9周翠华.围绕主线,让阅读教学纲举目张——以《世界上第一个听诊器》的教学为例[J].小学生作文辅导,2018,0(6):14-15.
10许艳霞,倪小英,陈志军,邓志坚.稻米中镉的快速检测方法比较研究[J].粮食与油脂,2018,31(9):93-96. 被引量：4

数据分析与知识发现

2018年第8期

浏览历史

内容加载中请稍等...

面向微博短文本分类的文本向量化方法比较研究被引量：14

参考文献16

二级参考文献145

共引文献287

同被引文献174

引证文献14

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

面向微博短文本分类的文本向量化方法比较研究 被引量：14

参考文献16

二级参考文献145

共引文献287

同被引文献174

引证文献14

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

面向微博短文本分类的文本向量化方法比较研究被引量：14