基于深度学习的词汇表示模型对比研究被引量：6

A Comparative Study of Word Representation Models Based on Deep Learning

导出

摘要【目的】系统揭示传统深度表示模型与最新预训练模型的原理,探究其在文本挖掘任务中的效果差异。【方法】采用对比研究法,从模型侧和实验侧分别比较传统模型与最新模型在CR、MR、MPQA、Subj、SST-2和TREC六个数据集上的效果差异。【结果】在六个任务中,XLNet模型取得了最高的平均F1值(0.9186),优于ELMo(0.8090)、BERT(0.8983)、Word2Vec(0.7692)、GloVe(0.7576)和FastText(0.7506)。【局限】由于篇幅限制,实证研究以文本挖掘中的分类任务为主,尚未比较词汇表示学习方法在机器翻译、问答等其他任务中的效果。【结论】传统深度表示学习模型与最新预训练模型在文本挖掘任务中的表现存在较大差异。 [Objective]This study systematically explores the principles of traditional deep representation models and the latest pre-training ones,aiming to examine their performance in text mining tasks.[Methods]We compared these models’data mining results from the model side and the experimental side.All tests were conducted with six datasets of CR,MR,MPQA,Subj,SST-2 and TREC.[Results]The XLNet model achieved the best average F1 value(0.9186),which was higher than ELMo(0.8090),BERT(0.8983),Word2 Vec(0.7692),GloVe(0.7576)and FastText(0.7506).[Limitations]Our research focused on classification tasks of text mining,which did not compare the performance of vocabulary representation methods in machine translation,Q&A and other tasks.[Conclusions]The traditional deep representation learning models and the latest pre-training ones yield different results in text mining tasks.

作者余传明王曼怡林虹君朱星宇黄婷婷安璐 Yu Chuanming;Wang Manyi;Lin Hongjun;Zhu Xingyu;Huang Tingting;An Lu(School of Information and Safety Engineering,Zhongnan University of Economics and Law,Wuhan 430073,China;School of Statistics and Mathematics,Zhongnan University of Economics and Law,Wuhan 430073,China;School of Information Management,Wuhan University,Wuhan 430072,China)

机构地区中南财经政法大学信息与安全工程学院中南财经政法大学统计与数学学院武汉大学信息管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第8期28-40,共13页 Data Analysis and Knowledge Discovery

基金国家自然科学基金面上项目“面向跨语言观点摘要的领域知识表示与融合模型研究”(项目编号:71974202) 中南财经政法大学中央高校基本科研业务费专项资金资助“大数据视角下的中美贸易战观点挖掘研究”(项目编号:2722019JX007)的研究成果之一。

关键词词汇表示学习知识表示深度学习文本挖掘 Word Representation Learning Knowledge Representation Deep Learning Text Mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1杨飘,董文永.基于BERT嵌入的中文命名实体识别方法[J].计算机工程,2020,46(4):40-45. 被引量：96
2张晓娟.利用嵌入方法实现个性化查询重构[J].情报学报,2018,37(6):621-630. 被引量：10
3李琳,李辉.一种基于概念向量空间的文本相似度计算方法[J].数据分析与知识发现,2018,2(5):48-58. 被引量：20
4袁书寒,向阳.词汇语义表示研究综述[J].中文信息学报,2016,30(5):1-8. 被引量：4
5赵亚欧,张家重,李贻斌,付宪瑞,生伟.融合基于语言模型的词嵌入和多尺度卷积神经网络的情感分析[J].计算机应用,2020,40(3):651-657. 被引量：26
6周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：100
7余传明.基于深度循环神经网络的跨领域文本情感分析[J].图书情报工作,2018,62(11):23-34. 被引量：22
8赵洪,王芳,王晓宇,张维冲,杨京.基于大规模政府公文智能处理的知识发现及应用研究[J].情报学报,2018,37(8):805-812. 被引量：28

二级参考文献36

1董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：97
2徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：107
3江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：106
4杨选选,张蕾.基于语义角色和概念图的信息抽取模型[J].计算机应用,2010,30(2):411-414. 被引量：19
5李亚楠,王斌,李锦涛.搜索引擎查询推荐技术综述[J].中文信息学报,2010,24(6):75-84. 被引量：29
6田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：177
7马凤闸,吴江宁,杨光飞.基于双重选择策略的跨领域情感倾向性分析[J].情报学报,2012,31(11):1202-1209. 被引量：5
8吕韶华,杨亮,林鸿飞.基于SimRank的跨领域情感倾向性分析算法研究[J].中文信息学报,2012,26(6):38-44. 被引量：6
9詹志建,梁丽娜,杨小平.基于百度百科的词语相似度计算[J].计算机科学,2013,40(6):199-202. 被引量：21
10张志武.跨领域迁移学习产品评论情感分析[J].现代图书情报技术,2013(6):49-54. 被引量：6

共引文献295

1罗扬,颜瑞新,李伟刚,朱登明.面向产学研服务的政策匹配方法与系统[J].计算机系统应用,2022,31(11):139-147.
2严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
3陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：13
4屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：6
5步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
6张剑,张立杰.新时代媒体舆论引导下网络语言信息传播耗损及构建研究[J].情报科学,2022,40(8):71-75.
7陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：18
8李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：3
9卓佳怡,于劲松,张力文,王浩然,吴聪,张舒,宋悦.基于TF-IDF算法的公文用户画像全文替换[J].办公自动化,2020(17):61-64. 被引量：1
10王安平,姚杰,曹林,苏维娜.石英位错的TEM衍衬象及其在地学中的应用[J].长春科技大学学报,2000,30(2):131-133.

同被引文献64

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2线岩团,相艳,余正涛,文永华,王红斌,张亚飞.用于文本分类的均值原型网络[J].中文信息学报,2020(6):73-80. 被引量：2
3周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
4孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：97
5章勇,吕俊白.基于Protege的本体建模研究综述[J].福建电脑,2011,27(1):43-45. 被引量：24
6王东波,苏新宁,朱丹浩,年洪东.基于支持向量机的医学期刊文章自动分类研究[J].情报理论与实践,2011,34(4):115-118. 被引量：11
7张征杰,王自强.文本分类及算法综述[J].电脑知识与技术,2012,8(2):825-828. 被引量：19
8陆伟,黄永,程齐凯.学术文本的结构功能识别——功能框架及基于章节标题的识别[J].情报学报,2014,33(9):979-985. 被引量：51
9欧石燕,唐振贵.面向图书馆关联数据的自动问答技术研究[J].中国图书馆学报,2015,41(6):44-60. 被引量：22
10易士翔,尹宏鹏,郑恒毅.基于BiLSTM的公共安全事件触发词识别[J].工程科学学报,2019,41(9):1201-1207. 被引量：7

引证文献6

1余传明,王峰,张贞港,孔令格,安璐.基于表示学习的知识库问答模型研究[J].科技情报研究,2021,3(1):56-70. 被引量：3
2贾澎涛,孙炜.基于深度学习的文本分类综述[J].计算机与现代化,2021(7):29-37. 被引量：18
3李家瑞,李华昱,闫阳.面向多源异质数据源的学科知识图谱构建方法[J].计算机系统应用,2021,30(10):59-67. 被引量：5
4王佳敏,吴乐艳,李鹏程,熊资,陆伟,杜佳.学术文献致谢功能数据集构建与识别方法研究[J].情报科学,2021,39(11):173-179. 被引量：2
5余传明,张贞港,孔令格.面向链接预测的知识图谱表示模型对比研究[J].数据分析与知识发现,2021,5(11):29-44. 被引量：8
6胡吉明,钱玮,文鹏,吕晓光.基于结构功能和实体识别的文本语义表示——以病历领域为例[J].数据分析与知识发现,2022,6(8):110-121. 被引量：5

二级引证文献40

1陈永芳.基于知识图谱的软件工程数据库设计[J].智能计算机与应用,2022,12(5):141-144. 被引量：1
2梁绍麟,郭传斌,毕佳,刘延斌,熊健楠,楼国强.以“服务即科研”模式驱动互联网医院向“研究型互联网医院”转变的探索[J].中国研究型医院,2023,10(S01):13-17.
3余传明,张贞港,孔令格.面向链接预测的知识图谱表示模型对比研究[J].数据分析与知识发现,2021,5(11):29-44. 被引量：8
4沈自强,李晔,丁青艳,王金颖,白全民.基于BERT模型的科技政策文本分类研究[J].数字图书馆论坛,2022(1):10-16. 被引量：15
5余传明,林虹君,张贞港.基于多任务深度学习的实体和事件联合抽取模型[J].数据分析与知识发现,2022,6(2):117-128. 被引量：8
6刘勘,徐勤亚,於陆.面向营商环境的知识图谱构建研究[J].数据分析与知识发现,2022,6(4):82-96. 被引量：5
7陈钢.融合RoBERTa和特征提取的政务热线工单分类[J].计算机与现代化,2022(6):21-26. 被引量：6
8任鹏,李文杰,舒宇杰,孙航,赵旖旎.结合BERT词嵌入和双向循环卷积神经网络的新闻文本分类研究[J].信息记录材料,2022,23(6):20-23. 被引量：2
9王晴,黄进,刘鑫,翟树红,方铮,李剑波.成果地质资料知识图谱构建与可视化[J].计算机系统应用,2022,31(8):140-145. 被引量：2
10顾孟钧,冯文舟,陈中兵.不同长度下中文垃圾邮件分类模型的研究[J].工业信息安全,2022(7):28-35. 被引量：1

1黄厚强,郭声敏,陈佩云,郑思琳.应用智能手机对2型糖尿病患者管理效果的系统评价[J].中国医药导报,2020,17(23):154-159. 被引量：1
2薛阿珍.谈锡剧的唱腔技法[J].艺术大观,2019,0(34):0238-0238.
3罗凌,杨志豪,宋雅文,李楠,林鸿飞.基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究[J].计算机学报,2020,43(10):1943-1957. 被引量：44
4张彦,汪天赐,蔡婧,李亚娟.表没食子儿茶素没食子酸酯促进2型糖尿病伤口愈合的实验研究[J].安徽医药,2020,24(9):1712-1718. 被引量：5
5张忠林,李林川,朱向其,马海云.ON-LSTM和自注意力机制的方面情感分析[J].小型微型计算机系统,2020,41(9):1839-1844. 被引量：13
6赵崎慧,黄燕,陈允恩,彭焱,程淑英.心理护理对功能性消化不良患者焦虑抑郁干预效果的meta分析[J].世界最新医学信息文摘,2020(1):1-4. 被引量：2
7宗春梅,张月琴,曹建芳,赵青杉.基于深度先验及非局部相似性的压缩感知核磁共振成像[J].计算机应用,2020,40(10):3054-3059. 被引量：1
8马月琴,贾子瑞,莫劲雁,辜云杰,李晓清.油麦吊云杉天然种群针叶与种实表型性状变异分析[J].四川农业大学学报,2020,38(4):423-429. 被引量：3
9白姣姣,柯显信,曹斌.基于注意力机制的视觉问答任务研究[J].计算机应用与软件,2020,37(10):145-150. 被引量：1
10田晓江,王晓莉,王柯静,陈琳.基于美国FDA不良事件报告数据库的达比加群酯相关出血事件信号检测与分析[J].药物不良反应杂志,2020,22(7):398-403. 被引量：4

数据分析与知识发现

2020年第8期

浏览历史

内容加载中请稍等...

基于深度学习的词汇表示模型对比研究被引量：6

参考文献8

二级参考文献36

共引文献295

同被引文献64

引证文献6

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于深度学习的词汇表示模型对比研究 被引量：6

参考文献8

二级参考文献36

共引文献295

同被引文献64

引证文献6

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于深度学习的词汇表示模型对比研究被引量：6