一种低频词词向量优化方法及其在短文本分类中的应用被引量：7

Word Embedding Optimization for Low-frequency Words with Applications in Short-text Classification

下载PDF

导出

摘要众多自然语言处理(Natural Language Processing,NLP)任务受益于在大规模语料上训练的词向量。由于预训练的词向量具有大语料上的通用语义特征,因此将这些词向量应用到特定的下游任务时,往往需要通过微调进行一定的更新和调整,使其更适用于目标任务。但是,目标语料集中的低频词由于缺少训练样本,导致在微调过程中无法获得稳定的梯度信息,使得词向量无法得到有效更新。而在短文本分类任务中,这些低频词对分类结果同样有着重要的指示性。因此,在具体的短文本分类任务上获得一个更好的低频词词向量表示是有必要的。针对这个问题,文中提出了一种与下游任务模型无关的低频词词向量更新算法,通过基于K近邻的词向量偏移计算方法,利用通用词向量中与低频词相似的高频词所获得的任务特征信息,来指导低频词的信息更新,从而获得更准确的且适用于当前任务语境的低频词词向量表示;并以TextCNN作为基准模型,基于word2vec和GloVe得到的两个通用预训练词向量,在3个公开的短文本数据集上进行了优化算法的效果验证。实验结果表明,使用优化算法更新低频词词表示后,模型分类准确率能达到84.3%~94%,较更新前提升了0.4%~1.4%,体现了优化算法的有效性,也进一步证明了短文本分类任务中低频词对分类结果的影响,为短文本分类的研究工作提供了一定的借鉴。 Many Natural Language Processing(NLP)tasks have benefitted from the public availability of general-purpose vector representations of words trained with large-scale datasets.Since pre-trained word embeddings only have general semantic features from large corpus,it is often necessary to fine-tune these embeddings to make them more suitable for target tasks when it is applied to certain downstream tasks.But,the words with low occurrence frequencies can hardly receive stable gradient information when fine-tuning.However,low-frequency terms are likely to convey important class-specific information in tasks for short text classification.Therefore,it is necessary to obtain a better low-frequency word embedding on the specific task.To address the problem,this paper proposes a model-agnostic algorithm,which optimizes the vector representations of these words according to the task specifics.This approach leverages the update information from common words to guide the embedding updating on rare words.It helps achieve more effective embeddings for the low-frequency words.Our evaluation on three public short-text classification tasks shows that the proposed algorithm produces better task-specific embeddings for rarely occurring words,as a result,the model performance is improved from 0.4%to 1.4%on these tasks.It proves the positive influence of low frequency words on short-text classification tasks,which can shed light on short text classification tasks.

作者程婧刘娜娜闵可锐康昱王新周扬帆 CHENG Jing;LIU Na-na;MIN Ke-rui;KANG Yu;WANG Xin;ZHOU Yang-fan(School of Computer Science,Fudan University,Shanghai 201203,China;Shanghai Key Laboratory of Intelligent Information Processing,Shanghai 201203,China;META SOTA,Shanghai 200135,China;Microsoft Research,Beijing 100080,China)

机构地区复旦大学计算机科学技术学院上海市智能信息处理重点实验室上海市秘塔网络科技有限公司微软亚洲研究院

出处《计算机科学》 CSCD 北大核心 2020年第8期255-260,共6页 Computer Science

基金国家自然科学基金(61702107) 赛尔网络下一代互联网技术创新项目(NGII20180611)。

关键词词向量低频词微调短文本分类 Word embedding Low-frequency word Fine-tuning Short text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献76

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2罗永合.语义场理论在语言表达中的运用与理解[J].解放军外国语学院学报,1999,22(3):19-21. 被引量：16
3刘叔新.略谈现代汉语同义词的特点[J].汉语学习,1984(3):26-35. 被引量：9
4王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
5符淮青.同义词研究的几个问题[J].中国语文,2000(3):221-227. 被引量：25
6杨泉,冯志伟.机用现代汉语“n+n”结构歧义研究[J].语言研究,2005,25(4):105-111. 被引量：10
7时念云,褚希,张金明.基于语义的决策树挖掘方法研究[J].微计算机应用,2007,28(12):1288-1291. 被引量：2
8田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
9刘志杰,吕学强,程涛.搜索引擎日志中“N_1+N_2”型名词短语研究[J].现代图书情报技术,2010(12):58-63. 被引量：9
10倪廓阔,吕学强,韩艳铧,王涛.搜索引擎中“N1+N2”型短语查询优化研究[J].计算机应用与软件,2012,29(9):117-121. 被引量：5

引证文献7

1杨泉.基于Logistic函数的《同义词词林》语义相似度计算[J].计算机与现代化,2021(1):111-119. 被引量：3
2王文松,孙祥娥.基于AM⁃CNN算法下多特征融合实现文本分析[J].现代电子技术,2021,44(13):65-70. 被引量：4
3施国良,陈宇奇.文本增强与预训练语言模型在网络问政留言分类中的集成对比研究[J].图书情报工作,2021,65(13):96-107. 被引量：10
4杨泉.一种基于决策树和词义相似度的N1+N2结构语法关系判定方法[J].计算技术与自动化,2021,40(4):36-41. 被引量：1
5罗孝波,林佳瑜,梁祖红,王漳.针对低频词进行改进的中文短文本分类方法[J].计算机应用研究,2022,39(2):468-473. 被引量：3
6杨泉.知识本体与词向量结合的词义相似度强化学习计算方法[J].重庆理工大学学报（自然科学）,2022,36(1):128-135. 被引量：1
7耿新青,王正欧.基于增量式模糊聚类算法的文本挖掘[J].南京理工大学学报,2022,46(5):579-585. 被引量：4

二级引证文献26

1潘禄生.基于知识图谱的个性化甘肃旅游线路推荐方法研究[J].电子制作,2021,29(17):56-59. 被引量：2
2杨泉.知识本体与词向量结合的词义相似度强化学习计算方法[J].重庆理工大学学报（自然科学）,2022,36(1):128-135. 被引量：1
3秦精俏,王彤,王玉珍.基于Word2vec_BiLSTM的用餐评论情感分析[J].枣庄学院学报,2022,39(2):37-44. 被引量：2
4杨中刚.新型节能用电信息智能采集系统设计[J].自动化仪表,2022,43(8):73-78. 被引量：1
5黄秀彬,许世辉,赵阳,居强,何学东.基于ResNet-BiLSTM模型的电力客服工单分类研究[J].电子设计工程,2022,30(22):179-183. 被引量：3
6刘逍,龚庆悦,李铁军,王红云.基于SimBERT的中医医案实体间关系抽取[J].软件导刊,2022,21(11):12-18. 被引量：2
7胡晓辉.一种基于特征权重的文本分类新算法[J].科技创新与应用,2023,13(4):39-42.
8陈姝睿,梁子然,饶洋辉.细粒度语义知识图谱增强的中文OOV词嵌入学习[J].计算机科学,2023,50(3):72-82. 被引量：2
9姜姗,赵春霞,朱红磊.多媒体背景下思政教育资源高效挖掘方法研究[J].信息与电脑,2022,34(23):238-240.
10赵一鸣,潘沛,毛进.基于任务知识融合与文本数据增强的医学信息查询意图强度识别研究[J].数据分析与知识发现,2023,7(2):38-47. 被引量：8

1吴庆俊.初中物理教学中发展学生核心素养的三个关键着力点[J].中学物理教学参考,2020(10):66-66.
2高玉萍.探究式学习在中学地理教学中的应用[J].中学课程辅导（上旬刊）,2020(10):25-26.
3谢飞,李鹏,温建民,孙卫东.外泌体在骨再生中的作用及机制研究[J].中国骨质疏松杂志,2020,26(5):737-740. 被引量：4
4吴阳阳,黄侃.大数据背景下网络舆情监测与群体性事件预防[J].经济与社会发展研究,2020,0(20):0251-0252. 被引量：1
5郭文斌.蟾蜍汤治疗母猪乳房炎的效果验证[J].中兽医学杂志,2020(5):61-61.
6陆金梁,张家俊.基于多语言预训练语言模型的译文质量估计方法[J].厦门大学学报（自然科学版）,2020,59(2):151-158. 被引量：10
7龙廷艳,万良,丁红卫.自编码网络在JavaScript恶意代码检测中的应用研究[J].计算机科学与探索,2019,13(12):2073-2084. 被引量：4
8朱胜强.通过探究性学习发展学生向量应用意识[J].数学通报,2020,59(4):43-46.
9葛元钟.提高初中科学模型思维的教学策略研究[J].中学物理,2020,38(14):9-12. 被引量：2
10葛鹏,张文强,金炜东,郭建,何贤坤.具有可解释性的OFDM雷达信号识别方法[J].太赫兹科学与电子信息学报,2020,18(2):228-234. 被引量：2

计算机科学

2020年第8期

浏览历史

内容加载中请稍等...

一种低频词词向量优化方法及其在短文本分类中的应用被引量：7

同被引文献76

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种低频词词向量优化方法及其在短文本分类中的应用 被引量：7

同被引文献76

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种低频词词向量优化方法及其在短文本分类中的应用被引量：7