面向未登录词及多义词的共现性词嵌入改进被引量：1

Co-occurrence Word Embedding Improvement for Unknown and Polysemous Words

下载PDF

导出

摘要基于语料库构建词语语义性向量的词嵌入模型,可以定量刻画词语的上下文语义。然而,传统的词嵌入模型在揭示一词多义词汇的语义时,存在着语义空间向量维度不确定或缺乏直观可解释性等局限,此外,对于词汇表外未登录新词语的语义性嵌入识别,尚缺乏有效的途径。针对一词多义问题和未登录词问题,可将词嵌入的优势和词共现的优势相融合,以弥补传统词嵌入模型的语义空间维度不确定、语义维度不可解释及未登录词忽略等方面的不足。主要创新工作包括:基于训练后的词嵌入矩阵与单词归一化的共现矩阵,构建全局性语料词向量;为未登录词创建语料词向量,并与全局性语料词向量进行权重融合,以提高词嵌入的精确率。通过公开数据集的两项实验结果表明,基于词共现的一词多义及未登录词嵌入模型,可有效提升词嵌入的精确度,并可缩短词嵌入的进程时间。 The word embedding model of word semantic vector based on corpus can quantitatively describe the context semantics of words.However,the traditional word embedding model has some limitations in revealing the semantics of polysemy words,such as uncertain semantic space vector dimension or lack of intuitive interpretability.In addition,there is still a lack of effective way for the semantic embedding recognition of new words that are not registered outside the vocabulary.Aiming at the problem of polysemy and unlisted words,the advantages of word embedding and word co-occurrence can be combined to make up for the shortcomings of the traditional word embedding model,such as uncertain semantic space dimension,unexplainable semantic dimension and ignoring unlisted words.The main innovative work in this paper includes:constructing global corpus word vector based on the trained word embedding matrix and word normalized co-occurrence matrix;creating a corpus word vector for unregistered words and fusing the weight with the global corpus word vector to improve the accuracy of word embedding.Two experiments on public data sets show that the polysemy and unregistered word embedding model based on word co-occurrence can effectively improve the accuracy of word embedding and shorten the process time of word embedding.

作者李保珍顾秀莲 LI Bao-zhen;GU Xiu-lian(School of Information Engineering,Nanjing Audit University,Nanjing 211815,China)

机构地区南京审计大学信息工程学院

出处《计算机技术与发展》 2022年第12期117-122,共6页 Computer Technology and Development

基金国家自然科学基金(71673122,72074117) 江苏省社科基金项目(20WTB007) 江苏省研究生科研创新项目(KYCX21_1948)。

关键词词嵌入未登录词多义词共现矩阵词向量 word embedding unknown words polysemous word co-occurrence matrix word vector

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1李晓,解辉,李立杰.基于Word2vec的句子语义相似度计算研究[J].计算机科学,2017,44(9):256-260. 被引量：56
2邓晓衡,杨子荣,关培源.一种基于词义和词频的向量空间模型改进方法[J].计算机应用研究,2019,36(5):1390-1395. 被引量：16
3汪静,罗浪,王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用,2018,27(5):209-215. 被引量：38
4曾浩,詹恩奇,郑建彬,汪阳.基于扩展规则与统计特征的未登录词识别[J].计算机应用研究,2019,36(9):2704-2707. 被引量：8
5宰新宇,田学东.基于公式描述结构和词嵌入的科技文档检索方法[J].数据分析与知识发现,2020,4(1):131-138. 被引量：4
6潘博,于重重,张青川,徐世璇,曹帅.基于词性与词序的相关因子训练的word2vec改进模型[J].电子学报,2018,46(8):1976-1982. 被引量：10
7石隽锋,李济洪,王瑞波.一种改进的GloVe词向量表示学习方法[J].中文信息学报,2021,35(4):16-22. 被引量：6
8巴志超,李纲,朱世伟.基于语义网络的研究兴趣相似性度量方法[J].现代图书情报技术,2016(4):81-90. 被引量：11
9李舟军,王昌宝.基于深度学习的机器阅读理解综述[J].计算机科学,2019,46(7):7-12. 被引量：17
10李一野,邓浩江.基于改进余弦相似度的协同过滤推荐算法[J].计算机与现代化,2020,0(1):69-74. 被引量：12

二级参考文献68

1崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
2张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
3熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
4Abramo G, D’Angelo C A, Costa F. Identifying Interdisciplinary Through the Disciplinary Classification of Coauthors of Scientific Publications[J]. Journal of the American Society for Information Science and Technology, 2012, 63(11): 2206-2222.
5Jan Van Eck N, Waltman L. Appropritate Similarity Measure for Author Co-citation Analysis[J]. Journal of the American Society for Information Science and Technology, 2008, 59(10): 1653-1661.
6Zhao D, Strotman A.Evolution of Research Activities and Intellectual Influences in Information Science 1996-2005: Introducing Author Bibliographic-coupling Analysis[J]. Journal of the American Society for Information Science and Technology, 2008, 59(13): 2070-2086.
7Morris S A, Yen G G.Crossmaps: Visualization of Overlapping Relationships in Collections of Journal Papers[J]. Proceedings of the National Academy of Sciences, 2004, 101(S1): 5291-5296.).
8Onyancha O B, Ocholla D N.Is HTV/AIDS in Africa Distinct? What Can We Learn from an Analysis of the Literature[J]. Scientometrics, 2009, 79(1): 277-296.
9Mikolov T, Sutskever I, Chen K, et al.Distributed Representations of Words and Phrases and Their Compositionality [C]. In: Proceedings of the Neural Infornational Processing Systems Conference. Nevada, United States: Neural Information Processing Systems Foundation, 2013: 3111-3119.).
10Morin F, Bengio Y.Hierarchical Probabilistic Neural Network Language Model [C]. In: Proceedings of the International Workshop on Artificial Intelligence and Statistics. Cambridge: Cambridge University Press, 2005: 246-252.

共引文献173

1师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：11
2孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
3洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
4吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
5杨蒙蒙.会计档案影像化和机器阅读技术对财务工作的影响研究[J].财经界,2020(25):181-183. 被引量：3
6黄培红.面向知觉形式化特征的自然语言理解十年研究进展[J].智能安全,2022,1(2):90-100.
7远志.关于中医学跨世纪发展若干问题的思考[J].中医杂志,2000,41(1):5-6. 被引量：5
8王豫蓉.Hawley′s式下颌斜面导板在治疗乳牙反中的临床观察[J].重庆医科大学学报,2000,25(2):213-213.
9李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
10殷功俊.基于词向量的向量空间模型的改进[J].现代计算机,2018,24(24):32-35. 被引量：1

同被引文献14

1阴爱英,吴运兵,郑一江,余小燕.基于fastText模型的词向量表示改进算法[J].福州大学学报（自然科学版）,2019,47(3):314-319. 被引量：10
2王博,蔡弘昊,苏旸.基于VGGNet的恶意代码变种分类[J].计算机应用,2020,40(1):162-167. 被引量：14
3赵翠镕,张文杰,方勇,刘亮,张磊.基于语义API依赖图的恶意代码检测[J].四川大学学报（自然科学版）,2020,57(3):488-494. 被引量：12
4王勇,何养明,陈荟西,黎春.RHS-CNN:一种基于正则化层次Softmax的CNN文本分类模型[J].重庆理工大学学报（自然科学）,2020,34(5):187-195. 被引量：15
5王栋,杨珂,玄佳兴,韩雨桐,廖会敏,魏博垚.基于一维卷积神经网络的恶意代码家族多分类方法研究[J].计算机应用与软件,2021,38(12):332-336. 被引量：8
6畅鑫,李艳斌,田淼,陈苏逸,杜宇峰,赵研.基于一维卷积循环神经网络的深度强化学习算法[J].计算机测量与控制,2022,30(1):258-265. 被引量：8
7许丹丹,徐洋,张思聪,付子爔.基于DCNN-GRU模型的XSS攻击检测方法[J].计算机应用与软件,2022,39(2):324-329. 被引量：4
8杨宇夏,孙皓月,高燚.基于N-grams和灰度图特征融合的恶意代码检测方法[J].电脑知识与技术,2022,18(9):80-82. 被引量：3
9张光华,高天娇,陈振国,于乃文.基于N-Gram静态分析技术的恶意软件分类研究[J].计算机科学,2022,49(8):336-343. 被引量：4
10黄光红,林广栋,吴尔杰,赵旭东,宋亮亮.深度神经网络Softmax函数定点算法设计[J].中国集成电路,2022,31(7):60-64. 被引量：7

引证文献1

1张宇迪,冯永新,赵运弢.一种基于FastText的恶意代码家族分类方法[J].沈阳理工大学学报,2024,43(1):61-68.

1关云鹏,刘玉龙.基于从共现矩阵提取关联的类别型数据聚类[J].计算机与现代化,2022(11):1-8. 被引量：2
2国风不需要潮流[J].芭莎珠宝,2022(5):4-4.
3郭亚东.国外言据性研究的进展与动态[J].北京第二外国语学院学报,2022,44(5):119-129. 被引量：3
4王勇,江洋,王红滨,侯莎.面向科技情报分析的知识库构建方法[J].计算机工程与应用,2022,58(22):142-149.
5刘舸舸.结合MacBERT和多尺度融合网络的档案数据分类研究[J].电子设计工程,2022,30(19):65-68. 被引量：1
6沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
7陶金虎,郄海霞.高校自主设置交叉学科布局结构、编组模式与建设方式[J].高教文摘,2022(10):33-36.
8魏坛芳,张瑞鹏,何静,李海鸿.我国儿童肺动脉高压护理的文献计量学研究[J].全科护理,2022,20(32):4479-4483. 被引量：2
9李丽,金爱东.基于CiteSpace骨折联络服务知识图谱的可视化分析[J].循证护理,2022,8(23):3232-3239. 被引量：2
10茹仙古丽·玉素甫,阿依提拉·图尔贡.现代远程教育在“社会保障学”课程中的应用[J].科教导刊,2022(13):129-131.

计算机技术与发展

2022年第12期

浏览历史

内容加载中请稍等...

面向未登录词及多义词的共现性词嵌入改进被引量：1

参考文献11

二级参考文献68

共引文献173

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向未登录词及多义词的共现性词嵌入改进 被引量：1

参考文献11

二级参考文献68

共引文献173

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向未登录词及多义词的共现性词嵌入改进被引量：1