期刊文献+
共找到653篇文章
< 1 2 33 >
每页显示 20 50 100
自然语言处理领域中的词嵌入方法综述 被引量:2
1
作者 曾骏 王子威 +2 位作者 于扬 文俊浩 高旻 《计算机科学与探索》 CSCD 北大核心 2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的... 词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 展开更多
关键词 向量 嵌入方法 自然语言处理 语言模型 向量评估
下载PDF
基于词嵌入的科研主题排序研究
2
作者 何东彬 陶莎 +1 位作者 任延昭 朱艳红 《北方工业大学学报》 2024年第1期136-149,共14页
为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实... 为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义。针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中。实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法。 展开更多
关键词 主题模型 潜在狄利克雷分配(LDA) 主题排序 科研主题 嵌入
下载PDF
DUWe:动态未知词嵌入方法在Web异常检测中的应用
3
作者 王丽 陈刚 +1 位作者 夏明山 胡皓 《计算机科学》 CSCD 北大核心 2024年第S01期914-918,共5页
现有的基于深度学习模型的词嵌入方法用于Web异常检测时,通常将语料库中没有出现的未知词汇(Out of Vocabulary,OOV)设置为unknown,并赋予零或随机向量输入到模型中进行训练,未考虑未知词汇在Web请求语句中的上下文关系。同时,在Web系... 现有的基于深度学习模型的词嵌入方法用于Web异常检测时,通常将语料库中没有出现的未知词汇(Out of Vocabulary,OOV)设置为unknown,并赋予零或随机向量输入到模型中进行训练,未考虑未知词汇在Web请求语句中的上下文关系。同时,在Web系统代码开发过程中,基于个人习惯并为了增加代码的可读性,程序员设计的请求路径代码往往存在一定的模式。因此,考虑到Web请求的模式和单词语义间的相关性,研究基于Word2vec的动态未知词表示方法DUWe(Dynamic Unknown Word Embedding),该方法通过分析Web请求路径中单词上下文的关系来赋予未知词向量的表示内容。在CSIC-2010和WAF Dataset数据集上的实验评估表明,增加未知词表示方法比仅用Word2vec静态特征提取方法具有更好的性能,同时在准确性、精准率、召回率和F1-Score方面均有提高,在训练时间上最大降低1.14倍。 展开更多
关键词 未知 Web异常检测 动态嵌入 嵌入优化 深度学习
下载PDF
融合Word2Vec词嵌入的多核卷积神经网络音乐歌词多情感分类方法
4
作者 张昱 冯亚寒 丁千惠 《科学技术与工程》 北大核心 2024年第20期8598-8605,共8页
目前,音乐歌词情感分类大多以二标签极性情感为主,多情感标签分类较少,并且对于情感性不确定的歌词而言,得到的分类性能不高。为了解决多情感标签研究分类的不足,以及提高分类准确性,提出一种利用Word2Vec词嵌入技术,并使用多核卷积神... 目前,音乐歌词情感分类大多以二标签极性情感为主,多情感标签分类较少,并且对于情感性不确定的歌词而言,得到的分类性能不高。为了解决多情感标签研究分类的不足,以及提高分类准确性,提出一种利用Word2Vec词嵌入技术,并使用多核卷积神经网络作为分类器的音乐歌词多情感分类方法。该方法首先结合音乐歌词文本,进行数据预处理和可视化分析;其次利用Word2Vec词嵌入提取歌词局部特征,构建特征情感向量,挖掘歌词中情感信息,将歌词转化为更利于分类器模型输入的词向量;最后在分类器中,选用卷积神经网络模型,并在此基础上采用不同高度卷积核的方式构建新模型以此得到多情感分类。结果表明:音乐歌词多情感分类的结果达到94.26%,与传统CNN相比,分类精确率提高了6.86%,取得了良好性能。 展开更多
关键词 自然语言处理 情感分类 卷积神经网络 嵌入 文本分类 音乐歌
下载PDF
基于双向长短时记忆和卷积Transformer的声学词嵌入模型
5
作者 高芸芸 赵腊生 张强 《计算机应用》 CSCD 北大核心 2024年第1期123-128,共6页
示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-L... 示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。 展开更多
关键词 卷积神经网络 声学嵌入 语音信息 示例查询语音关键检测 循环神经网络
下载PDF
基于词嵌入的机器学习方法预测RNA柔性
6
作者 朱晓锋 常富斌 李春华 《生物物理学》 2024年第2期23-30,共8页
RNA分子的动力学与其功能密切相关。RNA分子的柔性,作为其动力学最基本的特性之一,已被广泛用于研究其折叠性质、结构稳定性和配体结合能力等诸多方面。实验测定RNA柔性的方法往往比较耗时费力,因此急需发展一种快速、准确的理论方法来... RNA分子的动力学与其功能密切相关。RNA分子的柔性,作为其动力学最基本的特性之一,已被广泛用于研究其折叠性质、结构稳定性和配体结合能力等诸多方面。实验测定RNA柔性的方法往往比较耗时费力,因此急需发展一种快速、准确的理论方法来预测RNA的柔性。为此,本文提出了一种机器学习方法RNAfwe来预测RNA柔性,该方法采用词嵌入技术提取RNA序列特征。RNAfwe与同类基于序列的RNAflex方法比较,结果显示:相比于使用独热编码的RNAflex (One-Hot),RNAfwe在训练和测试集上都获得了更高的皮尔逊相关系数(PCC) 0.5017和0.4704,这表明词嵌入相较于独热编码可从RNA序列中提取与柔性更相关的特征;相比于利用进化信息的RNAflex (PSSM),尽管RNAfwe的性能稍差,但前者需要知道足够的同源序列。这项工作有助于RNA动力学性质的研究,另外为词嵌入技术广泛用于生物信息学研究提供了支持。RNA molecular dynamics is closely related to their functions. The flexibility of RNA molecules, as one of the most fundamental characteristics of their dynamics, has been widely used to study their folding properties, structural stability, ligand binding ability and so on. Experimental methods for measuring RNA flexibility are often time-consuming and labor intensive, so there is an urgent need to develop a fast and accurate theoretical method to predict RNA flexibility. To this end, we propose a machine learning method, RNAfwe, to predict RNA flexibility, which uses the word embedding technique to extract RNA sequence features. The comparison of RNAfwe with the similar sequence-based RNAflex method shows that compared with RNAflex (One-Hot), RNAfwe obtains higher Pearson correlation coefficients (PCC) of 0.5017 and 0.4704 on both training and test sets, indicating that the word embedding could extract the more related features to flexibility from RNA sequences than the one-hot encoding. Compared with RNAflex (PSSM) which uses evolutionary information, although RNAfwe has a slightly inferior performance, the former requires the knowledge of sufficient homologous sequences. This work contributes to the study of RNA dynamic properties, and provides the support for word embedding technique to be widely used in bioinformatics research. 展开更多
关键词 RNA柔性 嵌入 机器学习
下载PDF
结合词嵌入技术的中文输入法词库取证模型研究
7
作者 王子昂 汤艳君 孙晓磊 《警察技术》 2024年第2期73-77,共5页
中文输入法软件在日常生活中的使用非常频繁,词库包含许多能够反应用户行为习惯的关键词。目前关于中文输入法词库的取证研究多为对词库中存储字词的提取与词频分析,并不能高效地为侦查人员提供案件相关线索。针对以上问题,提出了结合... 中文输入法软件在日常生活中的使用非常频繁,词库包含许多能够反应用户行为习惯的关键词。目前关于中文输入法词库的取证研究多为对词库中存储字词的提取与词频分析,并不能高效地为侦查人员提供案件相关线索。针对以上问题,提出了结合词嵌入技术的中文输入法词库取证模型,在输入法取证中使用Word2Vec算法中的Skip-Gram模型提取案件相关文本的词向量,并结合向量的关联性分析,补充字典。通过将基于该模型研发的取证工具与常见电子数据取证工具对同一检材的取证结果进行对比,可以验证模型相对高效地提取词库中与案件相关的关键词,为公安机关打击违法犯罪提供借鉴。 展开更多
关键词 嵌入技术 中文输入法 电子数据取证 Skip-Gram模型
下载PDF
词向量嵌入在优化聚类算法中的应用
8
作者 肖明魁 《福建电脑》 2024年第9期1-6,共6页
为提高聚类算法处理文本数据的效率和效果,本文研究词嵌入技术在文本聚类任务中的有效性和实用性。通过对航空公司服务评论数据集的实证分析,结果显示,词向量嵌入技术能有效捕获语义信息,显著提升聚类准确性和解释性。
关键词 嵌入技术 文本聚类 向量 聚类分析
下载PDF
改革开放40余年中国幸福观的内容维度与历史沿革——基于词嵌入技术的计算文本分析
9
作者 李志强 蔡慧 +2 位作者 韩馨颖 刘佳妮 冉雅璇 《营销科学学报》 2024年第1期54-78,共25页
改革开放四十余年以来,快速变迁的社会环境对中国社会的文化心理产生了深远影响,中国社会对“何为幸福”的认知也经历着时代变迁。文章首先通过梳理相关文献和采用深度访谈方法,提炼出兼具民族特色和时代特征的五大幸福观维度——“物... 改革开放四十余年以来,快速变迁的社会环境对中国社会的文化心理产生了深远影响,中国社会对“何为幸福”的认知也经历着时代变迁。文章首先通过梳理相关文献和采用深度访谈方法,提炼出兼具民族特色和时代特征的五大幸福观维度——“物质满足”“人际支持”“自我实现”“自然和谐”和“家国情怀”。在此基础上,文章基于1979-2021年《人民日报》上的新闻文本数据,采用词嵌入(word embeddings)技术(一种刻画词汇间语义关联的机器学习方法)刻画中国幸福观的历史演变。结果发现,对于“何为幸福”这一问题,“自我实现”的重要性呈上升趋势,以“家国情怀”为中心的传统幸福理念也逐渐得到巩固;自千禧年以来,“物质满足”基础幸福观维度整体式微,“自然和谐”幸福观维度的地位迎来了社会的重视。通过构建幸福变化指数发现,近40年来五个历史时期(1982-1984年、1991-1993年、2000-2002年、2013-2014年、2017-2018年)里的经济社会变动对中国幸福观的变化产生了较大影响。文章不仅从横向(研究范式)与纵向(跨时段视角)拓展了社会文化心理的相关研究,而且对构建国民幸福指标体系和发展幸福产业具有指导意义。 展开更多
关键词 幸福观 文化心理变迁 嵌入 大数据文本 自然语言处理
下载PDF
词嵌入BERT-CRF玉米育种实体关系联合抽取方法 被引量:1
10
作者 李书琴 庞文婷 《农业机械学报》 EI CAS CSCD 北大核心 2023年第11期286-294,共9页
针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉... 针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm,ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数据基础。 展开更多
关键词 玉米育种 实体关系联合抽取 序列标注 BERT语言模型 嵌入
下载PDF
基于词嵌入技术的心理学研究:方法及应用 被引量:2
11
作者 包寒吴霜 王梓西 +5 位作者 程曦 苏展 杨盈 张光耀 王博 蔡华俭 《心理科学进展》 CSCD 北大核心 2023年第6期887-904,I0001-I0003,共21页
词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量... 词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来,基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分,深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用,并在时间和空间维度建立细粒度词向量数据库,更多开展基于词嵌入的社会变迁和跨文化研究。我们为心理学专门开发的R语言工具包PsychWordVec可以帮助研究者利用词嵌入技术开展心理学研究。 展开更多
关键词 自然语言处理 嵌入 向量 语义表征 语义关联 嵌入联系测验
下载PDF
多模态特征融合与词嵌入驱动的三维检索方法 被引量:1
12
作者 关日鹏 况立群 +2 位作者 焦世超 熊风光 韩燮 《计算机工程》 CAS CSCD 北大核心 2023年第4期101-107,113,共8页
在基于点云和图像的三维模型分类检索中,现有特征融合方法忽略了模态内的特征信息和模态间的互补信息,存在融合特征丢失的问题,且分类标签和预测特征之间缺乏高维相关性,检索准确率较低。针对该问题,提出一种多模态特征和词嵌入联合驱... 在基于点云和图像的三维模型分类检索中,现有特征融合方法忽略了模态内的特征信息和模态间的互补信息,存在融合特征丢失的问题,且分类标签和预测特征之间缺乏高维相关性,检索准确率较低。针对该问题,提出一种多模态特征和词嵌入联合驱动的网络结构,以对三维模型进行分类检索。在特征提取过程中,利用特征提取器提取来自点云和视图的三维模型特征,通过共享空间来对齐不同模态的特征。在模态融合过程中,计算不同模态之间的余弦相似度以增强模态特征,将增强特征进行拼接得到融合特征。在模型特征分类的过程中,通过建立词嵌入模型与分类标签的高维相关性实现三维模型特征的统一表示和分类检索。在ModelNet10和ModelNet40数据集上进行实验,结果表明,该网络的平均检索精度均值分别达到92.9%和91.5%,可以获取精准的三维模型特征描述符,与VoxNet、SCIF、MVCNN等检索方法相比,其能显著提高三维模型的检索精度和分类准确率。 展开更多
关键词 三维模型 特征融合 嵌入 深度学习 特征提取
下载PDF
融合BERT与词嵌入双重表征的汉越神经机器翻译方法 被引量:2
13
作者 张迎晨 高盛祥 +2 位作者 余正涛 王振晗 毛存礼 《计算机工程与科学》 CSCD 北大核心 2023年第3期546-553,共8页
神经机器翻译是目前主流的机器翻译方法,但在汉-越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到预训练语言模型中包含丰富的语言信息,将预训练语言模型表征融入神经机器翻译系统可能对低资... 神经机器翻译是目前主流的机器翻译方法,但在汉-越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到预训练语言模型中包含丰富的语言信息,将预训练语言模型表征融入神经机器翻译系统可能对低资源的机器翻译有积极作用,提出一种融合BERT预训练语言模型与词嵌入双重表征的低资源神经机器翻译方法。首先,使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立2种表征之间的联系后,使用拼接操作得到双重表征向量;然后,经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。在汉越语言对上的翻译结果表明,相比基准系统,在包含127000个平行句对的汉越训练数据中,该方法的BLEU值提升了1.99,在包含70000个平行句对的汉越训练数据中,该方法的BLEU值提升了4.34,表明融合BERT预训练语言模型和词嵌入双重表征的方法能够有效提升汉越机器翻译的性能。 展开更多
关键词 神经机器翻译 预训练语言模型 嵌入 汉语-越南语
下载PDF
基于词嵌入与Shapelet时序特征的智能合约漏洞检测方法研究 被引量:2
14
作者 白英民 师智斌 +3 位作者 信文阁 窦建民 张舒娟 王子建 《中北大学学报(自然科学版)》 CAS 2023年第4期381-387,共7页
随着区块链智能合约的广泛应用,出现了大量针对智能合约的漏洞攻击,智能合约的安全性成为国内外研究的新关注点。针对智能合约机器学习漏洞检测方法特征选取自动化程度低、误报率高,而深度学习语义建模不足,提取的抽象特征缺乏可解释性... 随着区块链智能合约的广泛应用,出现了大量针对智能合约的漏洞攻击,智能合约的安全性成为国内外研究的新关注点。针对智能合约机器学习漏洞检测方法特征选取自动化程度低、误报率高,而深度学习语义建模不足,提取的抽象特征缺乏可解释性等问题,提出了一种基于词嵌入和Shapelet时序特征的智能合约漏洞检测方法。首先,获取智能合约操作码,并采用词嵌入技术将其编码,获得操作码的语义向量特征表示;其次,将编码后得到的操作码序列,应用时序分析方法Shapelet-Transform获取智能合约操作码的Shapelet时序特征;最后,结合机器学习分类技术构建了漏洞检测模型。实验表明:二分类模型的准确度为82.15%,比FastText方法高19.40%,比TextCNN方法高5.92%;多分类模型的准确度为84.95%,比FastText方法高12.04%,比TextCNN方法高8.18%。该模型可以实现智能合约特征码时序特征的自主学习,在具备较高精确度的前提下,同时提供了可解释性漏洞检测依据。 展开更多
关键词 智能合约 漏洞检测 操作码 嵌入 时序特征
下载PDF
基于动态词嵌入对齐的无监督泰语依存句法分析 被引量:1
15
作者 张弘弢 文永华 王剑 《信息技术》 2023年第4期1-7,共7页
泰语的依存句法分析任务具有重要研究价值。但泰语作为低资源语言,缺乏公开可用的句法标注训练集,难以训练有效的依存解析模型。针对这种情况,借助泰语和英语间的动态词嵌入对齐矩阵,将在英语标注数据上训练的依存解析模型迁移到泰语中... 泰语的依存句法分析任务具有重要研究价值。但泰语作为低资源语言,缺乏公开可用的句法标注训练集,难以训练有效的依存解析模型。针对这种情况,借助泰语和英语间的动态词嵌入对齐矩阵,将在英语标注数据上训练的依存解析模型迁移到泰语中,分析无监督泰语依存句法。实验结果表明,该方法能有效地从无标注泰语数据中提取到依存句法知识。此外该方法还支持多语言联合训练迁移到泰语来提升泰语依存句法分析的性能。 展开更多
关键词 依存句法分析 泰语 无监督 动态嵌入对齐 迁移学习
下载PDF
基于词嵌入的元组级数据溯源方法
16
作者 杨彬 高俊涛 +3 位作者 王志宝 李菲 马强 江树涛 《计算机技术与发展》 2023年第12期49-57,共9页
在信息爆炸时代,数据量与日剧增,使用数据挖掘技术可挖掘其内在联系,但前提是所使用的数据正确无误,否则其后的一切工作将毫无意义。数据溯源技术可帮助数据分析人员快速定位到错误数据的来源和加工过程,减少错误数据的分析时间和难度,... 在信息爆炸时代,数据量与日剧增,使用数据挖掘技术可挖掘其内在联系,但前提是所使用的数据正确无误,否则其后的一切工作将毫无意义。数据溯源技术可帮助数据分析人员快速定位到错误数据的来源和加工过程,减少错误数据的分析时间和难度,对数据质量控制与可信管理具有重要价值。现有的元组级数据溯源方法存在存储开销大和溯源效率低的问题,文章使用词嵌入技术改进元组级数据溯源方法。首先,研究元组向量化编码机制,依据元组向量相似度识别元组溯源关系;其次,提出基于属性重要性的优化算法提高溯源的精确率;再次,引入近似最近邻搜索和元组过滤优化机制降低溯源时间复杂度;最后,采用有向无环图展示元组数据的溯源关系。实验结果表明,该方法精确率较高、时间复杂度较低、存储消耗较少,能够有效改进元组级数据溯源方法。 展开更多
关键词 结构化数据 数据溯源 元组向量 相似度比较 嵌入
下载PDF
融合词簇约束的汉越跨语言词嵌入
17
作者 武照渊 余正涛 黄于欣 《计算机工程》 CAS CSCD 北大核心 2023年第1期82-91,共10页
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分... 针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。 展开更多
关键词 汉越双语 低资源语言 跨语言嵌入 簇对齐 多粒度约束
下载PDF
细粒度语义知识图谱增强的中文OOV词嵌入学习 被引量:2
18
作者 陈姝睿 梁子然 饶洋辉 《计算机科学》 CSCD 北大核心 2023年第3期72-82,共11页
随着信息化领域的范围不断扩大,许多特定领域的文本语料开始涌现。这些特定领域,如医疗、通信等,由于受到安全性和敏感性的影响,其数据规模通常较小,传统的词嵌入学习模型难以获得有效的结果。另一方面,直接应用现有的预训练语言模型时... 随着信息化领域的范围不断扩大,许多特定领域的文本语料开始涌现。这些特定领域,如医疗、通信等,由于受到安全性和敏感性的影响,其数据规模通常较小,传统的词嵌入学习模型难以获得有效的结果。另一方面,直接应用现有的预训练语言模型时会出现较多未登录词,这些词汇无法表示成向量,从而影响下游任务的性能表现。许多学者开始研究如何利用细粒度语义信息来得到较高质量的未登录词向量表示。然而,当前的未登录词嵌入学习模型大多针对英文语料,对中文词的细粒度语义信息只能进行简单的拼接或映射,难以在中文未登录词嵌入学习任务中得到有效的向量表示。针对上述问题,首先通过中文构字规则,即中文词所包含的汉字、汉字所包含的部件和拼音等,构建细粒度的知识图谱,使其不仅能涵盖汉字和单词之间的关联关系,还能对拼音和汉字、组件和汉字等细粒度语义信息之间的多元且复杂的关联关系进行表征。然后,在知识图谱上运行图卷积算法,从而对中文词的细粒度语义信息之间以及它们与词语义之间更深层次的关系进行建模。此外,文中通过在子图结构上构建图读出来进一步挖掘细粒度语义信息与词语义信息之间的组成关系,据此提升模型在未登录词嵌入推断中的精准度。实验结果表明,在面对未登录词占比较大的特定语料上的词配对、词相似任务,以及文本分类、命名实体识别等下游任务时,所提模型都取得了更好的性能。 展开更多
关键词 未登录嵌入学习 中文细粒度语义信息 细粒度知识图谱 图卷积网络学习
下载PDF
基于跨语言词嵌入对齐增强少数民族预训练语言模型
19
作者 申影利 鲍薇 +1 位作者 赵小兵 周毛克 《中文信息学报》 CSCD 北大核心 2023年第9期63-72,共10页
由于民族语言与汉语之间的词嵌入语义空间差距较大,导致预训练语言模型的跨语言迁移效果不佳。为此,该文设计了一个通过静态词嵌入对齐到上下文词嵌入空间中的新框架,以提升少数民族跨语言预训练语言模型在下游任务中的表现。该文首先... 由于民族语言与汉语之间的词嵌入语义空间差距较大,导致预训练语言模型的跨语言迁移效果不佳。为此,该文设计了一个通过静态词嵌入对齐到上下文词嵌入空间中的新框架,以提升少数民族跨语言预训练语言模型在下游任务中的表现。该文首先将由大规模单语数据训练的静态词嵌入进行跨语言对齐;其次,基于民汉平行语料从少数民族预训练语言模型CINO中抽取上下文词嵌入,并设计两种损失函数:双语词典归纳损失、对比学习损失,实现静态词嵌入对齐到上下文词嵌入的共享语义空间中;最后,我们将结合静态与上下文跨语言词嵌入对齐的CINO增强模型应用于双语词典归纳、文本分类以及机器翻译任务中,在多个语言对上的实验结果表明,相比鲁棒的基线系统,该文方法在标注语料匮乏的下游任务中均达到了显著的性能提升。 展开更多
关键词 嵌入对齐 少数民族预训练语言模型 双语典归纳 对比学习
下载PDF
基于词嵌入和BiLCNN-Attention混合模型的政务文本分类方法
20
作者 胡文烨 许鸿奎 +1 位作者 郭旭斌 赵京政 《计算机时代》 2023年第6期92-95,102,共5页
针对政务文本分析语境复杂、分类准确率低的问题,提出基于BERT词嵌入和BiLCNN-Attention混合模型的文本分类方法。首先采用BERT模型对政务文本进行词嵌入向量表示,然后混合使用双向长短时记忆网络BiLSTM和卷积神经网络CNN,同时引入注意... 针对政务文本分析语境复杂、分类准确率低的问题,提出基于BERT词嵌入和BiLCNN-Attention混合模型的文本分类方法。首先采用BERT模型对政务文本进行词嵌入向量表示,然后混合使用双向长短时记忆网络BiLSTM和卷积神经网络CNN,同时引入注意力机制进行特征提取,融合了时序特征及局部特征并使特征得到强化,最后使用Softmax进行文本分类。实验表明,BERT词嵌入处理后混合模型的准确率较CNN和BiLSTM模型分别提升了3.9%和2.51%。 展开更多
关键词 政务文本分析 嵌入 双向长短时记忆网络 卷积神经网络 注意力机制
下载PDF
上一页 1 2 33 下一页 到第
使用帮助 返回顶部