期刊文献+
共找到823篇文章
< 1 2 42 >
每页显示 20 50 100
Improve Neural Machine Translation by Building Word Vector with Part of Speech 被引量:2
1
作者 Jinyingming Zhang Jin Liu Xinyue Lin 《Journal on Artificial Intelligence》 2020年第2期79-88,共10页
Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot dist... Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot distinguish the same words under different parts of speech(POS).Aiming to alleviate this problem,this paper proposed a new word vector training method based on POS feature.It can efficiently improve the quality of translation by adding POS feature to the training process of word vectors.In the experiments,we conducted extensive experiments to evaluate our methods.The experimental result shows that the proposed method is beneficial to improve the quality of translation from English into Chinese. 展开更多
关键词 Machine translation parts of speech word vector
下载PDF
Paragraph Vector Representation Based on Word to Vector and CNN Learning 被引量:5
2
作者 Zeyu Xiong Qiangqiang Shen +1 位作者 Yijie Wang Chenyang Zhu 《Computers, Materials & Continua》 SCIE EI 2018年第5期213-227,共15页
Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learn... Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learning.The probability model is loss of semantic information in essential,and it influences the processing accuracy.Machine learning approaches include supervised,unsupervised,and semi-supervised approaches,labeled corpora is necessary for semantics model and supervised learning.The method for achieving a reliably labeled corpus is done manually,it is costly and time-consuming because people have to read each document and annotate the label of each document.Recently,the continuous CBOW model is efficient for learning high-quality distributed vector representations,and it can capture a large number of precise syntactic and semantic word relationships,this model can be easily extended to learn paragraph vector,but it is not precise.Towards these problems,this paper is devoted to developing a new model for learning paragraph vector,we combine the CBOW model and CNNs to establish a new deep learning model.Experimental results show that paragraph vector generated by the new model is better than the paragraph vector generated by CBOW model in semantic relativeness and accuracy. 展开更多
关键词 Distributed word vector distributed paragraph vector CNNS CBOW deep learning.
下载PDF
基于Word2vector的文本特征化表示方法 被引量:21
3
作者 周顺先 蒋励 +2 位作者 林霜巧 龚德良 王鲁达 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2018年第2期272-279,共8页
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词... 针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF-IDF模型进行对比实验;在Reuter-21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。 展开更多
关键词 word2vector 上下文关系 特征化表示 文本分类
下载PDF
一种基于Word2Vector与编辑距离的句子相似度计算方法 被引量:4
4
作者 陆尹浩 《电脑知识与技术(过刊)》 2017年第2X期146-147,共2页
随着各种问答系统的流行与聊天机器人的火热,对句子相似性的比较和处理越来越成为各类类似系统的核心部分。因此,研究并设计出一种好的句子相似性比较方法变得越来越关键。该文基于一种深度学习模型Word2Vector并且结合编辑距离算法提... 随着各种问答系统的流行与聊天机器人的火热,对句子相似性的比较和处理越来越成为各类类似系统的核心部分。因此,研究并设计出一种好的句子相似性比较方法变得越来越关键。该文基于一种深度学习模型Word2Vector并且结合编辑距离算法提出了一种句子相似度计算方法,给出了具体的设计思路,并且通过实验验证了该方法的有效性,最后总结了该方法的优缺点。 展开更多
关键词 句子相似度计算 word2vector 编辑距离 Edit Distance
下载PDF
基于Word2Vec的中文文本零水印算法 被引量:1
5
作者 戴夏菁 徐谊程 +1 位作者 王馨娅 佟德宇 《软件工程》 2023年第1期19-23,共5页
经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word... 经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word2Vec生成相应的特征词向量;然后采用SVD(奇异值分解)算法对其进行降维,并结合AES(高级加密标准)加密生成最终的零水印。水印检测时,通过对比SVD分解产生的特征值和特征向量判断版权归属。基于理论概述和实验结果综合分析,文章提出的零水印算法不需要对原始文本做任何修改,能够抵抗一定程度的增删、句型转换、同义词替换等攻击,具有一定的鲁棒性,切实有效地解决了文本的版权保护问题。 展开更多
关键词 word2Vec SVD 零水印 中文文本 词向量
下载PDF
自然语言处理领域中的词嵌入方法综述 被引量:2
6
作者 曾骏 王子威 +2 位作者 于扬 文俊浩 高旻 《计算机科学与探索》 CSCD 北大核心 2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的... 词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 展开更多
关键词 词向量 词嵌入方法 自然语言处理 语言模型 分词 词向量评估
下载PDF
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
7
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
下载PDF
基于字词向量融合的民航智慧监管短文本分类
8
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 短文本 文本卷积神经网络(TextCNN) 双向长短期记忆(BiLSTM)
下载PDF
基于用户偏好的多媒体视频个性化智能推荐方法研究
9
作者 董雯 曹奕萱 于小婷 《电子设计工程》 2024年第11期192-195,共4页
为了满足用户个性化需求,提出基于用户偏好的多媒体视频个性化智能推荐方法。采集用户历史浏览行为数据,对提取的视频特征向量作相似度计算,生成视频候选集,建立视频浏览兴趣点(PoI)关联图,根据用户浏览时间计算其对不同类别视频PoI的... 为了满足用户个性化需求,提出基于用户偏好的多媒体视频个性化智能推荐方法。采集用户历史浏览行为数据,对提取的视频特征向量作相似度计算,生成视频候选集,建立视频浏览兴趣点(PoI)关联图,根据用户浏览时间计算其对不同类别视频PoI的兴趣偏好度,选择排名靠前的N个视频生成推荐列表,实现多媒体视频个性化智能推荐。实验结果表明,该方法可实现多媒体视频个性化推荐,当其维度为180时,视频推荐的Top-1指标最高;兴趣吻合度指标均值达到94.9%,Top-1均值为95.51%。 展开更多
关键词 用户偏好 多媒体视频 个性化推荐 词向量 兴趣点(PoI) 推荐列表
下载PDF
基于A-BiLSTM和CNN的文本分类
10
作者 黄远 戴晓红 +2 位作者 黄伟建 于钧豪 黄峥 《计算机工程与设计》 北大核心 2024年第5期1428-1434,共7页
为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将... 为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将两者输出的特征信息融合,得到高级语义;A-BiLSTM双通道层后,使用优化CNN的强学习能力提取关键局部特征,得到最终文本特征表示。分类器输出文本信息的类别。实验结果表明,该模型分类效果优于其它对比模型,具有良好的泛化能力。 展开更多
关键词 文本分类 深度学习 双通道网络 注意力机制 双向长短时记忆网络 卷积神经网络 词向量模型
下载PDF
Word Embeddings and Semantic Spaces in Natural Language Processing
11
作者 Peter J. Worth 《International Journal of Intelligence Science》 2023年第1期1-21,共21页
One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse ... One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse of dimensionality, a problem which plagues NLP in general given that the feature set for learning starts as a function of the size of the language in question, upwards of hundreds of thousands of terms typically. As such, much of the research and development in NLP in the last two decades has been in finding and optimizing solutions to this problem, to feature selection in NLP effectively. This paper looks at the development of these various techniques, leveraging a variety of statistical methods which rest on linguistic theories that were advanced in the middle of the last century, namely the distributional hypothesis which suggests that words that are found in similar contexts generally have similar meanings. In this survey paper we look at the development of some of the most popular of these techniques from a mathematical as well as data structure perspective, from Latent Semantic Analysis to Vector Space Models to their more modern variants which are typically referred to as word embeddings. In this review of algoriths such as Word2Vec, GloVe, ELMo and BERT, we explore the idea of semantic spaces more generally beyond applicability to NLP. 展开更多
关键词 Natural Language Processing vector Space Models Semantic Spaces word Embeddings Representation Learning Text vectorization Machine Learning Deep Learning
下载PDF
基于Word2Vec和Bi-GRU的高职线上教评情感分析法试探
12
作者 李淼冰 王威 王成成 《广东水利电力职业技术学院学报》 2023年第3期73-77,共5页
为提高高职线上教评情感分析的准确度和效率,提出基于双向门控循环单元(Bi-GRU)网络的教评情感分析法。该方法利用Skip-gram神经网络学习教育领域特定的词嵌入向量,再利用两个相同架构的Bi-GRU网络,从不同角度实现对学生反馈的细粒度分... 为提高高职线上教评情感分析的准确度和效率,提出基于双向门控循环单元(Bi-GRU)网络的教评情感分析法。该方法利用Skip-gram神经网络学习教育领域特定的词嵌入向量,再利用两个相同架构的Bi-GRU网络,从不同角度实现对学生反馈的细粒度分析。实验结果表明,该方法内容分类和情感分类的准确度分别达到97%和95%,显著优于支持向量机(SVM)、长短时记忆网络(LSTM)等其他方法。 展开更多
关键词 教学评价 情感分析 双向门控循环单元 词嵌入向量 情感极性 细粒度分析
下载PDF
基于煤矿井下不安全行为知识图谱构建方法
13
作者 付燕 刘致豪 叶鸥 《工矿自动化》 CSCD 北大核心 2024年第1期88-95,共8页
虽然知识图谱已广泛应用于各个领域,但在煤矿安全方面,尤其在煤矿井下不安全行为方面的研究较少。构建了一种自底向上的煤矿井下不安全行为知识图谱。首先,采用传统机器学习和深度学习算法相结合的方法进行命名实体识别,采用RoBERTa进... 虽然知识图谱已广泛应用于各个领域,但在煤矿安全方面,尤其在煤矿井下不安全行为方面的研究较少。构建了一种自底向上的煤矿井下不安全行为知识图谱。首先,采用传统机器学习和深度学习算法相结合的方法进行命名实体识别,采用RoBERTa进行词语向量化,采用双向长短时记忆网络(BiLSTM)对向量进行标注,提高网络模型对上下文特征的捕捉能力,通过多层感知机(MLP)解决煤矿井下不安全行为数据集数据量不足的问题,采用条件随机场(CRF)模型解决前面存在的单词关系不识别问题,并捕获全文信息和预测结果。其次,根据语句的结构特点,设计了基于知识“实体-关系-实体”三元组的依存句法树结构,对井下不安全行为领域的知识资源进行知识抽取与表示。最后,构建面向井下不安全行为的知识图谱。实验结果表明:(1) RoBERTaBiLSTM-MLP-CRF模型对于导致结果、违反性行为、错误性行为及粗心性行为4类实体类别具有较好的识别效果,其准确率分别为86.7%,80.3%,80.7%,77.4%。(2)在相同的数据集下,RoBERTa-BiLSTM-MLP-CRF模型训练的准确率、召回率、F1值较RoBERTa-BiLSTM-CRF模型分别提高了1.6%,1.5%,1.6%。 展开更多
关键词 井下不安全行为 知识图谱 依存句法 命名实体识别 知识三元组 知识融合 知识存储 词语向量化
下载PDF
基于卷积神经网络的医疗护理实体关系抽取
14
作者 曹茂俊 胡喆 《电子设计工程》 2024年第8期18-22,共5页
针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化... 针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化为向量特征矩阵,实现了对医疗语料的自动过滤和标注。通过向神经网络模型嵌入所构建的医疗关系语料库,一定程度上提高了模型疾病分类的准确度。在医疗护理学数据集上的实验表明,基于卷积神经网络的模型在指标精确度、召回率、F1值可达到89.78%、87.59%、89.77%。综上所述,该研究提出的基于卷积神经网络的医疗护理学实体关系抽取方法能够有效地抽取医疗语料数据中的实体关系,优于传统的实体关系抽取模型。 展开更多
关键词 实体关系抽取 卷积神经网络 医疗护理学 词向量 知识图谱
下载PDF
基于位置增强词向量和GRU-CNN的方面级情感分析模型研究 被引量:1
15
作者 陶林娟 华庚兴 李波 《计算机工程与应用》 CSCD 北大核心 2024年第9期212-218,共7页
方面级情感分析旨在判断一段文本中特定方面词的情感倾向,其核心问题是方面词的上下文如何准确表征。与现有研究主要关注注意力机制的改进不同,该文从词语表征和上下文编码模型两个方面进行改进。在词语表征方面,通过BERT模型和位置度... 方面级情感分析旨在判断一段文本中特定方面词的情感倾向,其核心问题是方面词的上下文如何准确表征。与现有研究主要关注注意力机制的改进不同,该文从词语表征和上下文编码模型两个方面进行改进。在词语表征方面,通过BERT模型和位置度量公式获得增强的词向量表示;在上下文编码模型方面,使用GRU-CNN网络提取文本语义特征。在SemEval2014 Task4数据集上的实验表明,提出的模型在Restaurant和Laptop领域中的准确率分别达到了85.54%和80.35%,证实了所提出模型的有效性。 展开更多
关键词 方面级情感分析 卷积神经网络 预训练词向量 位置函数 注意力机制
下载PDF
融合共现和语义信息的药对提取方法研究及应用
16
作者 唐静 杨涛 +1 位作者 朱垚 胡孔法 《世界科学技术-中医药现代化》 CSCD 北大核心 2024年第1期88-98,共11页
目的针对处方数据特点,提出一种融合共现和语义信息的药对提取算法。方法将处方数据转化为矩阵数据,计算药物之间的关联信息作为初始筛选指标,再根据处方数据构建词向量,计算药物之间的语义相似度,作为第二筛选指标,从而提取潜在药对。... 目的针对处方数据特点,提出一种融合共现和语义信息的药对提取算法。方法将处方数据转化为矩阵数据,计算药物之间的关联信息作为初始筛选指标,再根据处方数据构建词向量,计算药物之间的语义相似度,作为第二筛选指标,从而提取潜在药对。将本文算法与经典的Apriori算法分别对1090条肺癌门诊处方用药数据进行实验,对比分析实验提取结果,从而验证本算法提取的有效性及实用性。结果与Apriori算法相比,本算法提取药对效果较好,可以在药物频次相差较大的情况下合理地缩小潜在药对选择范围,此外对阈值结果进行比对,针对本文数据根据数量变化与专家经验,分别推出两组建议阈值,在推荐阈值设置的范围下分别成功提取出医案中的88组与33组药对。结论词频结合语义信息用于筛选潜在药对的方法是可行且有效的,可为中医临床处方用药经验挖掘提供方法参考。 展开更多
关键词 药对筛选 药物共现 语义信息 词向量 数据挖掘
下载PDF
基于深度学习的微博疫情舆情文本情感分析
17
作者 吴加辉 加云岗 +4 位作者 王志晓 张九龙 闫文耀 高昂 车少鹏 《计算机技术与发展》 2024年第7期175-183,共9页
舆论情感分析重点研究公众对于公共事件的情感偏向,其中涉及公共卫生事件的舆论会直接影响社会稳定,所以对于微博的情感分析尤为重要。该文采取有关疫情方面的文本数据集,使用RoBERTa和BiGRU以及双层Attention结合的RoBERTa-BDA(RoBERTa... 舆论情感分析重点研究公众对于公共事件的情感偏向,其中涉及公共卫生事件的舆论会直接影响社会稳定,所以对于微博的情感分析尤为重要。该文采取有关疫情方面的文本数据集,使用RoBERTa和BiGRU以及双层Attention结合的RoBERTa-BDA(RoBERTa-BiGRU-Double Attention)模型作为整体结构。首先使用RoBERTa获取了蕴含文本上下文信息的词嵌入表示,其次使用BiGRU得到字符表示,然后使用注意力机制计算各个字符对于全局的影响,再使用BiGRU得到句子表示,最后使用Attention机制计算出每个字符对于其所在的句子的权重占比,得出全文的文本表示,并通过softmax函数对其进行情感分析。为了验证RoBERTa-BDA模型的有效性,设计三种实验,在不同词向量对比实验中,RoBERTa对比BERT中Macro F1和Micro F1值提高了0.42百分点和0.84百分点,在不同特征提取层模型对比实验中,BiGRU-Double Attention对比BiGRU-Attention提高了3.62百分点和1.34百分点,在跨平台对比实验中,RoBERTa-BDA在贴吧平台的Macro F1和Micro F1对比微博平台仅仅降低1.29百分点和2.88百分点。 展开更多
关键词 RoBERTa 情感分析 特征提取 词向量 注意力机制 BiGRU
下载PDF
基于注意力增强与特征融合的中文医学实体识别
18
作者 王晋涛 秦昂 +4 位作者 张元 陈一飞 王廷凤 谢承霖 邹刚 《计算机工程》 CAS CSCD 北大核心 2024年第7期324-332,共9页
针对基于字符表示的中文医学领域命名实体识别模型嵌入形式单一、边界识别困难、语义信息利用不充分等问题,一种非常有效的方法是在Bret底层注入词汇特征,在利用词粒度语义信息的同时降低分词错误带来的影响,然而在注入词汇信息的同时... 针对基于字符表示的中文医学领域命名实体识别模型嵌入形式单一、边界识别困难、语义信息利用不充分等问题,一种非常有效的方法是在Bret底层注入词汇特征,在利用词粒度语义信息的同时降低分词错误带来的影响,然而在注入词汇信息的同时也会引入一些低相关性的词汇和噪声,导致基于注意力机制的Bret模型出现注意力分散的情况。此外仅依靠字、词粒度难以充分挖掘中文字符深层次的语义信息。对此,提出基于注意力增强与特征融合的中文医学实体识别模型,对字词注意力分数矩阵进行稀疏处理,使模型的注意力集中在相关度高的词汇,能够有效减少上下文中的噪声词汇干扰。同时,对汉字发音和笔画通过卷积神经网络(CNN)提取特征,经过迭代注意力特征融合模块进行融合,然后与Bret模型的输出特征进行拼接输入给Bi LSTM模型,进一步挖掘字符所包含的深层次语义信息。通过爬虫等方式搜集大量相关医学语料,训练医学领域词向量库,并在CCKS2017和CCKS2019数据集上进行验证,实验结果表明,该模型F1值分别达到94.90%、89.37%,效果优于当前主流的实体识别模型,具有更好的识别效果。 展开更多
关键词 实体识别 中文分词 注意力稀疏 特征融合 医学词向量库
下载PDF
融入Attention机制改进Word2vec技术的水利水电工程专业词智能提取与分析方法 被引量:19
19
作者 李明超 田丹 +2 位作者 沈扬 Jonathan Shi 韩帅 《水利学报》 EI CSCD 北大核心 2020年第7期816-826,共11页
水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。... 水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。该方法通过组合Attention机制,改进Word2vec技术建立了专业词向量计算模型;根据所求词向量,计算词语间相似度,以词语间相似度为组合标准,组合提取水利水电工程专业词;进而结合已有的水利水电工程专业文本,验证所提取专业词的可信度,实现了水利水电工程专业词的自动提炼,构建了一套水利水电工程专业词智能识别提取与分析体系。该方法应用于实际某混凝土大坝长达229周的施工监理周报文本分析中,经过3轮识别计算与分析,获得了9034个水利水电工程专业词,准确率为87.58%,有效提升了水利水电工程专业文本信息提取分析的效率、准确率与智能化水平。 展开更多
关键词 水利水电工程 专业文本 自然语言处理 词向量 word2vec技术 Attention机制 智能提取
下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:19
20
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部