期刊文献+
共找到847篇文章
< 1 2 43 >
每页显示 20 50 100
基于Word2vector的文本特征化表示方法 被引量:21
1
作者 周顺先 蒋励 +2 位作者 林霜巧 龚德良 王鲁达 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2018年第2期272-279,共8页
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词... 针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF-IDF模型进行对比实验;在Reuter-21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。 展开更多
关键词 word2vector 上下文关系 特征化表示 文本分类
下载PDF
Paragraph Vector Representation Based on Word to Vector and CNN Learning 被引量:5
2
作者 Zeyu Xiong Qiangqiang Shen +1 位作者 Yijie Wang Chenyang Zhu 《Computers, Materials & Continua》 SCIE EI 2018年第5期213-227,共15页
Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learn... Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learning.The probability model is loss of semantic information in essential,and it influences the processing accuracy.Machine learning approaches include supervised,unsupervised,and semi-supervised approaches,labeled corpora is necessary for semantics model and supervised learning.The method for achieving a reliably labeled corpus is done manually,it is costly and time-consuming because people have to read each document and annotate the label of each document.Recently,the continuous CBOW model is efficient for learning high-quality distributed vector representations,and it can capture a large number of precise syntactic and semantic word relationships,this model can be easily extended to learn paragraph vector,but it is not precise.Towards these problems,this paper is devoted to developing a new model for learning paragraph vector,we combine the CBOW model and CNNs to establish a new deep learning model.Experimental results show that paragraph vector generated by the new model is better than the paragraph vector generated by CBOW model in semantic relativeness and accuracy. 展开更多
关键词 Distributed word vector distributed paragraph vector CNNS CBOW deep learning.
下载PDF
一种基于Word2Vector与编辑距离的句子相似度计算方法 被引量:4
3
作者 陆尹浩 《电脑知识与技术(过刊)》 2017年第2X期146-147,共2页
随着各种问答系统的流行与聊天机器人的火热,对句子相似性的比较和处理越来越成为各类类似系统的核心部分。因此,研究并设计出一种好的句子相似性比较方法变得越来越关键。该文基于一种深度学习模型Word2Vector并且结合编辑距离算法提... 随着各种问答系统的流行与聊天机器人的火热,对句子相似性的比较和处理越来越成为各类类似系统的核心部分。因此,研究并设计出一种好的句子相似性比较方法变得越来越关键。该文基于一种深度学习模型Word2Vector并且结合编辑距离算法提出了一种句子相似度计算方法,给出了具体的设计思路,并且通过实验验证了该方法的有效性,最后总结了该方法的优缺点。 展开更多
关键词 句子相似度计算 word2vector 编辑距离 Edit Distance
下载PDF
Improve Neural Machine Translation by Building Word Vector with Part of Speech 被引量:2
4
作者 Jinyingming Zhang Jin Liu Xinyue Lin 《Journal on Artificial Intelligence》 2020年第2期79-88,共10页
Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot dist... Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot distinguish the same words under different parts of speech(POS).Aiming to alleviate this problem,this paper proposed a new word vector training method based on POS feature.It can efficiently improve the quality of translation by adding POS feature to the training process of word vectors.In the experiments,we conducted extensive experiments to evaluate our methods.The experimental result shows that the proposed method is beneficial to improve the quality of translation from English into Chinese. 展开更多
关键词 Machine translation parts of speech word vector
下载PDF
Word Embeddings and Semantic Spaces in Natural Language Processing 被引量:1
5
作者 Peter J. Worth 《International Journal of Intelligence Science》 2023年第1期1-21,共21页
One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse ... One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse of dimensionality, a problem which plagues NLP in general given that the feature set for learning starts as a function of the size of the language in question, upwards of hundreds of thousands of terms typically. As such, much of the research and development in NLP in the last two decades has been in finding and optimizing solutions to this problem, to feature selection in NLP effectively. This paper looks at the development of these various techniques, leveraging a variety of statistical methods which rest on linguistic theories that were advanced in the middle of the last century, namely the distributional hypothesis which suggests that words that are found in similar contexts generally have similar meanings. In this survey paper we look at the development of some of the most popular of these techniques from a mathematical as well as data structure perspective, from Latent Semantic Analysis to Vector Space Models to their more modern variants which are typically referred to as word embeddings. In this review of algoriths such as Word2Vec, GloVe, ELMo and BERT, we explore the idea of semantic spaces more generally beyond applicability to NLP. 展开更多
关键词 Natural Language Processing vector Space Models Semantic Spaces word Embeddings Representation Learning Text vectorization Machine Learning Deep Learning
下载PDF
自然语言处理领域中的词嵌入方法综述 被引量:5
6
作者 曾骏 王子威 +2 位作者 于扬 文俊浩 高旻 《计算机科学与探索》 CSCD 北大核心 2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的... 词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 展开更多
关键词 词向量 词嵌入方法 自然语言处理 语言模型 分词 词向量评估
下载PDF
基于Word2Vec的中文文本零水印算法 被引量:1
7
作者 戴夏菁 徐谊程 +1 位作者 王馨娅 佟德宇 《软件工程》 2023年第1期19-23,共5页
经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word... 经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word2Vec生成相应的特征词向量;然后采用SVD(奇异值分解)算法对其进行降维,并结合AES(高级加密标准)加密生成最终的零水印。水印检测时,通过对比SVD分解产生的特征值和特征向量判断版权归属。基于理论概述和实验结果综合分析,文章提出的零水印算法不需要对原始文本做任何修改,能够抵抗一定程度的增删、句型转换、同义词替换等攻击,具有一定的鲁棒性,切实有效地解决了文本的版权保护问题。 展开更多
关键词 word2Vec SVD 零水印 中文文本 词向量
下载PDF
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
8
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
下载PDF
Word Sense Disambiguation Based Sentiment Classification Using Linear Kernel Learning Scheme
9
作者 P.Ramya B.Karthik 《Intelligent Automation & Soft Computing》 SCIE 2023年第5期2379-2391,共13页
Word Sense Disambiguation has been a trending topic of research in Natural Language Processing and Machine Learning.Mining core features and performing the text classification still exist as a challenging task.Here the... Word Sense Disambiguation has been a trending topic of research in Natural Language Processing and Machine Learning.Mining core features and performing the text classification still exist as a challenging task.Here the features of the context such as neighboring words like adjective provide the evidence for classification using machine learning approach.This paper presented the text document classification that has wide applications in information retrieval,which uses movie review datasets.Here the document indexing based on controlled vocabulary,adjective,word sense disambiguation,generating hierarchical cate-gorization of web pages,spam detection,topic labeling,web search,document summarization,etc.Here the kernel support vector machine learning algorithm helps to classify the text and feature extract is performed by cuckoo search opti-mization.Positive review and negative review of movie dataset is presented to get the better classification accuracy.Experimental results focused with context mining,feature analysis and classification.By comparing with the previous work,proposed work designed to achieve the efficient results.Overall design is per-formed with MATLAB 2020a tool. 展开更多
关键词 Text classification word sense disambiguation kernel support vector machine learning algorithm cuckoo search optimization feature extraction
下载PDF
基于字词向量融合的民航智慧监管短文本分类 被引量:1
10
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 短文本 文本卷积神经网络(TextCNN) 双向长短期记忆(BiLSTM)
下载PDF
基于用户偏好的多媒体视频个性化智能推荐方法研究
11
作者 董雯 曹奕萱 于小婷 《电子设计工程》 2024年第11期192-195,共4页
为了满足用户个性化需求,提出基于用户偏好的多媒体视频个性化智能推荐方法。采集用户历史浏览行为数据,对提取的视频特征向量作相似度计算,生成视频候选集,建立视频浏览兴趣点(PoI)关联图,根据用户浏览时间计算其对不同类别视频PoI的... 为了满足用户个性化需求,提出基于用户偏好的多媒体视频个性化智能推荐方法。采集用户历史浏览行为数据,对提取的视频特征向量作相似度计算,生成视频候选集,建立视频浏览兴趣点(PoI)关联图,根据用户浏览时间计算其对不同类别视频PoI的兴趣偏好度,选择排名靠前的N个视频生成推荐列表,实现多媒体视频个性化智能推荐。实验结果表明,该方法可实现多媒体视频个性化推荐,当其维度为180时,视频推荐的Top-1指标最高;兴趣吻合度指标均值达到94.9%,Top-1均值为95.51%。 展开更多
关键词 用户偏好 多媒体视频 个性化推荐 词向量 兴趣点(PoI) 推荐列表
下载PDF
基于主题词向量中心点的K-means文本聚类算法
12
作者 季铎 刘云钊 +1 位作者 彭如香 孔华锋 《计算机应用与软件》 北大核心 2024年第10期282-286,318,共6页
K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策... K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策图进行初始类中心的选择,利用每个类簇的主题词向量替代均值作为迭代类中心。实验表明,该文的初始点选取方法能够准确地选取初始点,且利用主题词向量作为迭代类中心能够很好地避免噪声点和噪声特征的影响,很大程度上地提高了K-means算法的性能。 展开更多
关键词 K-MEANS 初始点 决策图 迭代类中心 主题词向量
下载PDF
多类表情符号短文本情感分析模型研究
13
作者 陈俊 李佳敏 +1 位作者 朱丽佳 李丹丹 《计算机仿真》 2024年第8期292-295,308,共5页
相关研究数据表明在使用社交网络进行社交活动的95后中有69.8%的网民倾向于使用各类表情符号表述情感倾向。表情符号的高频使用与其自身带有的鲜明情感倾向使得表情符号成为文本情感分析的重要语料资源。基于此,提出了一种多类表情符号... 相关研究数据表明在使用社交网络进行社交活动的95后中有69.8%的网民倾向于使用各类表情符号表述情感倾向。表情符号的高频使用与其自身带有的鲜明情感倾向使得表情符号成为文本情感分析的重要语料资源。基于此,提出了一种多类表情符号的短文本情感模型EMME。模型针对Twitter语料库以5类表情符号融入文本语言进行情感分析,首先利用CBOW模型构建词向量,继而使用卷积对拼接的词向量进行特征融合,后使用MLP实现文本正负情感分类,并针对5类表情符号与文本情感概率进行线性回归。实验数据表明对含各类表情符号短文本情感倾向判别中,EMME模型相比于MNB模型、SVM模型以及EMB模型的MacroF1值分别提高了14.81%、10.42%与9.01%;且EMME模型在不同样本容量规模中均取得了最好的分类准确率。 展开更多
关键词 情感分析 表情符号 深度学习 词向量 自然语言处理
下载PDF
基于A-BiLSTM和CNN的文本分类
14
作者 黄远 戴晓红 +2 位作者 黄伟建 于钧豪 黄峥 《计算机工程与设计》 北大核心 2024年第5期1428-1434,共7页
为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将... 为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将两者输出的特征信息融合,得到高级语义;A-BiLSTM双通道层后,使用优化CNN的强学习能力提取关键局部特征,得到最终文本特征表示。分类器输出文本信息的类别。实验结果表明,该模型分类效果优于其它对比模型,具有良好的泛化能力。 展开更多
关键词 文本分类 深度学习 双通道网络 注意力机制 双向长短时记忆网络 卷积神经网络 词向量模型
下载PDF
基于Word2Vec和Bi-GRU的高职线上教评情感分析法试探
15
作者 李淼冰 王威 王成成 《广东水利电力职业技术学院学报》 2023年第3期73-77,共5页
为提高高职线上教评情感分析的准确度和效率,提出基于双向门控循环单元(Bi-GRU)网络的教评情感分析法。该方法利用Skip-gram神经网络学习教育领域特定的词嵌入向量,再利用两个相同架构的Bi-GRU网络,从不同角度实现对学生反馈的细粒度分... 为提高高职线上教评情感分析的准确度和效率,提出基于双向门控循环单元(Bi-GRU)网络的教评情感分析法。该方法利用Skip-gram神经网络学习教育领域特定的词嵌入向量,再利用两个相同架构的Bi-GRU网络,从不同角度实现对学生反馈的细粒度分析。实验结果表明,该方法内容分类和情感分类的准确度分别达到97%和95%,显著优于支持向量机(SVM)、长短时记忆网络(LSTM)等其他方法。 展开更多
关键词 教学评价 情感分析 双向门控循环单元 词嵌入向量 情感极性 细粒度分析
下载PDF
文本相似度计算方法综述
16
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
下载PDF
基于卷积神经网络的医疗护理实体关系抽取
17
作者 曹茂俊 胡喆 《电子设计工程》 2024年第8期18-22,共5页
针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化... 针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化为向量特征矩阵,实现了对医疗语料的自动过滤和标注。通过向神经网络模型嵌入所构建的医疗关系语料库,一定程度上提高了模型疾病分类的准确度。在医疗护理学数据集上的实验表明,基于卷积神经网络的模型在指标精确度、召回率、F1值可达到89.78%、87.59%、89.77%。综上所述,该研究提出的基于卷积神经网络的医疗护理学实体关系抽取方法能够有效地抽取医疗语料数据中的实体关系,优于传统的实体关系抽取模型。 展开更多
关键词 实体关系抽取 卷积神经网络 医疗护理学 词向量 知识图谱
下载PDF
基于煤矿井下不安全行为知识图谱构建方法
18
作者 付燕 刘致豪 叶鸥 《工矿自动化》 CSCD 北大核心 2024年第1期88-95,共8页
虽然知识图谱已广泛应用于各个领域,但在煤矿安全方面,尤其在煤矿井下不安全行为方面的研究较少。构建了一种自底向上的煤矿井下不安全行为知识图谱。首先,采用传统机器学习和深度学习算法相结合的方法进行命名实体识别,采用RoBERTa进... 虽然知识图谱已广泛应用于各个领域,但在煤矿安全方面,尤其在煤矿井下不安全行为方面的研究较少。构建了一种自底向上的煤矿井下不安全行为知识图谱。首先,采用传统机器学习和深度学习算法相结合的方法进行命名实体识别,采用RoBERTa进行词语向量化,采用双向长短时记忆网络(BiLSTM)对向量进行标注,提高网络模型对上下文特征的捕捉能力,通过多层感知机(MLP)解决煤矿井下不安全行为数据集数据量不足的问题,采用条件随机场(CRF)模型解决前面存在的单词关系不识别问题,并捕获全文信息和预测结果。其次,根据语句的结构特点,设计了基于知识“实体-关系-实体”三元组的依存句法树结构,对井下不安全行为领域的知识资源进行知识抽取与表示。最后,构建面向井下不安全行为的知识图谱。实验结果表明:(1) RoBERTaBiLSTM-MLP-CRF模型对于导致结果、违反性行为、错误性行为及粗心性行为4类实体类别具有较好的识别效果,其准确率分别为86.7%,80.3%,80.7%,77.4%。(2)在相同的数据集下,RoBERTa-BiLSTM-MLP-CRF模型训练的准确率、召回率、F1值较RoBERTa-BiLSTM-CRF模型分别提高了1.6%,1.5%,1.6%。 展开更多
关键词 井下不安全行为 知识图谱 依存句法 命名实体识别 知识三元组 知识融合 知识存储 词语向量化
下载PDF
基于语义层级细粒度的海量文献标引研究 被引量:1
19
作者 罗宏宇 刘伟 《情报理论与实践》 北大核心 2024年第5期194-203,193,共11页
[目的/意义]信息资源爆炸式增长使科技文献知识的组织趋于自动化,文献自动标引是组织构建科技文献数字资源的基础和关键。针对目前科技文献自动标引语义粒度不够精准以及难以适应大规模海量文献标引的问题,提出了基于语义层级细粒度的... [目的/意义]信息资源爆炸式增长使科技文献知识的组织趋于自动化,文献自动标引是组织构建科技文献数字资源的基础和关键。针对目前科技文献自动标引语义粒度不够精准以及难以适应大规模海量文献标引的问题,提出了基于语义层级细粒度的自动标引方法。[方法/过程]在传统知识组织自动标引方法的基础上,对知识组织工具中的语义资源进行深入挖掘,借助知识组织中概念间的语义层级结构对概念信息进行语义扩展,并设计基于语义层级细粒度的概念遴选方法以解决传统方法标引效率过低的问题,从而实现对大规模文献的概念高效标引。[结果/结论]实验结果表明,文章所提出的方法较好地实现了概念表示效果,有效降低了不相关概念在标引结果中出现的几率,并且在提高了标引结果文献相关性的同时大大减少了标引所需的时间,实现了知识组织工具在自动标引领域更深层次的利用,为科技文献数字资源的挖掘计算提供有价值的参考和支持。 展开更多
关键词 自动标引 语义层级 语义扩展 语义关系 词向量
下载PDF
基于位置增强词向量和GRU-CNN的方面级情感分析模型研究 被引量:1
20
作者 陶林娟 华庚兴 李波 《计算机工程与应用》 CSCD 北大核心 2024年第9期212-218,共7页
方面级情感分析旨在判断一段文本中特定方面词的情感倾向,其核心问题是方面词的上下文如何准确表征。与现有研究主要关注注意力机制的改进不同,该文从词语表征和上下文编码模型两个方面进行改进。在词语表征方面,通过BERT模型和位置度... 方面级情感分析旨在判断一段文本中特定方面词的情感倾向,其核心问题是方面词的上下文如何准确表征。与现有研究主要关注注意力机制的改进不同,该文从词语表征和上下文编码模型两个方面进行改进。在词语表征方面,通过BERT模型和位置度量公式获得增强的词向量表示;在上下文编码模型方面,使用GRU-CNN网络提取文本语义特征。在SemEval2014 Task4数据集上的实验表明,提出的模型在Restaurant和Laptop领域中的准确率分别达到了85.54%和80.35%,证实了所提出模型的有效性。 展开更多
关键词 方面级情感分析 卷积神经网络 预训练词向量 位置函数 注意力机制
下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部