期刊文献+
共找到832篇文章
< 1 2 42 >
每页显示 20 50 100
基于Word2vector的文本特征化表示方法 被引量:21
1
作者 周顺先 蒋励 +2 位作者 林霜巧 龚德良 王鲁达 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2018年第2期272-279,共8页
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词... 针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF-IDF模型进行对比实验;在Reuter-21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。 展开更多
关键词 word2vector 上下文关系 特征化表示 文本分类
下载PDF
Paragraph Vector Representation Based on Word to Vector and CNN Learning 被引量:5
2
作者 Zeyu Xiong Qiangqiang Shen +1 位作者 Yijie Wang Chenyang Zhu 《Computers, Materials & Continua》 SCIE EI 2018年第5期213-227,共15页
Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learn... Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learning.The probability model is loss of semantic information in essential,and it influences the processing accuracy.Machine learning approaches include supervised,unsupervised,and semi-supervised approaches,labeled corpora is necessary for semantics model and supervised learning.The method for achieving a reliably labeled corpus is done manually,it is costly and time-consuming because people have to read each document and annotate the label of each document.Recently,the continuous CBOW model is efficient for learning high-quality distributed vector representations,and it can capture a large number of precise syntactic and semantic word relationships,this model can be easily extended to learn paragraph vector,but it is not precise.Towards these problems,this paper is devoted to developing a new model for learning paragraph vector,we combine the CBOW model and CNNs to establish a new deep learning model.Experimental results show that paragraph vector generated by the new model is better than the paragraph vector generated by CBOW model in semantic relativeness and accuracy. 展开更多
关键词 Distributed word vector distributed paragraph vector CNNS CBOW deep learning.
下载PDF
一种基于Word2Vector与编辑距离的句子相似度计算方法 被引量:4
3
作者 陆尹浩 《电脑知识与技术(过刊)》 2017年第2X期146-147,共2页
随着各种问答系统的流行与聊天机器人的火热,对句子相似性的比较和处理越来越成为各类类似系统的核心部分。因此,研究并设计出一种好的句子相似性比较方法变得越来越关键。该文基于一种深度学习模型Word2Vector并且结合编辑距离算法提... 随着各种问答系统的流行与聊天机器人的火热,对句子相似性的比较和处理越来越成为各类类似系统的核心部分。因此,研究并设计出一种好的句子相似性比较方法变得越来越关键。该文基于一种深度学习模型Word2Vector并且结合编辑距离算法提出了一种句子相似度计算方法,给出了具体的设计思路,并且通过实验验证了该方法的有效性,最后总结了该方法的优缺点。 展开更多
关键词 句子相似度计算 word2vector 编辑距离 Edit Distance
下载PDF
基于Word2Vec的中文文本零水印算法 被引量:1
4
作者 戴夏菁 徐谊程 +1 位作者 王馨娅 佟德宇 《软件工程》 2023年第1期19-23,共5页
经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word... 经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word2Vec生成相应的特征词向量;然后采用SVD(奇异值分解)算法对其进行降维,并结合AES(高级加密标准)加密生成最终的零水印。水印检测时,通过对比SVD分解产生的特征值和特征向量判断版权归属。基于理论概述和实验结果综合分析,文章提出的零水印算法不需要对原始文本做任何修改,能够抵抗一定程度的增删、句型转换、同义词替换等攻击,具有一定的鲁棒性,切实有效地解决了文本的版权保护问题。 展开更多
关键词 word2Vec SVD 零水印 中文文本 词向量
下载PDF
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
5
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
下载PDF
Improve Neural Machine Translation by Building Word Vector with Part of Speech
6
作者 Jinyingming Zhang Jin Liu Xinyue Lin 《Journal on Artificial Intelligence》 2020年第2期79-88,共10页
Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot dist... Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot distinguish the same words under different parts of speech(POS).Aiming to alleviate this problem,this paper proposed a new word vector training method based on POS feature.It can efficiently improve the quality of translation by adding POS feature to the training process of word vectors.In the experiments,we conducted extensive experiments to evaluate our methods.The experimental result shows that the proposed method is beneficial to improve the quality of translation from English into Chinese. 展开更多
关键词 Machine translation parts of speech word vector
下载PDF
自然语言处理领域中的词嵌入方法综述 被引量:1
7
作者 曾骏 王子威 +2 位作者 于扬 文俊浩 高旻 《计算机科学与探索》 CSCD 北大核心 2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的... 词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 展开更多
关键词 词向量 词嵌入方法 自然语言处理 语言模型 分词 词向量评估
下载PDF
Word Embeddings and Semantic Spaces in Natural Language Processing
8
作者 Peter J. Worth 《International Journal of Intelligence Science》 2023年第1期1-21,共21页
One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse ... One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse of dimensionality, a problem which plagues NLP in general given that the feature set for learning starts as a function of the size of the language in question, upwards of hundreds of thousands of terms typically. As such, much of the research and development in NLP in the last two decades has been in finding and optimizing solutions to this problem, to feature selection in NLP effectively. This paper looks at the development of these various techniques, leveraging a variety of statistical methods which rest on linguistic theories that were advanced in the middle of the last century, namely the distributional hypothesis which suggests that words that are found in similar contexts generally have similar meanings. In this survey paper we look at the development of some of the most popular of these techniques from a mathematical as well as data structure perspective, from Latent Semantic Analysis to Vector Space Models to their more modern variants which are typically referred to as word embeddings. In this review of algoriths such as Word2Vec, GloVe, ELMo and BERT, we explore the idea of semantic spaces more generally beyond applicability to NLP. 展开更多
关键词 Natural Language Processing vector Space Models Semantic Spaces word Embeddings Representation Learning Text vectorization Machine Learning Deep Learning
下载PDF
Word Sense Disambiguation Based Sentiment Classification Using Linear Kernel Learning Scheme
9
作者 P.Ramya B.Karthik 《Intelligent Automation & Soft Computing》 SCIE 2023年第5期2379-2391,共13页
Word Sense Disambiguation has been a trending topic of research in Natural Language Processing and Machine Learning.Mining core features and performing the text classification still exist as a challenging task.Here the... Word Sense Disambiguation has been a trending topic of research in Natural Language Processing and Machine Learning.Mining core features and performing the text classification still exist as a challenging task.Here the features of the context such as neighboring words like adjective provide the evidence for classification using machine learning approach.This paper presented the text document classification that has wide applications in information retrieval,which uses movie review datasets.Here the document indexing based on controlled vocabulary,adjective,word sense disambiguation,generating hierarchical cate-gorization of web pages,spam detection,topic labeling,web search,document summarization,etc.Here the kernel support vector machine learning algorithm helps to classify the text and feature extract is performed by cuckoo search opti-mization.Positive review and negative review of movie dataset is presented to get the better classification accuracy.Experimental results focused with context mining,feature analysis and classification.By comparing with the previous work,proposed work designed to achieve the efficient results.Overall design is per-formed with MATLAB 2020a tool. 展开更多
关键词 Text classification word sense disambiguation kernel support vector machine learning algorithm cuckoo search optimization feature extraction
下载PDF
基于用户偏好的多媒体视频个性化智能推荐方法研究
10
作者 董雯 曹奕萱 于小婷 《电子设计工程》 2024年第11期192-195,共4页
为了满足用户个性化需求,提出基于用户偏好的多媒体视频个性化智能推荐方法。采集用户历史浏览行为数据,对提取的视频特征向量作相似度计算,生成视频候选集,建立视频浏览兴趣点(PoI)关联图,根据用户浏览时间计算其对不同类别视频PoI的... 为了满足用户个性化需求,提出基于用户偏好的多媒体视频个性化智能推荐方法。采集用户历史浏览行为数据,对提取的视频特征向量作相似度计算,生成视频候选集,建立视频浏览兴趣点(PoI)关联图,根据用户浏览时间计算其对不同类别视频PoI的兴趣偏好度,选择排名靠前的N个视频生成推荐列表,实现多媒体视频个性化智能推荐。实验结果表明,该方法可实现多媒体视频个性化推荐,当其维度为180时,视频推荐的Top-1指标最高;兴趣吻合度指标均值达到94.9%,Top-1均值为95.51%。 展开更多
关键词 用户偏好 多媒体视频 个性化推荐 词向量 兴趣点(PoI) 推荐列表
下载PDF
基于A-BiLSTM和CNN的文本分类
11
作者 黄远 戴晓红 +2 位作者 黄伟建 于钧豪 黄峥 《计算机工程与设计》 北大核心 2024年第5期1428-1434,共7页
为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将... 为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将两者输出的特征信息融合,得到高级语义;A-BiLSTM双通道层后,使用优化CNN的强学习能力提取关键局部特征,得到最终文本特征表示。分类器输出文本信息的类别。实验结果表明,该模型分类效果优于其它对比模型,具有良好的泛化能力。 展开更多
关键词 文本分类 深度学习 双通道网络 注意力机制 双向长短时记忆网络 卷积神经网络 词向量模型
下载PDF
基于Word2Vec和Bi-GRU的高职线上教评情感分析法试探
12
作者 李淼冰 王威 王成成 《广东水利电力职业技术学院学报》 2023年第3期73-77,共5页
为提高高职线上教评情感分析的准确度和效率,提出基于双向门控循环单元(Bi-GRU)网络的教评情感分析法。该方法利用Skip-gram神经网络学习教育领域特定的词嵌入向量,再利用两个相同架构的Bi-GRU网络,从不同角度实现对学生反馈的细粒度分... 为提高高职线上教评情感分析的准确度和效率,提出基于双向门控循环单元(Bi-GRU)网络的教评情感分析法。该方法利用Skip-gram神经网络学习教育领域特定的词嵌入向量,再利用两个相同架构的Bi-GRU网络,从不同角度实现对学生反馈的细粒度分析。实验结果表明,该方法内容分类和情感分类的准确度分别达到97%和95%,显著优于支持向量机(SVM)、长短时记忆网络(LSTM)等其他方法。 展开更多
关键词 教学评价 情感分析 双向门控循环单元 词嵌入向量 情感极性 细粒度分析
下载PDF
基于字词向量融合的民航智慧监管短文本分类
13
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 短文本 文本卷积神经网络(TextCNN) 双向长短期记忆(BiLSTM)
下载PDF
基于卷积神经网络的医疗护理实体关系抽取
14
作者 曹茂俊 胡喆 《电子设计工程》 2024年第8期18-22,共5页
针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化... 针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化为向量特征矩阵,实现了对医疗语料的自动过滤和标注。通过向神经网络模型嵌入所构建的医疗关系语料库,一定程度上提高了模型疾病分类的准确度。在医疗护理学数据集上的实验表明,基于卷积神经网络的模型在指标精确度、召回率、F1值可达到89.78%、87.59%、89.77%。综上所述,该研究提出的基于卷积神经网络的医疗护理学实体关系抽取方法能够有效地抽取医疗语料数据中的实体关系,优于传统的实体关系抽取模型。 展开更多
关键词 实体关系抽取 卷积神经网络 医疗护理学 词向量 知识图谱
下载PDF
基于煤矿井下不安全行为知识图谱构建方法
15
作者 付燕 刘致豪 叶鸥 《工矿自动化》 CSCD 北大核心 2024年第1期88-95,共8页
虽然知识图谱已广泛应用于各个领域,但在煤矿安全方面,尤其在煤矿井下不安全行为方面的研究较少。构建了一种自底向上的煤矿井下不安全行为知识图谱。首先,采用传统机器学习和深度学习算法相结合的方法进行命名实体识别,采用RoBERTa进... 虽然知识图谱已广泛应用于各个领域,但在煤矿安全方面,尤其在煤矿井下不安全行为方面的研究较少。构建了一种自底向上的煤矿井下不安全行为知识图谱。首先,采用传统机器学习和深度学习算法相结合的方法进行命名实体识别,采用RoBERTa进行词语向量化,采用双向长短时记忆网络(BiLSTM)对向量进行标注,提高网络模型对上下文特征的捕捉能力,通过多层感知机(MLP)解决煤矿井下不安全行为数据集数据量不足的问题,采用条件随机场(CRF)模型解决前面存在的单词关系不识别问题,并捕获全文信息和预测结果。其次,根据语句的结构特点,设计了基于知识“实体-关系-实体”三元组的依存句法树结构,对井下不安全行为领域的知识资源进行知识抽取与表示。最后,构建面向井下不安全行为的知识图谱。实验结果表明:(1) RoBERTaBiLSTM-MLP-CRF模型对于导致结果、违反性行为、错误性行为及粗心性行为4类实体类别具有较好的识别效果,其准确率分别为86.7%,80.3%,80.7%,77.4%。(2)在相同的数据集下,RoBERTa-BiLSTM-MLP-CRF模型训练的准确率、召回率、F1值较RoBERTa-BiLSTM-CRF模型分别提高了1.6%,1.5%,1.6%。 展开更多
关键词 井下不安全行为 知识图谱 依存句法 命名实体识别 知识三元组 知识融合 知识存储 词语向量化
下载PDF
融合共现和语义信息的药对提取方法研究及应用
16
作者 唐静 杨涛 +1 位作者 朱垚 胡孔法 《世界科学技术-中医药现代化》 CSCD 北大核心 2024年第1期88-98,共11页
目的针对处方数据特点,提出一种融合共现和语义信息的药对提取算法。方法将处方数据转化为矩阵数据,计算药物之间的关联信息作为初始筛选指标,再根据处方数据构建词向量,计算药物之间的语义相似度,作为第二筛选指标,从而提取潜在药对。... 目的针对处方数据特点,提出一种融合共现和语义信息的药对提取算法。方法将处方数据转化为矩阵数据,计算药物之间的关联信息作为初始筛选指标,再根据处方数据构建词向量,计算药物之间的语义相似度,作为第二筛选指标,从而提取潜在药对。将本文算法与经典的Apriori算法分别对1090条肺癌门诊处方用药数据进行实验,对比分析实验提取结果,从而验证本算法提取的有效性及实用性。结果与Apriori算法相比,本算法提取药对效果较好,可以在药物频次相差较大的情况下合理地缩小潜在药对选择范围,此外对阈值结果进行比对,针对本文数据根据数量变化与专家经验,分别推出两组建议阈值,在推荐阈值设置的范围下分别成功提取出医案中的88组与33组药对。结论词频结合语义信息用于筛选潜在药对的方法是可行且有效的,可为中医临床处方用药经验挖掘提供方法参考。 展开更多
关键词 药对筛选 药物共现 语义信息 词向量 数据挖掘
下载PDF
混合特征及多头注意力的中文短文本分类
17
作者 江结林 朱永伟 +2 位作者 许小龙 崔燕 赵英男 《计算机工程与应用》 CSCD 北大核心 2024年第9期237-243,共7页
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本... 传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。 展开更多
关键词 中文短文本分类 注意力机制 词级向量 字符级向量
下载PDF
利用word2vec对中文词进行聚类的研究 被引量:29
18
作者 郑文超 徐鹏 《软件》 2013年第12期160-162,共3页
文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处... 文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处理后的语料使用Word2Vec工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为词之间的相似度,通过使用K-means聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本文从网络上抓取了2012年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。 展开更多
关键词 数据挖掘 聚类 分词 词向量 神经网络
下载PDF
基于Sword2vect的中文在线商品评价情感分析 被引量:6
19
作者 厍向阳 杨瑞丽 董立红 《西安科技大学学报》 CAS 北大核心 2020年第3期504-511,共8页
商品的在线评论情感分析已经成为一个热门的研究话题。为了更好地解决情感分析中词语的上下文信息和词语的情感信息缺失问题,提出了一种基于句子情感得分加权句向量的Sword2vect情感分析方法,对中文在线评价进行情感分析。首先用基于词... 商品的在线评论情感分析已经成为一个热门的研究话题。为了更好地解决情感分析中词语的上下文信息和词语的情感信息缺失问题,提出了一种基于句子情感得分加权句向量的Sword2vect情感分析方法,对中文在线评价进行情感分析。首先用基于词典的方法计算出评论句子的情感得分并对其进行预处理保证所有正向评论句子的情感得分为正,负向评论情感得分为负,用word2vect算法得到含有上下文信息评论的句子向量,然后用情感得分对句子向量进行加权得到情感句向量Sword2vect,用支持向量机算法对训练数据集进行训练得到模型,最后调用训练好的模型对测试数据集进行情感分析。采用基于情感得分加权的Sword2vect算法和word2vect词向量算法以及tf_idf特征词向量算法分别对京东手机在线评价以及谭松波酒店评价这2个数据集进行情感分析,从精确度、时间等方面进行比较。实验结果表明:基于情感得分加权的Sword2vect算法精确度较word2vect词向量算法精确度提升了10%~20%,相比于tf_idf特征词向量精度提升了20%~30%,Sword2vect算法的时间效率较其他2个算法也得到了较大的提升。 展开更多
关键词 情感分析 word2vect 支持向量机 情感词向量
下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:18
20
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部