期刊文献+
共找到965篇文章
< 1 2 49 >
每页显示 20 50 100
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
1
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
下载PDF
基于Albert与TextCNN的中文文本分类研究 被引量:1
2
作者 李飞鸽 王芳 黄树成 《软件导刊》 2023年第4期27-31,共5页
互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Al... 互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。 展开更多
关键词 向量 文本特征提取 多标签 文本分类
下载PDF
基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法
3
作者 刘丹 《微型电脑应用》 2024年第4期195-197,201,共4页
为了准确识别社交媒体评论文本情感,助力公众负面情绪引导,提出了基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法。通过社交媒体大数据分类,并通过具有字典功能的Token将评论文本转换成数字列表。结合词嵌入技术得到向量列表... 为了准确识别社交媒体评论文本情感,助力公众负面情绪引导,提出了基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法。通过社交媒体大数据分类,并通过具有字典功能的Token将评论文本转换成数字列表。结合词嵌入技术得到向量列表,完成社交媒体大数据向量转换的预处理。将预处理获取的向量列表输入CNN网络,得到评论文本情感元最终局部特征值。将该值传至LSTM,通过遗忘门、输入门、输出门调节,获取评论文本情感元特征表征结果,经Softmax分类器分类后,实现情感元自动识别。实验结果表明,该方法能有效完成实验数据预处理,用文字和标签的形式标记正面、负面情感元,并准确识别情感元,间接反映社会问题,应用性较强。 展开更多
关键词 社交媒体数据 评论文本 情感元 向量列表 CNN-LSTM 自动识别
下载PDF
基于字词向量融合的民航智慧监管短文本分类
4
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 短文本 文本卷积神经网络(textCNN) 双向长短期记忆(BiLSTM)
下载PDF
基于加权TextRank的中文自动文本摘要 被引量:19
5
作者 黄波 刘传才 《计算机应用研究》 CSCD 北大核心 2020年第2期407-410,共4页
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结... 现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。 展开更多
关键词 文本摘要 textRank 词向量 句子相似度
下载PDF
自注意力机制下复杂文本实体关系抽取方法
6
作者 针钰 马晓宁 《计算机仿真》 2024年第4期522-526,共5页
为了能够明确语义关系,快速识别所需信息,提出一种自注意力机制下复杂文本实体关系抽取方法。通过复杂文本向量模型把全部词映射为低度实数向量,使文本转变成矢量模式,按照单词的外在情境学习嵌入,可将句子内的所有字转化为嵌入矩阵。利... 为了能够明确语义关系,快速识别所需信息,提出一种自注意力机制下复杂文本实体关系抽取方法。通过复杂文本向量模型把全部词映射为低度实数向量,使文本转变成矢量模式,按照单词的外在情境学习嵌入,可将句子内的所有字转化为嵌入矩阵。利用LSTM网络建立文本向量,存取以往和将来的上下文,融合前后两种输出矢量。运用激活函数压缩单词维度,计算句子上下文本语义贡献权重,在双向LSTM层和输出层间加入自注意力机制,从多角度获取矩阵层次的句子语义,计算组合句子特征矢量在关系上的分数,根据给定概率随机抽样权值参变量,完成复杂文本实体关系抽取。通过实验证明所提方法对复杂文本实体关系抽取效果较好,具有极高的精准度。 展开更多
关键词 自注意力机制 关系抽取 文本向量模型 复杂文本实体
下载PDF
混合特征及多头注意力的中文短文本分类
7
作者 江结林 朱永伟 +2 位作者 许小龙 崔燕 赵英男 《计算机工程与应用》 CSCD 北大核心 2024年第9期237-243,共7页
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本... 传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。 展开更多
关键词 中文短文本分类 注意力机制 词级向量 字符级向量
下载PDF
Deep Learning Multimodal for Unstructured and Semi-Structured Textual Documents Classicatio
8
作者 Nany Katamesh Osama Abu-Elnasr Samir Elmougy 《Computers, Materials & Continua》 SCIE EI 2021年第7期589-606,共18页
Due to the availability of a huge number of electronic text documents from a variety of sources representing unstructured and semi-structured information,the document classication task becomes an interesting area for ... Due to the availability of a huge number of electronic text documents from a variety of sources representing unstructured and semi-structured information,the document classication task becomes an interesting area for controlling data behavior.This paper presents a document classication multimodal for categorizing textual semi-structured and unstructured documents.The multimodal implements several individual deep learning models such as Deep Neural Networks(DNN),Recurrent Convolutional Neural Networks(RCNN)and Bidirectional-LSTM(Bi-LSTM).The Stacked Ensemble based meta-model technique is used to combine the results of the individual classiers to produce better results,compared to those reached by any of the above mentioned models individually.A series of textual preprocessing steps are executed to normalize the input corpus followed by text vectorization techniques.These techniques include using Term Frequency Inverse Term Frequency(TFIDF)or Continuous Bag of Word(CBOW)to convert text data into the corresponding suitable numeric form acceptable to be manipulated by deep learning models.Moreover,this proposed model is validated using a dataset collected from several spaces with a huge number of documents in every class.In addition,the experimental results prove that the proposed model has achieved effective performance.Besides,upon investigating the PDF Documents classication,the proposed model has achieved accuracy up to 0.9045 and 0.959 for the TFIDF and CBOW features,respectively.Moreover,concerning the JSON Documents classication,the proposed model has achieved accuracy up to 0.914 and 0.956 for the TFIDF and CBOW features,respectively.Furthermore,as for the XML Documents classication,the proposed model has achieved accuracy values up to 0.92 and 0.959 for the TFIDF and CBOW features,respectively. 展开更多
关键词 Document classication deep learning text vectorization convolutional neural network bi-directional neural network stacked ensemble
下载PDF
Identification of Sarcasm in Textual Data: A Comparative Study
9
作者 Pulkit Mehndiratta Devpriya Soni 《Journal of Data and Information Science》 CSCD 2019年第4期56-83,共28页
Purpose:Ever increasing penetration of the Internet in our lives has led to an enormous amount of multimedia content generation on the internet.Textual data contributes a major share towards data generated on the worl... Purpose:Ever increasing penetration of the Internet in our lives has led to an enormous amount of multimedia content generation on the internet.Textual data contributes a major share towards data generated on the world wide web.Understanding people’s sentiment is an important aspect of natural language processing,but this opinion can be biased and incorrect,if people use sarcasm while commenting,posting status updates or reviewing any product or a movie.Thus,it is of utmost importance to detect sarcasm correctly and make a correct prediction about the people’s intentions.Design/methodology/approach:This study tries to evaluate various machine learning models along with standard and hybrid deep learning models across various standardized datasets.We have performed vectorization of text using word embedding techniques.This has been done to convert the textual data into vectors for analytical purposes.We have used three standardized datasets available in public domain and used three word embeddings i.e Word2Vec,GloVe and fastText to validate the hypothesis.Findings:The results were analyzed and conclusions are drawn.The key finding is:the hybrid models that include Bidirectional LongTerm Short Memory(Bi-LSTM)and Convolutional Neural Network(CNN)outperform others conventional machine learning as well as deep learning models across all the datasets considered in this study,making our hypothesis valid.Research limitations:Using the data from different sources and customizing the models according to each dataset,slightly decreases the usability of the technique.But,overall this methodology provides effective measures to identify the presence of sarcasm with a minimum average accuracy of 80%or above for one dataset and better than the current baseline results for the other datasets.Practical implications:The results provide solid insights for the system developers to integrate this model into real-time analysis of any review or comment posted in the public domain.This study has various other practical implications for businesses that depend on user ratings and public opinions.This study also provides a launching platform for various researchers to work on the problem of sarcasm identification in textual data.Originality/value:This is a first of its kind study,to provide us the difference between conventional and the hybrid methods of prediction of sarcasm in textual data.The study also provides possible indicators that hybrid models are better when applied to textual data for analysis of sarcasm. 展开更多
关键词 Machine learning Artificial neural networks Word embedding text vectorization ACCURACY
下载PDF
文本深度学习向量化在操作票审核中的研究
10
作者 段宇 孙载董 陈铁山 《电力系统装备》 2024年第3期11-13,38,共4页
传统的电力系统操作票审核采用人工审核,审核效率低。随着深度学习技术的发展,自然语言处理技术能够高效、高质地处理文本和问题。应用文本深度学习向量化可解决传统操作票人工审核过程中存在的问题。文章针对文本深度学习向量化在电力... 传统的电力系统操作票审核采用人工审核,审核效率低。随着深度学习技术的发展,自然语言处理技术能够高效、高质地处理文本和问题。应用文本深度学习向量化可解决传统操作票人工审核过程中存在的问题。文章针对文本深度学习向量化在电力系统操作票审核中的应用进行研究,以期提高审核效率。 展开更多
关键词 文本向量化 操作票 审核
下载PDF
基于词向量融合的建筑文本分类方法研究
11
作者 胡少云 翁清雄 《微型电脑应用》 2024年第2期18-20,25,共4页
由于建筑领域问题包含复杂多样的领域专有术语,常见的文本分类算法在建筑领域问题分类上难度较大。为提高建筑领域问题的分类性能,提出一种基于融合RoBERTa和Word2Vec的建筑文本分类算法。实验结果表明:在建筑领域问题数据集上,准确率达... 由于建筑领域问题包含复杂多样的领域专有术语,常见的文本分类算法在建筑领域问题分类上难度较大。为提高建筑领域问题的分类性能,提出一种基于融合RoBERTa和Word2Vec的建筑文本分类算法。实验结果表明:在建筑领域问题数据集上,准确率达到91.59%,分类性能较好;在通用数据集上,准确率均高于SVM、CNN等模型。 展开更多
关键词 文本分类 预训练语言模型 句向量 深度学习 问答系统
下载PDF
语义检索技术在电商搜索中的应用研究
12
作者 赵小娟 《福建电脑》 2024年第6期54-58,共5页
在电商搜索场景下,用户检索的语义模糊和商品标题信息的繁杂冗余,使得基于文本相似度匹配的检索算法无法满足用户检索的需求。针对这种情况,本文基于阿里巴巴淘宝电商开源的业务数据,探索了基于深度学习和对比学习的文本语义向量技术在... 在电商搜索场景下,用户检索的语义模糊和商品标题信息的繁杂冗余,使得基于文本相似度匹配的检索算法无法满足用户检索的需求。针对这种情况,本文基于阿里巴巴淘宝电商开源的业务数据,探索了基于深度学习和对比学习的文本语义向量技术在电商搜索场景下的应用,并提出了模型领域自适应的训练方式和一种差异化多层次的数据增强方式。实验的结果表明,基于文本语义向量检索技术明显优于传统的基于文本相似度匹配的检索算法,模型领域自适应的训练方式和差异化多层次的数据增强方式能够显著提升商品召回的效果。 展开更多
关键词 电商搜索 语义检索 文本语义向量 检索算法
下载PDF
中文Web文本挖掘系统WebTextMiner开发 被引量:1
13
作者 魏松 钟义信 王翔英 《计算机应用研究》 CSCD 北大核心 2006年第6期211-213,共3页
W eb文本挖掘系统的开发对W eb文本挖掘的研究有着很大的推进作用。因此在对基于SVM的中文网页分类器性能研究的基础上,根据研究和实用的需要,实现了一个性能较好的中文W eb文本挖掘系统。
关键词 WEB文本挖掘 支持向量机 K-最近邻
下载PDF
基于字词向量的BiLSTM-CRF水利工程巡检文本实体识别模型
14
作者 刘雪梅 程彭圣男 +3 位作者 李海瑞 曹闯 高英 崔培 《华北水利水电大学学报(自然科学版)》 北大核心 2024年第3期9-17,共9页
命名实体识别是构建水利知识图谱的核心技术。水利工程巡检文本是水利工程最为常见的数据类型,以文本形式记录,没有固定格式与结构,但其包含水利工程安全潜在风险信息,具有价值密度高的特点。针对水利工程巡检文本命名实体识别问题,提... 命名实体识别是构建水利知识图谱的核心技术。水利工程巡检文本是水利工程最为常见的数据类型,以文本形式记录,没有固定格式与结构,但其包含水利工程安全潜在风险信息,具有价值密度高的特点。针对水利工程巡检文本命名实体识别问题,提出字词向量融合的BiLSTM-CRF模型,首先将巡检文本分别在字维度和词维度进行向量化处理,合并字词向量获取字词向量特征;然后利用BiLSTM神经网络获取序列化后的上下文特征;最后通过CRF进行解码并提取相应实体。以南水北调中线工程巡检文本为例,实验结果表明:字词向量结合之后的方法能有效提高识别性能,对实体边界的识别效果更优,模型准确率、召回率和F1值分别可以达到93.79%、93.06%、93.42%;时间效率较BERT-BiLSTM-CRF模型的时间效率提高82.86%。基于字词向量的BiLSTM-CRF模型可为水利工程知识图谱的快速构建提供技术支撑。 展开更多
关键词 巡检文本 实体识别 双向长短期记忆神经网络 Word2Vec 条件向量场
下载PDF
基于改进TextRank的藏文抽取式摘要生成 被引量:6
15
作者 李维 闫晓东 解晓庆 《中文信息学报》 CSCD 北大核心 2020年第9期36-43,共8页
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向... 目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。 展开更多
关键词 文本摘要 textRank 词向量 句子相似度
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:30
16
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 Fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
基于改进TextRank的文本摘要自动提取 被引量:11
17
作者 汪旭祥 韩斌 +1 位作者 高瑞 陈鹏 《计算机应用与软件》 北大核心 2021年第6期155-160,共6页
TextRank算法在自动提取中文文本摘要时只考虑句子间的相似性,而忽略了词语间的语义相关信息及文本的重要全局信息。对此,提出一种基于改进TextRank的文本摘要自动提取算法(SW-TextRank)。通过Word2Vec训练的词向量来计算句子之间的相似... TextRank算法在自动提取中文文本摘要时只考虑句子间的相似性,而忽略了词语间的语义相关信息及文本的重要全局信息。对此,提出一种基于改进TextRank的文本摘要自动提取算法(SW-TextRank)。通过Word2Vec训练的词向量来计算句子之间的相似度,并综合考虑句子位置、句子与标题的相似度、关键词的覆盖率、关键句子以及线索词等影响句子权重的因素,从而优化句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到最终文本的摘要。实验结果表明,SW-TextRank算法生成摘要的准确性比TextRank算法更高,摘要生成质量更好。 展开更多
关键词 文本摘要 SW-textRank算法 词向量 相似度 句子权重
下载PDF
基于TextCNN的政策文本分类 被引量:2
18
作者 李悦 汤鲲 《电子设计工程》 2022年第12期43-47,共5页
多标签文本分类现在已经成为自然语言处理中的核心任务之一,它的目的是从多个候选标签中使用最相关的标签来注释文档。该文的研究是在文本分类的基础上,以TextCNN神经网络作为基础分类框架,介绍了在自建数据集上进行基于改进的TextCNN... 多标签文本分类现在已经成为自然语言处理中的核心任务之一,它的目的是从多个候选标签中使用最相关的标签来注释文档。该文的研究是在文本分类的基础上,以TextCNN神经网络作为基础分类框架,介绍了在自建数据集上进行基于改进的TextCNN的多标签分类任务。通过爬虫来获取全国各个地市的政策文本数据,构建了一个全新的政策类数据集,对数据进行预处理,利用改进后的TextCNN神经网络来训练模型对数据进行多标签分类,经过实验对比测试,改进后的TextCNN结合百度百科词向量在自建数据集上达到了较好的分类效果。 展开更多
关键词 多标签分类 textCNN 政策文本 百度百科词向量
下载PDF
基于fastText的股票咨询案例中文短文本分类技术 被引量:2
19
作者 林国祥 詹先银 +4 位作者 薛醒思 林涵 吕宏昱 林培辉 方铭波 《宝鸡文理学院学报(自然科学版)》 CAS 2020年第3期48-52,共5页
目的利用词向量与文本分类模型fastText来提高股票咨询短文本的分类质量。方法首先在输入层上通过fastText将输入的词序列转化为词向量进行输入,然后在隐藏层上通过单层神经网络学习,最后在输出层上使用层次softmax对标签进行编码,计算... 目的利用词向量与文本分类模型fastText来提高股票咨询短文本的分类质量。方法首先在输入层上通过fastText将输入的词序列转化为词向量进行输入,然后在隐藏层上通过单层神经网络学习,最后在输出层上使用层次softmax对标签进行编码,计算词序列与每个标签的对应概率,输出词序列属于不同标签的概率值。结果实验结果表明,基于fastText的股票咨询案例的短文本分类准确率高于传统的基于朴素贝叶斯(Naive Bayesian)的短文本分类技术。结论将fastText用于股票咨询案例中文短文本分类可以有效地提高案例短文本分类结果的质量。 展开更多
关键词 fasttext 短文本分类 文本表示 股票咨询
下载PDF
融合TextRank算法的中文短文本相似度计算 被引量:4
20
作者 卢佳伟 陈玮 尹钟 《电子科技》 2020年第10期51-56,共6页
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义... 传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。 展开更多
关键词 文本相似度 关键字提取 textRank算法 Bert 词向量技术 向量空间模型
下载PDF
上一页 1 2 49 下一页 到第
使用帮助 返回顶部