期刊文献+
共找到976篇文章
< 1 2 49 >
每页显示 20 50 100
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
1
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
下载PDF
基于加权TextRank的中文自动文本摘要 被引量:21
2
作者 黄波 刘传才 《计算机应用研究》 CSCD 北大核心 2020年第2期407-410,共4页
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结... 现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。 展开更多
关键词 文本摘要 textRank 词向量 句子相似度
下载PDF
Deep Learning Multimodal for Unstructured and Semi-Structured Textual Documents Classicatio 被引量:1
3
作者 Nany Katamesh Osama Abu-Elnasr Samir Elmougy 《Computers, Materials & Continua》 SCIE EI 2021年第7期589-606,共18页
Due to the availability of a huge number of electronic text documents from a variety of sources representing unstructured and semi-structured information,the document classication task becomes an interesting area for ... Due to the availability of a huge number of electronic text documents from a variety of sources representing unstructured and semi-structured information,the document classication task becomes an interesting area for controlling data behavior.This paper presents a document classication multimodal for categorizing textual semi-structured and unstructured documents.The multimodal implements several individual deep learning models such as Deep Neural Networks(DNN),Recurrent Convolutional Neural Networks(RCNN)and Bidirectional-LSTM(Bi-LSTM).The Stacked Ensemble based meta-model technique is used to combine the results of the individual classiers to produce better results,compared to those reached by any of the above mentioned models individually.A series of textual preprocessing steps are executed to normalize the input corpus followed by text vectorization techniques.These techniques include using Term Frequency Inverse Term Frequency(TFIDF)or Continuous Bag of Word(CBOW)to convert text data into the corresponding suitable numeric form acceptable to be manipulated by deep learning models.Moreover,this proposed model is validated using a dataset collected from several spaces with a huge number of documents in every class.In addition,the experimental results prove that the proposed model has achieved effective performance.Besides,upon investigating the PDF Documents classication,the proposed model has achieved accuracy up to 0.9045 and 0.959 for the TFIDF and CBOW features,respectively.Moreover,concerning the JSON Documents classication,the proposed model has achieved accuracy up to 0.914 and 0.956 for the TFIDF and CBOW features,respectively.Furthermore,as for the XML Documents classication,the proposed model has achieved accuracy values up to 0.92 and 0.959 for the TFIDF and CBOW features,respectively. 展开更多
关键词 Document classication deep learning text vectorization convolutional neural network bi-directional neural network stacked ensemble
下载PDF
Identification of Sarcasm in Textual Data: A Comparative Study 被引量:1
4
作者 Pulkit Mehndiratta Devpriya Soni 《Journal of Data and Information Science》 CSCD 2019年第4期56-83,共28页
Purpose:Ever increasing penetration of the Internet in our lives has led to an enormous amount of multimedia content generation on the internet.Textual data contributes a major share towards data generated on the worl... Purpose:Ever increasing penetration of the Internet in our lives has led to an enormous amount of multimedia content generation on the internet.Textual data contributes a major share towards data generated on the world wide web.Understanding people’s sentiment is an important aspect of natural language processing,but this opinion can be biased and incorrect,if people use sarcasm while commenting,posting status updates or reviewing any product or a movie.Thus,it is of utmost importance to detect sarcasm correctly and make a correct prediction about the people’s intentions.Design/methodology/approach:This study tries to evaluate various machine learning models along with standard and hybrid deep learning models across various standardized datasets.We have performed vectorization of text using word embedding techniques.This has been done to convert the textual data into vectors for analytical purposes.We have used three standardized datasets available in public domain and used three word embeddings i.e Word2Vec,GloVe and fastText to validate the hypothesis.Findings:The results were analyzed and conclusions are drawn.The key finding is:the hybrid models that include Bidirectional LongTerm Short Memory(Bi-LSTM)and Convolutional Neural Network(CNN)outperform others conventional machine learning as well as deep learning models across all the datasets considered in this study,making our hypothesis valid.Research limitations:Using the data from different sources and customizing the models according to each dataset,slightly decreases the usability of the technique.But,overall this methodology provides effective measures to identify the presence of sarcasm with a minimum average accuracy of 80%or above for one dataset and better than the current baseline results for the other datasets.Practical implications:The results provide solid insights for the system developers to integrate this model into real-time analysis of any review or comment posted in the public domain.This study has various other practical implications for businesses that depend on user ratings and public opinions.This study also provides a launching platform for various researchers to work on the problem of sarcasm identification in textual data.Originality/value:This is a first of its kind study,to provide us the difference between conventional and the hybrid methods of prediction of sarcasm in textual data.The study also provides possible indicators that hybrid models are better when applied to textual data for analysis of sarcasm. 展开更多
关键词 Machine learning Artificial neural networks Word embedding text vectorization ACCURACY
下载PDF
中文Web文本挖掘系统WebTextMiner开发 被引量:1
5
作者 魏松 钟义信 王翔英 《计算机应用研究》 CSCD 北大核心 2006年第6期211-213,共3页
W eb文本挖掘系统的开发对W eb文本挖掘的研究有着很大的推进作用。因此在对基于SVM的中文网页分类器性能研究的基础上,根据研究和实用的需要,实现了一个性能较好的中文W eb文本挖掘系统。
关键词 WEB文本挖掘 支持向量机 K-最近邻
下载PDF
基于改进TextRank的藏文抽取式摘要生成 被引量:10
6
作者 李维 闫晓东 解晓庆 《中文信息学报》 CSCD 北大核心 2020年第9期36-43,共8页
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向... 目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。 展开更多
关键词 文本摘要 textRank 词向量 句子相似度
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:31
7
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 Fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
基于TextCNN的政策文本分类 被引量:3
8
作者 李悦 汤鲲 《电子设计工程》 2022年第12期43-47,共5页
多标签文本分类现在已经成为自然语言处理中的核心任务之一,它的目的是从多个候选标签中使用最相关的标签来注释文档。该文的研究是在文本分类的基础上,以TextCNN神经网络作为基础分类框架,介绍了在自建数据集上进行基于改进的TextCNN... 多标签文本分类现在已经成为自然语言处理中的核心任务之一,它的目的是从多个候选标签中使用最相关的标签来注释文档。该文的研究是在文本分类的基础上,以TextCNN神经网络作为基础分类框架,介绍了在自建数据集上进行基于改进的TextCNN的多标签分类任务。通过爬虫来获取全国各个地市的政策文本数据,构建了一个全新的政策类数据集,对数据进行预处理,利用改进后的TextCNN神经网络来训练模型对数据进行多标签分类,经过实验对比测试,改进后的TextCNN结合百度百科词向量在自建数据集上达到了较好的分类效果。 展开更多
关键词 多标签分类 textCNN 政策文本 百度百科词向量
下载PDF
基于改进TextRank的文本摘要自动提取 被引量:12
9
作者 汪旭祥 韩斌 +1 位作者 高瑞 陈鹏 《计算机应用与软件》 北大核心 2021年第6期155-160,共6页
TextRank算法在自动提取中文文本摘要时只考虑句子间的相似性,而忽略了词语间的语义相关信息及文本的重要全局信息。对此,提出一种基于改进TextRank的文本摘要自动提取算法(SW-TextRank)。通过Word2Vec训练的词向量来计算句子之间的相似... TextRank算法在自动提取中文文本摘要时只考虑句子间的相似性,而忽略了词语间的语义相关信息及文本的重要全局信息。对此,提出一种基于改进TextRank的文本摘要自动提取算法(SW-TextRank)。通过Word2Vec训练的词向量来计算句子之间的相似度,并综合考虑句子位置、句子与标题的相似度、关键词的覆盖率、关键句子以及线索词等影响句子权重的因素,从而优化句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到最终文本的摘要。实验结果表明,SW-TextRank算法生成摘要的准确性比TextRank算法更高,摘要生成质量更好。 展开更多
关键词 文本摘要 SW-textRank算法 词向量 相似度 句子权重
下载PDF
基于fastText的股票咨询案例中文短文本分类技术 被引量:3
10
作者 林国祥 詹先银 +4 位作者 薛醒思 林涵 吕宏昱 林培辉 方铭波 《宝鸡文理学院学报(自然科学版)》 CAS 2020年第3期48-52,共5页
目的利用词向量与文本分类模型fastText来提高股票咨询短文本的分类质量。方法首先在输入层上通过fastText将输入的词序列转化为词向量进行输入,然后在隐藏层上通过单层神经网络学习,最后在输出层上使用层次softmax对标签进行编码,计算... 目的利用词向量与文本分类模型fastText来提高股票咨询短文本的分类质量。方法首先在输入层上通过fastText将输入的词序列转化为词向量进行输入,然后在隐藏层上通过单层神经网络学习,最后在输出层上使用层次softmax对标签进行编码,计算词序列与每个标签的对应概率,输出词序列属于不同标签的概率值。结果实验结果表明,基于fastText的股票咨询案例的短文本分类准确率高于传统的基于朴素贝叶斯(Naive Bayesian)的短文本分类技术。结论将fastText用于股票咨询案例中文短文本分类可以有效地提高案例短文本分类结果的质量。 展开更多
关键词 fasttext 短文本分类 文本表示 股票咨询
下载PDF
融合TextRank算法的中文短文本相似度计算 被引量:5
11
作者 卢佳伟 陈玮 尹钟 《电子科技》 2020年第10期51-56,共6页
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义... 传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。 展开更多
关键词 文本相似度 关键字提取 textRank算法 Bert 词向量技术 向量空间模型
下载PDF
基于FastText的新闻文本多分类研究 被引量:5
12
作者 张超超 卢新明 《软件导刊》 2020年第3期44-47,共4页
在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型... 在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果表明,使用FastText文本分类模型在数据集上准确率达到96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。 展开更多
关键词 文本分类 词向量 Fasttext 停用词 噪声数据
下载PDF
GM-FastText多通道词向量短文本分类模型 被引量:1
13
作者 白子诚 周艳玲 张龑 《计算机系统应用》 2022年第9期403-408,共6页
在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybri... 在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybrid network architecture, GM)的短文本分类模型GM-FastText.该模型使用FastText模型以N-gram方式分别产生不同的嵌入词向量送入GRU层和MLP层获取短文本特征,通过GRU对文本的特征提取和MLP层混合提取不同通道的文本特征,最后映射到各个分类中.多组对比实验结果表明:与TextCNN、TextRNN方法对比, GM-FastText模型F1指标提升0.021和0.023,准确率提升1.96和2.08个百分点;与FastText,FastText-CNN, FastText-RNN等对比, GM-FastText模型F1指标提升0.006、0.014和0.016,准确率提升0.42、1.06和1.41个百分点.通过对比发现,在FastText多通道词向量和GM混合结构网络的作用下,多通道词向量在短文本分类中有更好的词向量表达且GM网络结构对多参数特征提取有更好的性能. 展开更多
关键词 短文本分类 快速文本 词向量 多层感知机 多特征
下载PDF
基于Paragraph Vector模型的科研热点发现方法
14
作者 郭佳 罗森林 陈倩柔 《电子设计工程》 2018年第20期105-109,共5页
科研热点对科学研究具有指导意义,目前的科研热点发现主要依赖文本聚类技术,针对文本表示存在的特征语义表达能力不强、无法揭示词语之间潜在联系的问题,提出了一种基于Paragraph Vector模型的科研热点发现方法。该方法对文本集使用Para... 科研热点对科学研究具有指导意义,目前的科研热点发现主要依赖文本聚类技术,针对文本表示存在的特征语义表达能力不强、无法揭示词语之间潜在联系的问题,提出了一种基于Paragraph Vector模型的科研热点发现方法。该方法对文本集使用Paragraph Vector模型构建文本语义向量表示,并根据语义向量的相似度计算结果进行聚类分析得到主题集,最后基于主题文本引用特征选择前N个主题作为科研热点。实验结果表明,科研热点发现的聚类评价ARI值为0.452、H值为0.532、C值为0.538、V值为0.535,说明Paragraph Vector的低维空间表示法可通过挖掘词之间的关联属性优化向量语义表示,并能缓解维数灾难问题进而提高了话题发现的准确度。 展开更多
关键词 热点发现 文本聚类 自然语言处理 PARAGRAPH vector
下载PDF
基于Albert与TextCNN的中文文本分类研究 被引量:2
15
作者 李飞鸽 王芳 黄树成 《软件导刊》 2023年第4期27-31,共5页
互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Al... 互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。 展开更多
关键词 向量 文本特征提取 多标签 文本分类
下载PDF
Falcon: A Novel Chinese Short Text Classification Method
16
作者 Haiming Li Haining Huang +1 位作者 Xiang Cao Jingu Qian 《Journal of Computer and Communications》 2018年第11期216-226,共11页
For natural language processing problems, the short text classification is still a research hot topic, with obviously problem in the features sparse, high-dimensional text data and feature representation. In order to ... For natural language processing problems, the short text classification is still a research hot topic, with obviously problem in the features sparse, high-dimensional text data and feature representation. In order to express text directly, a simple but new variation which employs one-hot with low-dimension was proposed. In this paper, a Densenet-based model was proposed to short text classification. Furthermore, the feature diversity and reuse were implemented by the concat and average shuffle operation between Resnet and Densenet for enlarging short text feature selection. Finally, some benchmarks were introduced to evaluate the Falcon. From our experimental results, the Falcon method obtained significant improvements in the state-of-art models on most of them in all respects, especially in the first experiment of error rate. To sum up, the Falcon is an efficient and economical model, whilst requiring less computation to achieve high performance. 展开更多
关键词 SHORT text Classification Word vector Representation One-Hot Densenet NETWORKS Convolutional Neural NETWORKS
下载PDF
文本相似度计算方法综述 被引量:1
17
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
下载PDF
基于SimCSE和BERT混合模型的短文本情感分类
18
作者 刘继 李帅文 《计算机仿真》 2024年第5期348-352,435,共6页
为了解决BERT模型训练效果受到文本向量存在的各向异性问题,将对比学习(SimCSE)和BERT结合起来构建模型(SimCSE-BERT),分类器不但通过对比学习思想扩充了训练数据量,还可基于SimCSE模型获得“对齐”和“均匀性”俱佳的文本向量去优化基... 为了解决BERT模型训练效果受到文本向量存在的各向异性问题,将对比学习(SimCSE)和BERT结合起来构建模型(SimCSE-BERT),分类器不但通过对比学习思想扩充了训练数据量,还可基于SimCSE模型获得“对齐”和“均匀性”俱佳的文本向量去优化基础BERT模型以提高分类效果。实验结果表明,与基础BERT模型相比,混合模型的准确率在外卖、携程酒店和淘宝数据集上分别提升0.562、0.584和0.734个百分点。该模型在短文本情感分类数据集上的分类效果有明显提升,并且具有良好的泛化能力。 展开更多
关键词 情感分类 混合模型 文本向量
下载PDF
基于关键轮廓点的汉字矢量化及字库生成研究
19
作者 李旭东 崔荣慧 赵彩云 《软件》 2024年第9期52-59,69,共9页
古迹文字字符数字化保护过程中一直存在无规范流程、准确率低、耗时耗力等问题。针对这种情况,提出古迹文字矢量化流程,其中包括多阶段图像处理与矢量化文字提取两个关键技术。多阶段图像处理技术采用非局部均值去噪算法去除电子噪声和... 古迹文字字符数字化保护过程中一直存在无规范流程、准确率低、耗时耗力等问题。针对这种情况,提出古迹文字矢量化流程,其中包括多阶段图像处理与矢量化文字提取两个关键技术。多阶段图像处理技术采用非局部均值去噪算法去除电子噪声和光照不均引入的噪声,运用直方图均衡化技术增强图像对比度,采用基于偏微分方程的Inpainting技术实现区域修复,完成受损字符图像修复。矢量化文字提取技术基于汉字笔画的特性提取更多类型的关键轮廓点,去除了冗余的轮廓点和噪声轮廓点。实验表明,本文提出的矢量化文字提取技术相较于现有方法,内存减少8.0419%,与原图相比误差小于0.15,最终提取到的字符存储到了Unicode字库中,可在文本编辑器中使用。 展开更多
关键词 古迹文字 去噪与修残 文字矢量化 Unicode字库 集外字处理
下载PDF
一种基于RoBERTa模型的文本搜索排序方法
20
作者 唐伟广 陈勇 姚剑 《计算机与网络》 2024年第5期448-455,共8页
针对日益增长的资料快速检索共享需求,利用鲁棒性优化的BERT方法(Robustly optimized BERT approach,RoBERTa)预训练模型对现有资料进行训练,基于Transformer自注意力机制的语言学习模型,生成文本嵌入向量,将文本向量作为全文本的上下... 针对日益增长的资料快速检索共享需求,利用鲁棒性优化的BERT方法(Robustly optimized BERT approach,RoBERTa)预训练模型对现有资料进行训练,基于Transformer自注意力机制的语言学习模型,生成文本嵌入向量,将文本向量作为全文本的上下文表征。通过将关键搜索词向量化,使用欧氏距离计算向量与其他向量之间的距离,并使用快速排序算法,以找到最相似的向量输出显示,解决基于内容和上下文语义搜索的应用需求。 展开更多
关键词 TRANSFORMER 文本搜索 注意力机制 嵌入向量
下载PDF
上一页 1 2 49 下一页 到第
使用帮助 返回顶部