期刊文献+
共找到975篇文章
< 1 2 49 >
每页显示 20 50 100
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
1
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
下载PDF
基于Albert与TextCNN的中文文本分类研究 被引量:2
2
作者 李飞鸽 王芳 黄树成 《软件导刊》 2023年第4期27-31,共5页
互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Al... 互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。 展开更多
关键词 向量 文本特征提取 多标签 文本分类
下载PDF
基于SimCSE和BERT混合模型的短文本情感分类
3
作者 刘继 李帅文 《计算机仿真》 2024年第5期348-352,435,共6页
为了解决BERT模型训练效果受到文本向量存在的各向异性问题,将对比学习(SimCSE)和BERT结合起来构建模型(SimCSE-BERT),分类器不但通过对比学习思想扩充了训练数据量,还可基于SimCSE模型获得“对齐”和“均匀性”俱佳的文本向量去优化基... 为了解决BERT模型训练效果受到文本向量存在的各向异性问题,将对比学习(SimCSE)和BERT结合起来构建模型(SimCSE-BERT),分类器不但通过对比学习思想扩充了训练数据量,还可基于SimCSE模型获得“对齐”和“均匀性”俱佳的文本向量去优化基础BERT模型以提高分类效果。实验结果表明,与基础BERT模型相比,混合模型的准确率在外卖、携程酒店和淘宝数据集上分别提升0.562、0.584和0.734个百分点。该模型在短文本情感分类数据集上的分类效果有明显提升,并且具有良好的泛化能力。 展开更多
关键词 情感分类 混合模型 文本向量
下载PDF
一种基于RoBERTa模型的文本搜索排序方法
4
作者 唐伟广 陈勇 姚剑 《计算机与网络》 2024年第5期448-455,共8页
针对日益增长的资料快速检索共享需求,利用鲁棒性优化的BERT方法(Robustly optimized BERT approach,RoBERTa)预训练模型对现有资料进行训练,基于Transformer自注意力机制的语言学习模型,生成文本嵌入向量,将文本向量作为全文本的上下... 针对日益增长的资料快速检索共享需求,利用鲁棒性优化的BERT方法(Robustly optimized BERT approach,RoBERTa)预训练模型对现有资料进行训练,基于Transformer自注意力机制的语言学习模型,生成文本嵌入向量,将文本向量作为全文本的上下文表征。通过将关键搜索词向量化,使用欧氏距离计算向量与其他向量之间的距离,并使用快速排序算法,以找到最相似的向量输出显示,解决基于内容和上下文语义搜索的应用需求。 展开更多
关键词 TRANSFORMER 文本搜索 注意力机制 嵌入向量
下载PDF
文本相似度计算方法综述
5
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
下载PDF
基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法
6
作者 刘丹 《微型电脑应用》 2024年第4期195-197,201,共4页
为了准确识别社交媒体评论文本情感,助力公众负面情绪引导,提出了基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法。通过社交媒体大数据分类,并通过具有字典功能的Token将评论文本转换成数字列表。结合词嵌入技术得到向量列表... 为了准确识别社交媒体评论文本情感,助力公众负面情绪引导,提出了基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法。通过社交媒体大数据分类,并通过具有字典功能的Token将评论文本转换成数字列表。结合词嵌入技术得到向量列表,完成社交媒体大数据向量转换的预处理。将预处理获取的向量列表输入CNN网络,得到评论文本情感元最终局部特征值。将该值传至LSTM,通过遗忘门、输入门、输出门调节,获取评论文本情感元特征表征结果,经Softmax分类器分类后,实现情感元自动识别。实验结果表明,该方法能有效完成实验数据预处理,用文字和标签的形式标记正面、负面情感元,并准确识别情感元,间接反映社会问题,应用性较强。 展开更多
关键词 社交媒体数据 评论文本 情感元 向量列表 CNN-LSTM 自动识别
下载PDF
基于字词向量融合的民航智慧监管短文本分类 被引量:1
7
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 短文本 文本卷积神经网络(textCNN) 双向长短期记忆(BiLSTM)
下载PDF
基于加权TextRank的中文自动文本摘要 被引量:21
8
作者 黄波 刘传才 《计算机应用研究》 CSCD 北大核心 2020年第2期407-410,共4页
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结... 现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。 展开更多
关键词 文本摘要 textRank 词向量 句子相似度
下载PDF
基于文本Embedding和相似度计算的FA范围准确性校核方法研究
9
作者 赵成睿 李斌 +2 位作者 李洪全 张照芳 蒋熙蕴 《自动化应用》 2024年第20期15-17,21,共4页
在现代电力系统核心运营中,馈线自动化扮演着提高供电可靠性和服务质量的核心角色。针对FA系统故障定位的精确性挑战,提出了一种基于文本向量化和相似度技术的创新校核方法。与传统手动校核流程相比,该方法显著提升了故障诊断的准确度... 在现代电力系统核心运营中,馈线自动化扮演着提高供电可靠性和服务质量的核心角色。针对FA系统故障定位的精确性挑战,提出了一种基于文本向量化和相似度技术的创新校核方法。与传统手动校核流程相比,该方法显著提升了故障诊断的准确度和操作效率。此项研究为电力系统故障响应与维护流程提供了一种高效、可靠的技术解决方案,对确保电网运行的稳定性和安全性具有极为重要的意义。 展开更多
关键词 馈线自动化 故障分析 准确性校核 大型语言模型 文本向量化 相似度计算
下载PDF
自注意力机制下复杂文本实体关系抽取方法
10
作者 针钰 马晓宁 《计算机仿真》 2024年第4期522-526,共5页
为了能够明确语义关系,快速识别所需信息,提出一种自注意力机制下复杂文本实体关系抽取方法。通过复杂文本向量模型把全部词映射为低度实数向量,使文本转变成矢量模式,按照单词的外在情境学习嵌入,可将句子内的所有字转化为嵌入矩阵。利... 为了能够明确语义关系,快速识别所需信息,提出一种自注意力机制下复杂文本实体关系抽取方法。通过复杂文本向量模型把全部词映射为低度实数向量,使文本转变成矢量模式,按照单词的外在情境学习嵌入,可将句子内的所有字转化为嵌入矩阵。利用LSTM网络建立文本向量,存取以往和将来的上下文,融合前后两种输出矢量。运用激活函数压缩单词维度,计算句子上下文本语义贡献权重,在双向LSTM层和输出层间加入自注意力机制,从多角度获取矩阵层次的句子语义,计算组合句子特征矢量在关系上的分数,根据给定概率随机抽样权值参变量,完成复杂文本实体关系抽取。通过实验证明所提方法对复杂文本实体关系抽取效果较好,具有极高的精准度。 展开更多
关键词 自注意力机制 关系抽取 文本向量模型 复杂文本实体
下载PDF
Deep Learning Multimodal for Unstructured and Semi-Structured Textual Documents Classicatio 被引量:1
11
作者 Nany Katamesh Osama Abu-Elnasr Samir Elmougy 《Computers, Materials & Continua》 SCIE EI 2021年第7期589-606,共18页
Due to the availability of a huge number of electronic text documents from a variety of sources representing unstructured and semi-structured information,the document classication task becomes an interesting area for ... Due to the availability of a huge number of electronic text documents from a variety of sources representing unstructured and semi-structured information,the document classication task becomes an interesting area for controlling data behavior.This paper presents a document classication multimodal for categorizing textual semi-structured and unstructured documents.The multimodal implements several individual deep learning models such as Deep Neural Networks(DNN),Recurrent Convolutional Neural Networks(RCNN)and Bidirectional-LSTM(Bi-LSTM).The Stacked Ensemble based meta-model technique is used to combine the results of the individual classiers to produce better results,compared to those reached by any of the above mentioned models individually.A series of textual preprocessing steps are executed to normalize the input corpus followed by text vectorization techniques.These techniques include using Term Frequency Inverse Term Frequency(TFIDF)or Continuous Bag of Word(CBOW)to convert text data into the corresponding suitable numeric form acceptable to be manipulated by deep learning models.Moreover,this proposed model is validated using a dataset collected from several spaces with a huge number of documents in every class.In addition,the experimental results prove that the proposed model has achieved effective performance.Besides,upon investigating the PDF Documents classication,the proposed model has achieved accuracy up to 0.9045 and 0.959 for the TFIDF and CBOW features,respectively.Moreover,concerning the JSON Documents classication,the proposed model has achieved accuracy up to 0.914 and 0.956 for the TFIDF and CBOW features,respectively.Furthermore,as for the XML Documents classication,the proposed model has achieved accuracy values up to 0.92 and 0.959 for the TFIDF and CBOW features,respectively. 展开更多
关键词 Document classication deep learning text vectorization convolutional neural network bi-directional neural network stacked ensemble
下载PDF
Identification of Sarcasm in Textual Data: A Comparative Study 被引量:1
12
作者 Pulkit Mehndiratta Devpriya Soni 《Journal of Data and Information Science》 CSCD 2019年第4期56-83,共28页
Purpose:Ever increasing penetration of the Internet in our lives has led to an enormous amount of multimedia content generation on the internet.Textual data contributes a major share towards data generated on the worl... Purpose:Ever increasing penetration of the Internet in our lives has led to an enormous amount of multimedia content generation on the internet.Textual data contributes a major share towards data generated on the world wide web.Understanding people’s sentiment is an important aspect of natural language processing,but this opinion can be biased and incorrect,if people use sarcasm while commenting,posting status updates or reviewing any product or a movie.Thus,it is of utmost importance to detect sarcasm correctly and make a correct prediction about the people’s intentions.Design/methodology/approach:This study tries to evaluate various machine learning models along with standard and hybrid deep learning models across various standardized datasets.We have performed vectorization of text using word embedding techniques.This has been done to convert the textual data into vectors for analytical purposes.We have used three standardized datasets available in public domain and used three word embeddings i.e Word2Vec,GloVe and fastText to validate the hypothesis.Findings:The results were analyzed and conclusions are drawn.The key finding is:the hybrid models that include Bidirectional LongTerm Short Memory(Bi-LSTM)and Convolutional Neural Network(CNN)outperform others conventional machine learning as well as deep learning models across all the datasets considered in this study,making our hypothesis valid.Research limitations:Using the data from different sources and customizing the models according to each dataset,slightly decreases the usability of the technique.But,overall this methodology provides effective measures to identify the presence of sarcasm with a minimum average accuracy of 80%or above for one dataset and better than the current baseline results for the other datasets.Practical implications:The results provide solid insights for the system developers to integrate this model into real-time analysis of any review or comment posted in the public domain.This study has various other practical implications for businesses that depend on user ratings and public opinions.This study also provides a launching platform for various researchers to work on the problem of sarcasm identification in textual data.Originality/value:This is a first of its kind study,to provide us the difference between conventional and the hybrid methods of prediction of sarcasm in textual data.The study also provides possible indicators that hybrid models are better when applied to textual data for analysis of sarcasm. 展开更多
关键词 Machine learning Artificial neural networks Word embedding text vectorization ACCURACY
下载PDF
混合特征及多头注意力的中文短文本分类
13
作者 江结林 朱永伟 +2 位作者 许小龙 崔燕 赵英男 《计算机工程与应用》 CSCD 北大核心 2024年第9期237-243,共7页
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本... 传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。 展开更多
关键词 中文短文本分类 注意力机制 词级向量 字符级向量
下载PDF
基于BERT字句向量与差异注意力的短文本语义匹配策略
14
作者 王钦晨 段利国 +2 位作者 王君山 张昊妍 郜浩 《计算机工程与科学》 CSCD 北大核心 2024年第7期1321-1330,共10页
短文本语义匹配是自然语言处理领域中的一个核心问题,可广泛应用于自动问答、搜索引擎等领域。过去的工作大多只考虑文本之间的相似部分,忽略了文本之间的差异部分,从而使模型无法充分利用到决定文本之间是否匹配的关键信息。针对上述问... 短文本语义匹配是自然语言处理领域中的一个核心问题,可广泛应用于自动问答、搜索引擎等领域。过去的工作大多只考虑文本之间的相似部分,忽略了文本之间的差异部分,从而使模型无法充分利用到决定文本之间是否匹配的关键信息。针对上述问题,提出一种基于BERT字句向量与差异注意力的短文本语义匹配策略,利用BERT对句子对进行向量化表示,使用BiLSTM并引入多头差异注意力机制获取当前字向量与文本全局语义信息之间表征意图差异的注意力权重,结合一维卷积神经网络对句子对的语义特征向量进行降维,最后拼接字句向量并送入全连接层计算出2个句子之间的语义匹配度。通过在LCQMC和BQ Corpus数据集上的实验表明,该策略可以有效提取文本语义差异信息,从而使模型表现出更好的效果。 展开更多
关键词 短文本语义匹配 字句向量 表征意图 差异注意
下载PDF
电气接线图的矢量化技术研究
15
作者 张勇 宋爱波 +3 位作者 苏猛猛 王天予 王清未 陈锐 《浙江电力》 2024年第8期28-35,共8页
电气接线图是表示电气设备的位置、描述其接线与配线方式的工程图纸,需要转换成XML文件格式以用于智能电网系统调度管理,这一转换过程被称为矢量化。针对人工矢量化效率低、费时费力的问题,提出了一种电气接线图矢量化技术解决方法。首... 电气接线图是表示电气设备的位置、描述其接线与配线方式的工程图纸,需要转换成XML文件格式以用于智能电网系统调度管理,这一转换过程被称为矢量化。针对人工矢量化效率低、费时费力的问题,提出了一种电气接线图矢量化技术解决方法。首先给出了融合注意力机制的YOLOv3电气图元检测方法,实现了对各类电气图元的精准识别与定位;然后提出基于多尺度特征提取的文本区域检测算法,实现对图纸中电气文本标注区域的定位,再结合CRNN模型对其内容进行识别;最后提出基于模板匹配的矢量化成图策略,以图元组为单位,对图纸中电气元素间的关联关系进行分析。该方法已有实际部署运行案例,能高效、准确完成电气接线图纸的矢量化工作,满足电力系统的应用需求。 展开更多
关键词 电气接线图 矢量化 目标检测 文本识别 模板匹配
下载PDF
基于字词向量的BiLSTM-CRF水利工程巡检文本实体识别模型 被引量:2
16
作者 刘雪梅 程彭圣男 +3 位作者 李海瑞 曹闯 高英 崔培 《华北水利水电大学学报(自然科学版)》 北大核心 2024年第3期9-17,共9页
命名实体识别是构建水利知识图谱的核心技术。水利工程巡检文本是水利工程最为常见的数据类型,以文本形式记录,没有固定格式与结构,但其包含水利工程安全潜在风险信息,具有价值密度高的特点。针对水利工程巡检文本命名实体识别问题,提... 命名实体识别是构建水利知识图谱的核心技术。水利工程巡检文本是水利工程最为常见的数据类型,以文本形式记录,没有固定格式与结构,但其包含水利工程安全潜在风险信息,具有价值密度高的特点。针对水利工程巡检文本命名实体识别问题,提出字词向量融合的BiLSTM-CRF模型,首先将巡检文本分别在字维度和词维度进行向量化处理,合并字词向量获取字词向量特征;然后利用BiLSTM神经网络获取序列化后的上下文特征;最后通过CRF进行解码并提取相应实体。以南水北调中线工程巡检文本为例,实验结果表明:字词向量结合之后的方法能有效提高识别性能,对实体边界的识别效果更优,模型准确率、召回率和F1值分别可以达到93.79%、93.06%、93.42%;时间效率较BERT-BiLSTM-CRF模型的时间效率提高82.86%。基于字词向量的BiLSTM-CRF模型可为水利工程知识图谱的快速构建提供技术支撑。 展开更多
关键词 巡检文本 实体识别 双向长短期记忆神经网络 Word2Vec 条件向量场
下载PDF
文本深度学习向量化在操作票审核中的研究
17
作者 段宇 孙载董 陈铁山 《电力系统装备》 2024年第3期11-13,38,共4页
传统的电力系统操作票审核采用人工审核,审核效率低。随着深度学习技术的发展,自然语言处理技术能够高效、高质地处理文本和问题。应用文本深度学习向量化可解决传统操作票人工审核过程中存在的问题。文章针对文本深度学习向量化在电力... 传统的电力系统操作票审核采用人工审核,审核效率低。随着深度学习技术的发展,自然语言处理技术能够高效、高质地处理文本和问题。应用文本深度学习向量化可解决传统操作票人工审核过程中存在的问题。文章针对文本深度学习向量化在电力系统操作票审核中的应用进行研究,以期提高审核效率。 展开更多
关键词 文本向量化 操作票 审核
下载PDF
文本语义表征技术研究综述
18
作者 赵小娟 《无线互联科技》 2024年第12期112-114,共3页
文本语义表征是自然语言处理领域的核心任务之一,将文本信息转化为计算机可理解的数值表示能够实现对文本深层含义的挖掘和应用。文章通过对传统文本语义表征方法的梳理,剖析了这些方法的优势与局限,并重点探讨了深度学习在文本语义表... 文本语义表征是自然语言处理领域的核心任务之一,将文本信息转化为计算机可理解的数值表示能够实现对文本深层含义的挖掘和应用。文章通过对传统文本语义表征方法的梳理,剖析了这些方法的优势与局限,并重点探讨了深度学习在文本语义表征领域的突破性进展和发展趋势,旨在全面综述文本语义表征技术的研究现状与发展趋势,为相关领域的研究提供有益的参考和启示。 展开更多
关键词 文本语义表征 词嵌入 深度学习模型 语义向量
下载PDF
基于词向量融合的建筑文本分类方法研究
19
作者 胡少云 翁清雄 《微型电脑应用》 2024年第2期18-20,25,共4页
由于建筑领域问题包含复杂多样的领域专有术语,常见的文本分类算法在建筑领域问题分类上难度较大。为提高建筑领域问题的分类性能,提出一种基于融合RoBERTa和Word2Vec的建筑文本分类算法。实验结果表明:在建筑领域问题数据集上,准确率达... 由于建筑领域问题包含复杂多样的领域专有术语,常见的文本分类算法在建筑领域问题分类上难度较大。为提高建筑领域问题的分类性能,提出一种基于融合RoBERTa和Word2Vec的建筑文本分类算法。实验结果表明:在建筑领域问题数据集上,准确率达到91.59%,分类性能较好;在通用数据集上,准确率均高于SVM、CNN等模型。 展开更多
关键词 文本分类 预训练语言模型 句向量 深度学习 问答系统
下载PDF
语义检索技术在电商搜索中的应用研究
20
作者 赵小娟 《福建电脑》 2024年第6期54-58,共5页
在电商搜索场景下,用户检索的语义模糊和商品标题信息的繁杂冗余,使得基于文本相似度匹配的检索算法无法满足用户检索的需求。针对这种情况,本文基于阿里巴巴淘宝电商开源的业务数据,探索了基于深度学习和对比学习的文本语义向量技术在... 在电商搜索场景下,用户检索的语义模糊和商品标题信息的繁杂冗余,使得基于文本相似度匹配的检索算法无法满足用户检索的需求。针对这种情况,本文基于阿里巴巴淘宝电商开源的业务数据,探索了基于深度学习和对比学习的文本语义向量技术在电商搜索场景下的应用,并提出了模型领域自适应的训练方式和一种差异化多层次的数据增强方式。实验的结果表明,基于文本语义向量检索技术明显优于传统的基于文本相似度匹配的检索算法,模型领域自适应的训练方式和差异化多层次的数据增强方式能够显著提升商品召回的效果。 展开更多
关键词 电商搜索 语义检索 文本语义向量 检索算法
下载PDF
上一页 1 2 49 下一页 到第
使用帮助 返回顶部