期刊文献+
共找到694篇文章
< 1 2 35 >
每页显示 20 50 100
多视图融合DJ-TextRCNN的古籍文本主题推荐研究 被引量:1
1
作者 武帅 杨秀璋 何琳 《情报学报》 CSSCI CSCD 北大核心 2024年第1期61-75,共15页
传统编目分类和规则匹配方法存在工作效能低、过度依赖专家知识、缺乏对古籍文本自身语义的深层次挖掘、编目主题边界模糊、较难实现对古籍文本领域主题的精准推荐等问题。为此,本文结合古籍语料特征探究如何实现精准推荐符合研究者需... 传统编目分类和规则匹配方法存在工作效能低、过度依赖专家知识、缺乏对古籍文本自身语义的深层次挖掘、编目主题边界模糊、较难实现对古籍文本领域主题的精准推荐等问题。为此,本文结合古籍语料特征探究如何实现精准推荐符合研究者需求的文本主题内容的方法,以推动数字人文研究的进一步发展。首先,选取本课题组前期标注的古籍语料数据进行主题类别标注和视图分类;其次,构建融合BERT(bidirectional encoder representation from transformers)预训练模型、改进卷积神经网络、循环神经网络和多头注意力机制的语义挖掘模型;最后,融入“主体-关系-客体”多视图的语义增强模型,构建DJ-TextRCNN(DianJi-recurrent convolutional neural networks for text classification)模型实现对典籍文本更细粒度、更深层次、更多维度的语义挖掘。研究结果发现,DJ-TextRCNN模型在不同视图下的古籍主题推荐任务的准确率均为最优。在“主体-关系-客体”视图下,精确率达到88.54%,初步实现了对古籍文本的精准主题推荐,对中华文化深层次、细粒度的语义挖掘具有一定的指导意义。 展开更多
关键词 数字人文 古籍文本 主题推荐 多视图融合 DJ-textRCNN
下载PDF
基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究 被引量:1
2
作者 武帅 杨秀璋 +1 位作者 何琳 公佐权 《情报学报》 CSSCI CSCD 北大核心 2024年第5期601-615,共15页
以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人... 以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking,word,pattern,and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。 展开更多
关键词 多维特征融合 古籍文本 主题分类 SWPF2vec DJ-textRCNN
下载PDF
基于Bert-TextCNN的开源威胁情报文本的多标签分类方法
3
作者 陆佳丽 《信息安全研究》 CSCD 北大核心 2024年第8期760-768,共9页
开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则... 开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则判断的多标签分类方法.根据情报源发布文本的特点,设置正则判断规则,以弥补模型的欠缺;为更全面反映开源威胁情报文本所涉及的威胁主题,针对标题和正文分别设置了Bert-TextCNN多标签分类模型,并将2部分标签整理去重以得到文本的最终威胁类别.通过与只依据正文建立的Bert-TextCNN多标签分类模型进行对比,所设置的模型在性能上有所提升,且召回率提升明显,能为开源威胁情报分类工作提供有价值的参考. 展开更多
关键词 开源威胁情报 多标签分类 文本分类 Bert模型 textCNN模型
下载PDF
基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究 被引量:3
4
作者 刘勇 杜建强 +3 位作者 罗计根 李清 于梦波 郑奇民 《现代信息科技》 2023年第19期123-128,共6页
针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输... 针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输入ALBERT进行预训练任务;其次ALBERT多层的Transform对已标注数据分别进行动态向量化表示,基于语义筛选选取最佳编码层生成的高效文本向量;最后引入TextCNN建立多标签分类器,提取文本向量不同层次的语义信息特征。在中医数据集上验证方法的有效性,实验结果表明,该模型的多标签分类精度有所提高,更适用于中医文本的分类预测。 展开更多
关键词 多标签分类 中医文本 语义筛选 ALBERT textCNN
下载PDF
基于Albert与TextCNN的中文文本分类研究 被引量:2
5
作者 李飞鸽 王芳 黄树成 《软件导刊》 2023年第4期27-31,共5页
互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Al... 互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。 展开更多
关键词 向量 文本特征提取 多标签 文本分类
下载PDF
Multi-Task Learning for Semantic Relatedness and Textual Entailment
6
作者 Linrui Zhang Dan Moldovan 《Journal of Software Engineering and Applications》 2019年第6期199-214,共16页
Recently, several deep learning models have been successfully proposed and have been applied to solve different Natural Language Processing (NLP) tasks. However, these models solve the problem based on single-task sup... Recently, several deep learning models have been successfully proposed and have been applied to solve different Natural Language Processing (NLP) tasks. However, these models solve the problem based on single-task supervised learning and do not consider the correlation between the tasks. Based on this observation, in this paper, we implemented a multi-task learning model to joint learn two related NLP tasks simultaneously and conducted experiments to evaluate if learning these tasks jointly can improve the system performance compared with learning them individually. In addition, a comparison of our model with the state-of-the-art learning models, including multi-task learning, transfer learning, unsupervised learning and feature based traditional machine learning models is presented. This paper aims to 1) show the advantage of multi-task learning over single-task learning in training related NLP tasks, 2) illustrate the influence of various encoding structures to the proposed single- and multi-task learning models, and 3) compare the performance between multi-task learning and other learning models in literature on textual entailment task and semantic relatedness task. 展开更多
关键词 DEEP LEARNING multi-TASK LEARNING text UNDERSTANDING
下载PDF
基于注意力机制和CNN的多标签文本分类模型 被引量:1
7
作者 杨春霞 吴佳君 +1 位作者 瞿涛 姚思诚 《计算机应用与软件》 北大核心 2024年第3期156-162,共7页
针对目前多标签文本分类模型存在无法充分提取文本语义与标签的相互关系,提出一种基于注意力机制和卷积神经网络(CNN)的多标签文本分类模型。通过多头注意力机制和CNN对文本进行建模表示,充分挖掘文本全局和局部的语义特征;结合标签与... 针对目前多标签文本分类模型存在无法充分提取文本语义与标签的相互关系,提出一种基于注意力机制和卷积神经网络(CNN)的多标签文本分类模型。通过多头注意力机制和CNN对文本进行建模表示,充分挖掘文本全局和局部的语义特征;结合标签与文本信息进行交互注意力计算,捕捉结合文本内容后标签间的相互关系;使用一种自适应融合策略进一步提取两者语义信息。实验结果表明,该模型相比于其他主流模型能有效提升多标签文本分类效果。 展开更多
关键词 多标签文本分类 注意力机制 卷积神经网络 文本表示
下载PDF
基于互信息解决多标签文本分类中的长尾问题
8
作者 潘理虎 李小华 +3 位作者 张睿 谢斌红 杨楠 张林梁 《计算机应用研究》 CSCD 北大核心 2024年第9期2664-2669,共6页
针对当前解决多标签文本分类中长尾问题的方法多以破坏原本数据分布为代价,在真实数据上的泛化性能下降,无法有效地缓解样本的长尾分布的问题,提出了基于互信息解决长尾问题的多标签文本分类方法(MLTC-LD)。首先,创建关于标签样本的关... 针对当前解决多标签文本分类中长尾问题的方法多以破坏原本数据分布为代价,在真实数据上的泛化性能下降,无法有效地缓解样本的长尾分布的问题,提出了基于互信息解决长尾问题的多标签文本分类方法(MLTC-LD)。首先,创建关于标签样本的关系矩阵,计算标签样本间的依赖关系;其次,考虑标签样本间关系程度的强弱构造邻居选择器,将拥有强关系的邻居信息作为主要语义特征并作为先验信息;最后,通过图注意力神经网络将先验信息引入分类器,实现了借助分布头部数据丰富类的知识来提高尾部数据贫乏类性能的目标。在三个不同的数据集上将MLTC-LD与八个基线模型进行了广泛的比较分析。实验结果表明,MLTC-LD与最优的HGLRN相比精确度分别提高了3.5%、0.3%、1.5%,证明了该方法的有效性。 展开更多
关键词 多标签文本分类 长尾问题 互信息 先验信息
下载PDF
融合双向注意力和对比增强机制的多标签文本分类
9
作者 李建东 傅佳 李佳琦 《计算机工程与应用》 CSCD 北大核心 2024年第16期105-115,共11页
现有多标签文本分类模型面对文本序列增长时语义信息缺失,预测特定标签时忽略已有实例中的丰富知识等问题不能很好地解决,由此提出一种融合双向注意力和对比增强机制的多标签文本分类模型。结合BERT词嵌入,利用CTransformer模型分别获... 现有多标签文本分类模型面对文本序列增长时语义信息缺失,预测特定标签时忽略已有实例中的丰富知识等问题不能很好地解决,由此提出一种融合双向注意力和对比增强机制的多标签文本分类模型。结合BERT词嵌入,利用CTransformer模型分别获取序列的全局依赖关系和局部结构信息;使用双向注意力和标签嵌入进一步生成最终文本表示和标签表示,将文本信息与标签信息进行交互,得到更为全面的综合语义信息;利用对比增强机制进行KNN实例检索,设计一个多标签对比学习目标,使模型意识到KNN分类过程,并提高推理过程中检索邻居实例的质量。分类器根据标签表示和文本表示进行文本分类。为了评估模型的性能,在三个公开英文数据集上进行测试,实验结果表明提出的模型在P@K和nDCG@K指标上均优于其他主流基线模型。 展开更多
关键词 多标签文本分类 注意力机制 对比增强机制 CTransformer模型 多标签对比学习
下载PDF
基于标签语义匹配融合的多标签文本分类方法
10
作者 文勇军 刘随缘 崔志豪 《湘潭大学学报(自然科学版)》 CAS 2024年第3期82-93,共12页
针对当前多标签文本分类研究中存在的文本有效信息提取不充分、标签间的相关性被忽略、文本对标签的语义关注挖掘、利用不足的问题,该文提出了一种基于标签语义匹配融合的多标签文本分类方法.首先,利用DeBERTa模型来计算细粒度为单词级... 针对当前多标签文本分类研究中存在的文本有效信息提取不充分、标签间的相关性被忽略、文本对标签的语义关注挖掘、利用不足的问题,该文提出了一种基于标签语义匹配融合的多标签文本分类方法.首先,利用DeBERTa模型来计算细粒度为单词级的文本表示;同时,根据标签全局共现构建标签图数据,利用图注意力网络自动学习不同标签之间的关联程度,生成捕获了标签间结构信息与深层相关性的标签特征嵌入;然后,提出了一种基于标签语义匹配的嵌入融合机制建模文本对标签的语义关注,体现了两者的语义关联,并将获得的基于标签语义匹配嵌入的单词融合表示送入CNN中进行特征交互,最终实现标签预测.在AAPD与RCV1-V2这两个公开英文数据集上的实验结果表明,该文所提出的模型性能明显优于其他主流基线模型. 展开更多
关键词 多标签文本分类 DeBERTa 图注意力网络GAT 标签语义嵌入
下载PDF
融合GAT与头尾标签的多标签文本分类模型
11
作者 杨春霞 黄昱锟 +1 位作者 闫晗 吴亚雷 《计算机工程与应用》 CSCD 北大核心 2024年第15期150-160,共11页
现有基于神经网络的多标签文本分类主要存在两方面的不足,一是现有的数据中标签-文本频率存在长尾分布,二是很少从图结构中获取全局标签之间的关联性,针对以上问题,提出了一种融合GAT与头尾标签分类器的多标签文本分类模型(GATTN),该模... 现有基于神经网络的多标签文本分类主要存在两方面的不足,一是现有的数据中标签-文本频率存在长尾分布,二是很少从图结构中获取全局标签之间的关联性,针对以上问题,提出了一种融合GAT与头尾标签分类器的多标签文本分类模型(GATTN),该模型利用带有注意力机制的Bi-LSTM得到文本的特征向量表示;同时把不同标签之间的关联性转换为包含了全局信息的边加权图,利用多层的图注意力网络来学习头标签之间的关联性。然后将其与文本上下文语义信息进行点积交互,得到具有文本语义和头标签信息的特征表示提高模型的泛化能力。在AAPD、RCV1-V2和EUR-Lex三个公开英文数据集上的实验结果证明,该模型针对数据长尾分布的多标签文本分类效果优于其他基线模型。 展开更多
关键词 多标签文本分类 图注意力网络 头尾标签 多样本学习
下载PDF
基于多样化标签矩阵的医学影像报告生成
12
作者 张俊三 程铭 +2 位作者 沈秀轩 刘玉雪 王雷全 《计算机科学》 CSCD 北大核心 2024年第8期200-208,共9页
医学影像在医学诊断中具有重要作用,而准确描述的文本报告对于理解图像以及后续疾病诊断是必不可少的。目前在医学影像报告生成领域,基于模式化方法生成规范的文本报告成为近年的研究热点。但正负样本数量差距较大导致的数据偏差问题,... 医学影像在医学诊断中具有重要作用,而准确描述的文本报告对于理解图像以及后续疾病诊断是必不可少的。目前在医学影像报告生成领域,基于模式化方法生成规范的文本报告成为近年的研究热点。但正负样本数量差距较大导致的数据偏差问题,使得生成的报告内容普遍倾向于描述正常状况,难以准确捕捉异常信息。为解决这一问题,提出了一种基于多样化标签矩阵的医学报告生成方法,可以对不同的疾病进行差异化学习,生成多样化的医疗报告;设计文本-矩阵特征损失函数,优化多样化标签矩阵;增加特征交叉模块改进Transformer网络,加强图像与文本的映射,提升疾病描述的准确性。在IU-X-Ray和MIMIC-CXR两个数据集上进行实验,实验结果表明,与目前的主流方法相比,所提方法在BLEU,METEOR等多个指标上取得了最优的效果。 展开更多
关键词 深度学习 医学影像报告生成 注意力机制 图像-文本生成 多模态
下载PDF
基于多元语义特征和图卷积神经网络的短文本分类模型
13
作者 鲁富宇 冷泳林 崔洪霞 《河南科学》 2024年第5期625-630,共6页
在互联网和社交媒体迅猛发展的背景下,网络中出现了大量的短文本数据,这些数据在舆情监控、情感分析和新闻分类等自然语言处理领域展现出了非常高的经济和学术价值.但短文本数据固有的特征给短文本分类带来了不小的挑战,如文本稀疏和缺... 在互联网和社交媒体迅猛发展的背景下,网络中出现了大量的短文本数据,这些数据在舆情监控、情感分析和新闻分类等自然语言处理领域展现出了非常高的经济和学术价值.但短文本数据固有的特征给短文本分类带来了不小的挑战,如文本稀疏和缺乏丰富的上下文语义等.针对这些问题,提出了一种结合多元语义特征和图卷积神经网络(GCN)的短文本分类模型,该模型通过哈尔滨工业大学的语言技术平台获取短文本的多种语义特征,并将这些语义特征同短文本一起构建一个多元异构图,然后将其作为GCN的输入,利用GCN学习短文本更深层特征,最后通过Softmax函数获取每个类别的概率分布,进而实现短文本分类.试验结果表明,本模型在短文本分类的F1评分上比传统单一模型提高了4%. 展开更多
关键词 短文本 多元异构图 语义特征 图卷积神经网络 分类模型
下载PDF
融合领域要素知识的多粒度法律文本匹配方法
14
作者 罗森林 董勃 +1 位作者 潘丽敏 吴舟婷 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第3期298-305,共8页
法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障法律适用的统一性同案同判.现有方法未能充分利用特定类型案件的先验知识,其核心要素提取准确率低,仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果... 法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障法律适用的统一性同案同判.现有方法未能充分利用特定类型案件的先验知识,其核心要素提取准确率低,仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果.提出一种融合领域要素知识的多粒度法律文本匹配方法,通过建立特定案件类型领域知识库准确提取法律要素,引入字、词、句3个粒度的注意力机制计算不同文本向量的权重提升匹配模型效果.实验结果表明,该方法在公开数据集上可达到最好效果. 展开更多
关键词 文本匹配 法律要素 多粒度 领域知识
下载PDF
结合注意力机制和Mengzi模型的短文本分类
15
作者 陈雪松 李衡 王浩畅 《计算机与现代化》 2024年第9期101-106,120,共7页
如何使用短文本分类技术挖掘有用的文本信息,是当前热门的研究方向之一。为了解决短文本特征信息稀疏和特征信息难以提取的问题,提出一种Mengzi-ADCBU短文本分类模型,该模型利用Mengzi预训练模型将输入的文本信息转化为相应的文本表示,... 如何使用短文本分类技术挖掘有用的文本信息,是当前热门的研究方向之一。为了解决短文本特征信息稀疏和特征信息难以提取的问题,提出一种Mengzi-ADCBU短文本分类模型,该模型利用Mengzi预训练模型将输入的文本信息转化为相应的文本表示,再将获得的文本向量分别输入改进的深度金字塔卷积神经网络和融合了多头注意力机制的双向门控单元中提取文本特征信息,将两者提取到的特征信息进行融合之后,输送给全连接层和Softmax函数完成短文本分类。在公开的短文本数据集THUCNews和SougouCS上分别进行多组模型对比实验,实验结果表明本文提出的MengziADCBU模型在短文本分类的准确率、精确度、召回率和F1值等评价指标上都比现在的主流模型性能更优,具有较好的短文本分类能力。 展开更多
关键词 短文本 多头注意力 深度金字塔卷积神经网络 双向门控单元
下载PDF
基于图文多模态融合推理的产品创新方案设计方法研究
16
作者 马进 范明浩 +1 位作者 马良山 胡洁 《包装工程》 CAS 北大核心 2024年第8期21-28,共8页
目的针对当前产品创新设计领域中对基于图像-文本多模态知识支撑创新设计方法研究不足的问题,提出了一套基于图文多模态的产品创新方案设计方法。方法首先,对设计师的设计草图与文本要求进行预处理,然后引入产品设计知识图谱来促进设计... 目的针对当前产品创新设计领域中对基于图像-文本多模态知识支撑创新设计方法研究不足的问题,提出了一套基于图文多模态的产品创新方案设计方法。方法首先,对设计师的设计草图与文本要求进行预处理,然后引入产品设计知识图谱来促进设计思维的发散和创新;其次,通过微调的生成式预训练变换器模型和扩散模型生成产品方案及其概念图;最后,利用深度多模态设计评估模型对产品设计方案的可行性和市场潜力进行评估。结果通过产品设计知识图谱,及深度多模态设计评估模型的引入,该设计流程可以生成富有创新性且具备可行性的产品方案。结论基于图文多模态的产品创新方案设计流程结合了最新的深度学习技术,不仅提高了设计的效率,还为设计师提供了更广阔的创新视角和灵感来源。 展开更多
关键词 图文多模态 深度生成模型 知识图谱 产品创新设计
下载PDF
基于文本挖掘的患者反馈对医生服务行为的影响研究
17
作者 张建同 王乐 《情报探索》 2024年第8期17-26,共10页
[目的/意义]随着互联网医疗平台的发展,医患关系逐渐向“以患者为中心”转变,研究患者反馈如何影响医生的服务行为,有助于医患双方更好参与在线医疗服务。[方法/过程]根据好大夫平台的在线评论数据,利用基于情感词典的方面级情感分析方... [目的/意义]随着互联网医疗平台的发展,医患关系逐渐向“以患者为中心”转变,研究患者反馈如何影响医生的服务行为,有助于医患双方更好参与在线医疗服务。[方法/过程]根据好大夫平台的在线评论数据,利用基于情感词典的方面级情感分析方法获得多维度评论文本特征,建立评论信息量、评论文本特征与医生服务行为的研究模型并进行回归分析。[结果/结论]评论数量比评论丰富多样性更能促进医生服务行为;专业评价强度比软实力评价强度更能促进亲社会服务行为,而软实力评价强度比专业评价强度更能促进付费咨询服务行为。研究结论对改善医患关系和医疗平台发展具有参考意义。 展开更多
关键词 医疗平台 患者反馈 多维度评论文本特征 亲社会服务行为 付费咨询服务行为
下载PDF
一种基于特征增强的场景文本检测算法
18
作者 高楠 张雷 +2 位作者 梁荣华 陈朋 付政 《计算机科学》 CSCD 北大核心 2024年第6期256-263,共8页
针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能... 针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能够更好地融合不同语义和尺度的特征图信息,从而提高文本信息的表征能力。同时,考虑到网络深层特征图在上采样融合过程中出现语义信息损失的问题,提出了多尺度空间感知模块(Multi-scale Spatial Perception Module,MSPM),通过扩大感受野来获取更大感受野的上下文信息,增强深层特征图的文本语义信息特征,从而有效地减少文本漏检、误检。为了评估所提算法的有效性,在公开数据集ICDAR2015,CTW1500以及MSRA-TD500上进行实验,所提方法综合指标F值分别达到了82.8%,83.4%和85.3%。实验结果表明,该算法在不同数据集上都具有良好的检测能力。 展开更多
关键词 深度学习 场景文本检测 注意力机制 多尺度特征融合 空洞卷积
下载PDF
局部-全局特征引导的图文多级关系分析与挖掘方法
19
作者 王海荣 郭瑞萍 +1 位作者 徐玺 周北京 《燕山大学学报》 CAS 北大核心 2024年第5期446-455,共10页
具有语义相关性的文本、图像数据往往具有互补性,可以从不同角度增强语义理解,因此,图文语义关系挖掘是图文数据得以充分利用的关键。为解决图文数据深层语义关系挖掘不充分、检索阶段预测不精准的问题,本文提出了一种局部-全局特征引... 具有语义相关性的文本、图像数据往往具有互补性,可以从不同角度增强语义理解,因此,图文语义关系挖掘是图文数据得以充分利用的关键。为解决图文数据深层语义关系挖掘不充分、检索阶段预测不精准的问题,本文提出了一种局部-全局特征引导的多级关系分析与挖掘方法。采用多头自注意力机制的Transformer建模图像关系,构建图像引导的文本注意力模块,挖掘图像区域和全局文本间的细粒度关系,融合局部-全局特征有效增强图文数据的语义关系。为验证本文方法,在Flickr30K、MSCOCO-1K和MSCOCO-3K数据集上进行实验,并与VSM、SGRAF等13种方法进行对比分析,本文方法中以文索图的召回率平均提升了0.62%,以图索文的召回率平均提高了0.5%,实验结果验证了本文方法的有效性。 展开更多
关键词 图文关系挖掘 多头自注意力机制 局部-全局特征
下载PDF
基于深度学习的中文短文本多标签分类模型
20
作者 曹珍 郭攀峰 《计算机与数字工程》 2024年第6期1809-1814,共6页
目前,中文短文本因其长度短、结构多样和缺乏上下文等特点,常规多标签分类算法无法对其有效区分。针对以上问题,论文提出一种基于深度学习的中文短文本多标签分类模型CRC-MHA。CRC-MHA模型在文本表示层摒弃常规使用Word2vec进行静态词... 目前,中文短文本因其长度短、结构多样和缺乏上下文等特点,常规多标签分类算法无法对其有效区分。针对以上问题,论文提出一种基于深度学习的中文短文本多标签分类模型CRC-MHA。CRC-MHA模型在文本表示层摒弃常规使用Word2vec进行静态词嵌入的方式,采用BERT对输入句子进行动态词嵌入,借助海量预训练文本的优势更好地表征文本的上下文语义,同时在特征提取层设计了一种结合CNN、RCNN和多头自注意力机制的并行特征提取策略,加强捕捉文本内部的关键特征来提升多标签分类效果。实验结果表明,CRC-MHA模型在评价指标加权平均F1值上较BERT模型提高1.95%,较BERT-CNN模型提高0.42%,较BERT-RCNN模型提高0.34%,验证了模型的有效性。 展开更多
关键词 多标签分类 中文短文本 动态词嵌入 特征提取
下载PDF
上一页 1 2 35 下一页 到第
使用帮助 返回顶部