期刊文献+
共找到249篇文章
< 1 2 13 >
每页显示 20 50 100
基于Bert-TextCNN的开源威胁情报文本的多标签分类方法
1
作者 陆佳丽 《信息安全研究》 CSCD 北大核心 2024年第8期760-768,共9页
开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则... 开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则判断的多标签分类方法.根据情报源发布文本的特点,设置正则判断规则,以弥补模型的欠缺;为更全面反映开源威胁情报文本所涉及的威胁主题,针对标题和正文分别设置了Bert-TextCNN多标签分类模型,并将2部分标签整理去重以得到文本的最终威胁类别.通过与只依据正文建立的Bert-TextCNN多标签分类模型进行对比,所设置的模型在性能上有所提升,且召回率提升明显,能为开源威胁情报分类工作提供有价值的参考. 展开更多
关键词 开源威胁情报 多标签分类 文本分类 Bert模型 textCNN模型
下载PDF
基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究 被引量:2
2
作者 刘勇 杜建强 +3 位作者 罗计根 李清 于梦波 郑奇民 《现代信息科技》 2023年第19期123-128,共6页
针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输... 针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输入ALBERT进行预训练任务;其次ALBERT多层的Transform对已标注数据分别进行动态向量化表示,基于语义筛选选取最佳编码层生成的高效文本向量;最后引入TextCNN建立多标签分类器,提取文本向量不同层次的语义信息特征。在中医数据集上验证方法的有效性,实验结果表明,该模型的多标签分类精度有所提高,更适用于中医文本的分类预测。 展开更多
关键词 多标签分类 中医文本 语义筛选 ALBERT textCNN
下载PDF
基于Albert与TextCNN的中文文本分类研究 被引量:2
3
作者 李飞鸽 王芳 黄树成 《软件导刊》 2023年第4期27-31,共5页
互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Al... 互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。 展开更多
关键词 向量 文本特征提取 多标签 文本分类
下载PDF
基于注意力机制和CNN的多标签文本分类模型 被引量:1
4
作者 杨春霞 吴佳君 +1 位作者 瞿涛 姚思诚 《计算机应用与软件》 北大核心 2024年第3期156-162,共7页
针对目前多标签文本分类模型存在无法充分提取文本语义与标签的相互关系,提出一种基于注意力机制和卷积神经网络(CNN)的多标签文本分类模型。通过多头注意力机制和CNN对文本进行建模表示,充分挖掘文本全局和局部的语义特征;结合标签与... 针对目前多标签文本分类模型存在无法充分提取文本语义与标签的相互关系,提出一种基于注意力机制和卷积神经网络(CNN)的多标签文本分类模型。通过多头注意力机制和CNN对文本进行建模表示,充分挖掘文本全局和局部的语义特征;结合标签与文本信息进行交互注意力计算,捕捉结合文本内容后标签间的相互关系;使用一种自适应融合策略进一步提取两者语义信息。实验结果表明,该模型相比于其他主流模型能有效提升多标签文本分类效果。 展开更多
关键词 多标签文本分类 注意力机制 卷积神经网络 文本表示
下载PDF
基于互信息解决多标签文本分类中的长尾问题
5
作者 潘理虎 李小华 +3 位作者 张睿 谢斌红 杨楠 张林梁 《计算机应用研究》 CSCD 北大核心 2024年第9期2664-2669,共6页
针对当前解决多标签文本分类中长尾问题的方法多以破坏原本数据分布为代价,在真实数据上的泛化性能下降,无法有效地缓解样本的长尾分布的问题,提出了基于互信息解决长尾问题的多标签文本分类方法(MLTC-LD)。首先,创建关于标签样本的关... 针对当前解决多标签文本分类中长尾问题的方法多以破坏原本数据分布为代价,在真实数据上的泛化性能下降,无法有效地缓解样本的长尾分布的问题,提出了基于互信息解决长尾问题的多标签文本分类方法(MLTC-LD)。首先,创建关于标签样本的关系矩阵,计算标签样本间的依赖关系;其次,考虑标签样本间关系程度的强弱构造邻居选择器,将拥有强关系的邻居信息作为主要语义特征并作为先验信息;最后,通过图注意力神经网络将先验信息引入分类器,实现了借助分布头部数据丰富类的知识来提高尾部数据贫乏类性能的目标。在三个不同的数据集上将MLTC-LD与八个基线模型进行了广泛的比较分析。实验结果表明,MLTC-LD与最优的HGLRN相比精确度分别提高了3.5%、0.3%、1.5%,证明了该方法的有效性。 展开更多
关键词 多标签文本分类 长尾问题 互信息 先验信息
下载PDF
基于标签增强的细粒度文本分类
6
作者 郭瑞强 杨世龙 +1 位作者 贾晓文 魏谦强 《计算机工程与应用》 CSCD 北大核心 2024年第21期134-141,共8页
文本分类是自然语言处理的一个重要分支,旨在通过训练给数据标注标签。但现有的方法仅仅考虑了标签和文本之间最浅显的语义关系,并没有考虑标签本身的额外语义信息,导致文本分类的准确率难以提升。针对此问题,提出一种基于标签增强的细... 文本分类是自然语言处理的一个重要分支,旨在通过训练给数据标注标签。但现有的方法仅仅考虑了标签和文本之间最浅显的语义关系,并没有考虑标签本身的额外语义信息,导致文本分类的准确率难以提升。针对此问题,提出一种基于标签增强的细粒度文本分类模型(FGTC),它根据已知信息对标签进行解释,丰富了标签和文档之间的语义联系。此外,FGTC进一步建模标签中短语的序列关系,并采用单词级别的细粒度标签注意力方法,充分挖掘了标签的有效信息。在四个基准数据集上进行了对比实验,结果表明,该模型在文本分类任务上的准确率得到有效提升。 展开更多
关键词 文本分类 标签增强 细粒度标签注意力
下载PDF
基于标签语义匹配融合的多标签文本分类方法
7
作者 文勇军 刘随缘 崔志豪 《湘潭大学学报(自然科学版)》 CAS 2024年第3期82-93,共12页
针对当前多标签文本分类研究中存在的文本有效信息提取不充分、标签间的相关性被忽略、文本对标签的语义关注挖掘、利用不足的问题,该文提出了一种基于标签语义匹配融合的多标签文本分类方法.首先,利用DeBERTa模型来计算细粒度为单词级... 针对当前多标签文本分类研究中存在的文本有效信息提取不充分、标签间的相关性被忽略、文本对标签的语义关注挖掘、利用不足的问题,该文提出了一种基于标签语义匹配融合的多标签文本分类方法.首先,利用DeBERTa模型来计算细粒度为单词级的文本表示;同时,根据标签全局共现构建标签图数据,利用图注意力网络自动学习不同标签之间的关联程度,生成捕获了标签间结构信息与深层相关性的标签特征嵌入;然后,提出了一种基于标签语义匹配的嵌入融合机制建模文本对标签的语义关注,体现了两者的语义关联,并将获得的基于标签语义匹配嵌入的单词融合表示送入CNN中进行特征交互,最终实现标签预测.在AAPD与RCV1-V2这两个公开英文数据集上的实验结果表明,该文所提出的模型性能明显优于其他主流基线模型. 展开更多
关键词 多标签文本分类 DeBERTa 图注意力网络GAT 标签语义嵌入
下载PDF
融合GAT与头尾标签的多标签文本分类模型
8
作者 杨春霞 黄昱锟 +1 位作者 闫晗 吴亚雷 《计算机工程与应用》 CSCD 北大核心 2024年第15期150-160,共11页
现有基于神经网络的多标签文本分类主要存在两方面的不足,一是现有的数据中标签-文本频率存在长尾分布,二是很少从图结构中获取全局标签之间的关联性,针对以上问题,提出了一种融合GAT与头尾标签分类器的多标签文本分类模型(GATTN),该模... 现有基于神经网络的多标签文本分类主要存在两方面的不足,一是现有的数据中标签-文本频率存在长尾分布,二是很少从图结构中获取全局标签之间的关联性,针对以上问题,提出了一种融合GAT与头尾标签分类器的多标签文本分类模型(GATTN),该模型利用带有注意力机制的Bi-LSTM得到文本的特征向量表示;同时把不同标签之间的关联性转换为包含了全局信息的边加权图,利用多层的图注意力网络来学习头标签之间的关联性。然后将其与文本上下文语义信息进行点积交互,得到具有文本语义和头标签信息的特征表示提高模型的泛化能力。在AAPD、RCV1-V2和EUR-Lex三个公开英文数据集上的实验结果证明,该模型针对数据长尾分布的多标签文本分类效果优于其他基线模型。 展开更多
关键词 多标签文本分类 图注意力网络 头尾标签 多样本学习
下载PDF
融合双向注意力和对比增强机制的多标签文本分类
9
作者 李建东 傅佳 李佳琦 《计算机工程与应用》 CSCD 北大核心 2024年第16期105-115,共11页
现有多标签文本分类模型面对文本序列增长时语义信息缺失,预测特定标签时忽略已有实例中的丰富知识等问题不能很好地解决,由此提出一种融合双向注意力和对比增强机制的多标签文本分类模型。结合BERT词嵌入,利用CTransformer模型分别获... 现有多标签文本分类模型面对文本序列增长时语义信息缺失,预测特定标签时忽略已有实例中的丰富知识等问题不能很好地解决,由此提出一种融合双向注意力和对比增强机制的多标签文本分类模型。结合BERT词嵌入,利用CTransformer模型分别获取序列的全局依赖关系和局部结构信息;使用双向注意力和标签嵌入进一步生成最终文本表示和标签表示,将文本信息与标签信息进行交互,得到更为全面的综合语义信息;利用对比增强机制进行KNN实例检索,设计一个多标签对比学习目标,使模型意识到KNN分类过程,并提高推理过程中检索邻居实例的质量。分类器根据标签表示和文本表示进行文本分类。为了评估模型的性能,在三个公开英文数据集上进行测试,实验结果表明提出的模型在P@K和nDCG@K指标上均优于其他主流基线模型。 展开更多
关键词 多标签文本分类 注意力机制 对比增强机制 CTransformer模型 多标签对比学习
下载PDF
融合标签语义嵌入和图卷积的短文本特征扩展及分类方法
10
作者 张灵 李荣臻 郑苏 《广东工业大学学报》 CAS 2024年第1期69-78,共10页
针对短文本长度过短、关键词偏少和标签信息利用不足造成的分类过程中面临特征稀疏和语义不明确的问题,提出了融合标签语义嵌入的图卷积网络模型。首先,在传统的术语频率和逆文档频率算法基础上,提出了融合单词所属文本的类间、类内分... 针对短文本长度过短、关键词偏少和标签信息利用不足造成的分类过程中面临特征稀疏和语义不明确的问题,提出了融合标签语义嵌入的图卷积网络模型。首先,在传统的术语频率和逆文档频率算法基础上,提出了融合单词所属文本的类间、类内分布关系的全局词频提取算法。其次,利用融合标签嵌入的方法,将每条训练文本与相对应的标签引入到同一个特征空间内,通过筛选聚合提取更能突显文本类别的近义词嵌入,作为文本图的文档节点的嵌入表示。最后,将文本图输入到图卷积神经网络学习后,获得的特征与预训练模型提取文本上下文的特征相融合,提升短文本的分类质量以及整个模型的泛化能力,在4个短文本数据集MR、web_snippets、R8和R52上对本文模型和14个基线算法进行了对比实验,结果表明本文提出的模型相比于对比模型具有更优的结果,在识别精度、召回率以及F_1值上有着更好的表现。 展开更多
关键词 短文本 标签语义 特征空间 图卷积网络 预训练模型
下载PDF
基于多粒度标签扰动的文本分类研究 被引量:2
11
作者 姚汝婧 王芳 《现代情报》 CSSCI 北大核心 2024年第1期25-36,共12页
[目的/意义]基于深度学习的有监督学习算法是当前文本分类主要的研究方法。然而,有监督的深度学习算法的训练严重依赖于样本标签的准确性,由于标注者的标注经验和主观性等原因,样本标签不可避免地会存在噪声。标签扰动是一种有效应对噪... [目的/意义]基于深度学习的有监督学习算法是当前文本分类主要的研究方法。然而,有监督的深度学习算法的训练严重依赖于样本标签的准确性,由于标注者的标注经验和主观性等原因,样本标签不可避免地会存在噪声。标签扰动是一种有效应对噪声标签的思路,但当前基于标签扰动的噪声标签学习算法缺乏对多种粒度信息的有效利用,从而限制了算法的性能。[方法/过程]为解决这一问题,本文提出了一种多粒度标签扰动算法(Multi-granularity Label Perturbation,MGLP),融合了样本级粒度和类别级粒度的扰动方式,并利用元学习的思想对不同粒度扰动方式的融合权重进行学习,使该算法能够根据不同的数据特点自适应地对融合权重进行调整。[结果/结论]本文在推文情感分类、电影评论情感分类、引文意图分类3个文本分类数据集上展开实验,结果表明MGLP算法有效地提升了深度学习模型在文本分类任务上的性能,在信息组织和信息分析中具有广泛的应用前景。 展开更多
关键词 文本分类 深度学习 标签扰动 元学习 多粒度
下载PDF
基于深度学习的中文短文本多标签分类模型
12
作者 曹珍 郭攀峰 《计算机与数字工程》 2024年第6期1809-1814,共6页
目前,中文短文本因其长度短、结构多样和缺乏上下文等特点,常规多标签分类算法无法对其有效区分。针对以上问题,论文提出一种基于深度学习的中文短文本多标签分类模型CRC-MHA。CRC-MHA模型在文本表示层摒弃常规使用Word2vec进行静态词... 目前,中文短文本因其长度短、结构多样和缺乏上下文等特点,常规多标签分类算法无法对其有效区分。针对以上问题,论文提出一种基于深度学习的中文短文本多标签分类模型CRC-MHA。CRC-MHA模型在文本表示层摒弃常规使用Word2vec进行静态词嵌入的方式,采用BERT对输入句子进行动态词嵌入,借助海量预训练文本的优势更好地表征文本的上下文语义,同时在特征提取层设计了一种结合CNN、RCNN和多头自注意力机制的并行特征提取策略,加强捕捉文本内部的关键特征来提升多标签分类效果。实验结果表明,CRC-MHA模型在评价指标加权平均F1值上较BERT模型提高1.95%,较BERT-CNN模型提高0.42%,较BERT-RCNN模型提高0.34%,验证了模型的有效性。 展开更多
关键词 多标签分类 中文短文本 动态词嵌入 特征提取
下载PDF
基于标签概念的多标签文本分类方法 被引量:1
13
作者 汪乐乐 张贤坤 《天津科技大学学报》 CAS 2024年第1期73-80,共8页
多标签文本分类是自然语言处理中重要且具有挑战性的任务之一。现有的方法注重文本表示学习,关注文本内部信息预测所属标签,忽略了属于某一标签的全体实例中共享的关键信息。鉴于此,本文提出一种基于标签概念的多标签文本分类方法:利用... 多标签文本分类是自然语言处理中重要且具有挑战性的任务之一。现有的方法注重文本表示学习,关注文本内部信息预测所属标签,忽略了属于某一标签的全体实例中共享的关键信息。鉴于此,本文提出一种基于标签概念的多标签文本分类方法:利用词频和潜在狄利克雷分布(latent Dirichlet allocation,LDA)方法从训练集全体实例中抽取各标签所对应的关键词,接着采取与文本编码相同方式对关键词编码,获得标签概念表示。在训练和预测过程中,检索与文本表示最相似的标签概念辅助分类,增加标签概念表示与文本表示的对比损失,使文本编码过程中能充分学习全局的标签概念信息。将本文方法嵌套在常用的多标签文本分类模型上进行实验,结果表明该方法有效提高了相应模型的性能。 展开更多
关键词 标签概念 全局关键信息 对比损失 多标签文本分类
下载PDF
水电工程施工安全隐患多标签文本智能分类方法
14
作者 周佳一 郑霞忠 +1 位作者 田丹 陈云 《水力发电学报》 CSCD 北大核心 2024年第11期114-124,共11页
水利水电工程施工安全隐患体量大、形式多元、类型多样,同一隐患可能涉及多个类型,且隐患类型的界定存在模糊不清的现象。隐患分类多以人工经验为主导,极易导致隐患管理混淆,增加了隐患管理的难度。针对上述问题,本文提出了一种水电工... 水利水电工程施工安全隐患体量大、形式多元、类型多样,同一隐患可能涉及多个类型,且隐患类型的界定存在模糊不清的现象。隐患分类多以人工经验为主导,极易导致隐患管理混淆,增加了隐患管理的难度。针对上述问题,本文提出了一种水电工程施工安全隐患文本多标签智能分类方法。首先,利用ALBERT模型对文本信息进行编码,实现非结构化安全隐患文本的高精度量化;然后,以文本量化结果为基础,考虑安全隐患中文本内容权重,利用Attention机制改进的双向门控循环单元(Bi-GRU),构建安全隐患文本多标签智能分类模型,提升施工安全隐患识别效率;最后,利用水电工程施工安全隐患文本,测试方法性能,得到方法的F1值达到了92.11%,证明了该方法的适用性,有望为水电工程施工的安全管理、事故隐患排查和分析提供信息支撑。 展开更多
关键词 水电工程施工 安全隐患 文本多标签智能分类 ALBERT 双向GRU Attention机制
下载PDF
Corrective-Net:面向多标签文本分类的标签关联学习模块
15
作者 肖新正 黄瑞章 +3 位作者 陈艳平 秦永彬 宋玉梅 周裕林 《计算机工程与科学》 CSCD 北大核心 2024年第6期1092-1100,共9页
在目前的多标签文本分类任务中,主要面临以下2个问题:(1)侧重文本表示学习,对标签之间的关联信息建模不充分;(2)尽管使用了标签关联信息来改善多标签分类任务,但对标签关联的建模过于依赖人工预定义的外部知识,而外部知识的获取成本高昂... 在目前的多标签文本分类任务中,主要面临以下2个问题:(1)侧重文本表示学习,对标签之间的关联信息建模不充分;(2)尽管使用了标签关联信息来改善多标签分类任务,但对标签关联的建模过于依赖人工预定义的外部知识,而外部知识的获取成本高昂,限制了其实际应用。针对以上问题,提出了一种面向多标签文本分类的标签关联学习模块Corrective-Net。该模块可以在不依赖外部知识的前提下,自动学习数据中的标签关联信息;同时,它还可以利用标签关联信息,对基础分类模块的初始预测结果进行修正,使得最终预测兼顾语义信息和标签关联信息,以获得更精准的多标签预测结果。在AAPD和SO数据集上的大量实验表明,Corrective-Net具有通用性和有效性,通过分析标签修正对各个标签性能的影响,得到了显式的标签关联信息,并进行了可视化。 展开更多
关键词 标签关联 标签修正 多标签 文本分类 可视化
下载PDF
一种融合标签信息的多标签文本分类方法
16
作者 任彦凝 陈俊霖 刘群 《小型微型计算机系统》 CSCD 北大核心 2024年第3期584-590,共7页
多标签文本分类旨在从若干标签中选取最相关的标签子集来标记一个样本点.传统的研究倾向于探讨标签间关系而忽略标签语义,造成信息提取不完整,因此如何利用标签元数据有效提取样本中的关键信息是需要解决的一个重要问题.为解决上述问题... 多标签文本分类旨在从若干标签中选取最相关的标签子集来标记一个样本点.传统的研究倾向于探讨标签间关系而忽略标签语义,造成信息提取不完整,因此如何利用标签元数据有效提取样本中的关键信息是需要解决的一个重要问题.为解决上述问题,本文首先提出从现有数据集中生成标签语义元数据的方法,利用注意力模型对样本中混杂的语义进行筛选和清洗,生成标签的语义信息,解决了标签语义获取困难的问题.其次提出combined-attention模型用以提取样本中的关键信息,此模型将标签语义和标签关系结合起来共同提取样本中的信息,并且其内部设置了自适应融合单元,将以上两种关键信息根据其在分类结果中的关键程度自适应分配权重,进一步提升了模型的分类能力.3个英文数据集上的实验结果表明本模型优于最先进的基线方法,在分类精度上最高提升了5.68%,在真实的中文法律数据集上也实现了优异的分类效果. 展开更多
关键词 多标签文本分类 注意力 注意力头 语义生成
下载PDF
基于共享背景主题的Labeled LDA模型 被引量:17
17
作者 江雨燕 李平 王清 《电子学报》 EI CAS CSCD 北大核心 2013年第9期1794-1799,共6页
隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labe... 隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA,SBTL-LDA).在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background)主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性.同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果.实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果. 展开更多
关键词 隐藏狄利克雷分配 文本分析 多标记学习 半监督聚类
下载PDF
基于标签交互Seq2Seq模型的多标签文本分类方法
18
作者 王嫄 胡鹏 +3 位作者 鄢艳玲 王佳帅 赵婷婷 杨巨成 《传感器与微系统》 CSCD 北大核心 2024年第8期155-159,共5页
多标签文本分类任务可被建模为文本序列到标签序列的映射任务。然而,现有的序列到序列(Seq2Seq)模型仅从嘈杂文本中提取粗粒度的文本级表示,忽略了标签与单词之间细粒度的交互线索,导致类别理解偏差。对此,提出基于编码器—解码器结构... 多标签文本分类任务可被建模为文本序列到标签序列的映射任务。然而,现有的序列到序列(Seq2Seq)模型仅从嘈杂文本中提取粗粒度的文本级表示,忽略了标签与单词之间细粒度的交互线索,导致类别理解偏差。对此,提出基于编码器—解码器结构的标签语义交互Seq2Seq模型。在文本语义提取阶段,使用门控机制融合粗粒度的文本级表示和细粒度的交互线索,最终得到类别理解纠正的文本表示。在2个标准数据集上,与LEAM,LSAN,SGM等6个算法进行对比实验,结果表明,本文模型在2个主要评价指标上均得到显著提升。 展开更多
关键词 多标签文本分类 序列到序列 自适应门 多头注意力 标签嵌入
下载PDF
基于层级图标签表示网络的多标签文本分类 被引量:1
19
作者 徐江玲 陈兴荣 《计算机应用研究》 CSCD 北大核心 2024年第2期388-392,407,共6页
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来... 多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义;另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。 展开更多
关键词 多标签文本分类 标签相关性 层级图表示 标签组嵌入 标签文本注意力
下载PDF
基于弱标签争议的半自动分类数据标注方法
20
作者 李自强 杨薇 +1 位作者 杨先凤 罗林 《电子学报》 EI CAS CSCD 北大核心 2024年第8期2891-2899,共9页
当前,深度主动学习(Deep Active Learning,DAL)在分类数据标注工作中获得成功,但如何筛选出最能提升模型性能的样本仍是难题.本文提出基于弱标签争议的半自动分类数据标注方法(Dispute about Weak Label based Deep Active Learning,DWL... 当前,深度主动学习(Deep Active Learning,DAL)在分类数据标注工作中获得成功,但如何筛选出最能提升模型性能的样本仍是难题.本文提出基于弱标签争议的半自动分类数据标注方法(Dispute about Weak Label based Deep Active Learning,DWLDAL),迭代地筛选出模型难以区分的样本,交给人工进行准确标注.该方法包含伪标签生成器和弱标签生成器,伪标签生成器是在准确标注的数据集上训练而成,用于生成无标签数据的伪标签;弱标签生成器则是在带伪标签的随机子集上训练而成.弱标签生成器委员会决定哪些无标签数据最有争议,则交给人工标注.本文针对文本分类问题,在公开数据集IMDB(Internet Movie DataBase)、20NEWS(20NEW Sgroup)和chnsenticorp(chnsenticorp_htl_all)上进行实验验证.从数据标注和分类任务的准确性2个角度,对3种不同投票决策方式进行评估.DWLDAL方法中数据标注的F1分数比现有方法Snuba分别提高30.22%、14.07%和2.57%,DWLDAL方法中分类任务的F1分数比Snuba分别提高1.01%、22.72%和4.83%. 展开更多
关键词 深度主动学习 文本分类 伪标签生成器 弱标签生成器 投票委员会
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部