期刊文献+
共找到238篇文章
< 1 2 12 >
每页显示 20 50 100
基于Bert-TextCNN的开源威胁情报文本的多标签分类方法
1
作者 陆佳丽 《信息安全研究》 CSCD 北大核心 2024年第8期760-768,共9页
开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则... 开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则判断的多标签分类方法.根据情报源发布文本的特点,设置正则判断规则,以弥补模型的欠缺;为更全面反映开源威胁情报文本所涉及的威胁主题,针对标题和正文分别设置了Bert-TextCNN多标签分类模型,并将2部分标签整理去重以得到文本的最终威胁类别.通过与只依据正文建立的Bert-TextCNN多标签分类模型进行对比,所设置的模型在性能上有所提升,且召回率提升明显,能为开源威胁情报分类工作提供有价值的参考. 展开更多
关键词 开源威胁情报 多标签分类 文本分类 BERT模型
下载PDF
基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究 被引量:2
2
作者 刘勇 杜建强 +3 位作者 罗计根 李清 于梦波 郑奇民 《现代信息科技》 2023年第19期123-128,共6页
针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输... 针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输入ALBERT进行预训练任务;其次ALBERT多层的Transform对已标注数据分别进行动态向量化表示,基于语义筛选选取最佳编码层生成的高效文本向量;最后引入TextCNN建立多标签分类器,提取文本向量不同层次的语义信息特征。在中医数据集上验证方法的有效性,实验结果表明,该模型的多标签分类精度有所提高,更适用于中医文本的分类预测。 展开更多
关键词 多标签分类 中医文本 语义筛选 ALBERT textCNN
下载PDF
基于Albert与TextCNN的中文文本分类研究 被引量:2
3
作者 李飞鸽 王芳 黄树成 《软件导刊》 2023年第4期27-31,共5页
互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Al... 互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。 展开更多
关键词 向量 文本特征提取 多标签 文本分类
下载PDF
基于标签语义匹配融合的多标签文本分类方法
4
作者 文勇军 刘随缘 崔志豪 《湘潭大学学报(自然科学版)》 CAS 2024年第3期82-93,共12页
针对当前多标签文本分类研究中存在的文本有效信息提取不充分、标签间的相关性被忽略、文本对标签的语义关注挖掘、利用不足的问题,该文提出了一种基于标签语义匹配融合的多标签文本分类方法.首先,利用DeBERTa模型来计算细粒度为单词级... 针对当前多标签文本分类研究中存在的文本有效信息提取不充分、标签间的相关性被忽略、文本对标签的语义关注挖掘、利用不足的问题,该文提出了一种基于标签语义匹配融合的多标签文本分类方法.首先,利用DeBERTa模型来计算细粒度为单词级的文本表示;同时,根据标签全局共现构建标签图数据,利用图注意力网络自动学习不同标签之间的关联程度,生成捕获了标签间结构信息与深层相关性的标签特征嵌入;然后,提出了一种基于标签语义匹配的嵌入融合机制建模文本对标签的语义关注,体现了两者的语义关联,并将获得的基于标签语义匹配嵌入的单词融合表示送入CNN中进行特征交互,最终实现标签预测.在AAPD与RCV1-V2这两个公开英文数据集上的实验结果表明,该文所提出的模型性能明显优于其他主流基线模型. 展开更多
关键词 多标签文本分类 DeBERTa 图注意力网络GAT 标签语义嵌入
下载PDF
融合GAT与头尾标签的多标签文本分类模型
5
作者 杨春霞 黄昱锟 +1 位作者 闫晗 吴亚雷 《计算机工程与应用》 CSCD 北大核心 2024年第15期150-160,共11页
现有基于神经网络的多标签文本分类主要存在两方面的不足,一是现有的数据中标签-文本频率存在长尾分布,二是很少从图结构中获取全局标签之间的关联性,针对以上问题,提出了一种融合GAT与头尾标签分类器的多标签文本分类模型(GATTN),该模... 现有基于神经网络的多标签文本分类主要存在两方面的不足,一是现有的数据中标签-文本频率存在长尾分布,二是很少从图结构中获取全局标签之间的关联性,针对以上问题,提出了一种融合GAT与头尾标签分类器的多标签文本分类模型(GATTN),该模型利用带有注意力机制的Bi-LSTM得到文本的特征向量表示;同时把不同标签之间的关联性转换为包含了全局信息的边加权图,利用多层的图注意力网络来学习头标签之间的关联性。然后将其与文本上下文语义信息进行点积交互,得到具有文本语义和头标签信息的特征表示提高模型的泛化能力。在AAPD、RCV1-V2和EUR-Lex三个公开英文数据集上的实验结果证明,该模型针对数据长尾分布的多标签文本分类效果优于其他基线模型。 展开更多
关键词 多标签文本分类 图注意力网络 头尾标签 多样本学习
下载PDF
融合双向注意力和对比增强机制的多标签文本分类
6
作者 李建东 傅佳 李佳琦 《计算机工程与应用》 CSCD 北大核心 2024年第16期105-115,共11页
现有多标签文本分类模型面对文本序列增长时语义信息缺失,预测特定标签时忽略已有实例中的丰富知识等问题不能很好地解决,由此提出一种融合双向注意力和对比增强机制的多标签文本分类模型。结合BERT词嵌入,利用CTransformer模型分别获... 现有多标签文本分类模型面对文本序列增长时语义信息缺失,预测特定标签时忽略已有实例中的丰富知识等问题不能很好地解决,由此提出一种融合双向注意力和对比增强机制的多标签文本分类模型。结合BERT词嵌入,利用CTransformer模型分别获取序列的全局依赖关系和局部结构信息;使用双向注意力和标签嵌入进一步生成最终文本表示和标签表示,将文本信息与标签信息进行交互,得到更为全面的综合语义信息;利用对比增强机制进行KNN实例检索,设计一个多标签对比学习目标,使模型意识到KNN分类过程,并提高推理过程中检索邻居实例的质量。分类器根据标签表示和文本表示进行文本分类。为了评估模型的性能,在三个公开英文数据集上进行测试,实验结果表明提出的模型在P@K和nDCG@K指标上均优于其他主流基线模型。 展开更多
关键词 多标签文本分类 注意力机制 对比增强机制 CTransformer模型 多标签对比学习
下载PDF
融合标签语义嵌入和图卷积的短文本特征扩展及分类方法
7
作者 张灵 李荣臻 郑苏 《广东工业大学学报》 CAS 2024年第1期69-78,共10页
针对短文本长度过短、关键词偏少和标签信息利用不足造成的分类过程中面临特征稀疏和语义不明确的问题,提出了融合标签语义嵌入的图卷积网络模型。首先,在传统的术语频率和逆文档频率算法基础上,提出了融合单词所属文本的类间、类内分... 针对短文本长度过短、关键词偏少和标签信息利用不足造成的分类过程中面临特征稀疏和语义不明确的问题,提出了融合标签语义嵌入的图卷积网络模型。首先,在传统的术语频率和逆文档频率算法基础上,提出了融合单词所属文本的类间、类内分布关系的全局词频提取算法。其次,利用融合标签嵌入的方法,将每条训练文本与相对应的标签引入到同一个特征空间内,通过筛选聚合提取更能突显文本类别的近义词嵌入,作为文本图的文档节点的嵌入表示。最后,将文本图输入到图卷积神经网络学习后,获得的特征与预训练模型提取文本上下文的特征相融合,提升短文本的分类质量以及整个模型的泛化能力,在4个短文本数据集MR、web_snippets、R8和R52上对本文模型和14个基线算法进行了对比实验,结果表明本文提出的模型相比于对比模型具有更优的结果,在识别精度、召回率以及F_1值上有着更好的表现。 展开更多
关键词 短文本 标签语义 特征空间 图卷积网络 预训练模型
下载PDF
基于注意力机制和CNN的多标签文本分类模型
8
作者 杨春霞 吴佳君 +1 位作者 瞿涛 姚思诚 《计算机应用与软件》 北大核心 2024年第3期156-162,共7页
针对目前多标签文本分类模型存在无法充分提取文本语义与标签的相互关系,提出一种基于注意力机制和卷积神经网络(CNN)的多标签文本分类模型。通过多头注意力机制和CNN对文本进行建模表示,充分挖掘文本全局和局部的语义特征;结合标签与... 针对目前多标签文本分类模型存在无法充分提取文本语义与标签的相互关系,提出一种基于注意力机制和卷积神经网络(CNN)的多标签文本分类模型。通过多头注意力机制和CNN对文本进行建模表示,充分挖掘文本全局和局部的语义特征;结合标签与文本信息进行交互注意力计算,捕捉结合文本内容后标签间的相互关系;使用一种自适应融合策略进一步提取两者语义信息。实验结果表明,该模型相比于其他主流模型能有效提升多标签文本分类效果。 展开更多
关键词 多标签文本分类 注意力机制 卷积神经网络 文本表示
下载PDF
基于标签概念的多标签文本分类方法 被引量:1
9
作者 汪乐乐 张贤坤 《天津科技大学学报》 CAS 2024年第1期73-80,共8页
多标签文本分类是自然语言处理中重要且具有挑战性的任务之一。现有的方法注重文本表示学习,关注文本内部信息预测所属标签,忽略了属于某一标签的全体实例中共享的关键信息。鉴于此,本文提出一种基于标签概念的多标签文本分类方法:利用... 多标签文本分类是自然语言处理中重要且具有挑战性的任务之一。现有的方法注重文本表示学习,关注文本内部信息预测所属标签,忽略了属于某一标签的全体实例中共享的关键信息。鉴于此,本文提出一种基于标签概念的多标签文本分类方法:利用词频和潜在狄利克雷分布(latent Dirichlet allocation,LDA)方法从训练集全体实例中抽取各标签所对应的关键词,接着采取与文本编码相同方式对关键词编码,获得标签概念表示。在训练和预测过程中,检索与文本表示最相似的标签概念辅助分类,增加标签概念表示与文本表示的对比损失,使文本编码过程中能充分学习全局的标签概念信息。将本文方法嵌套在常用的多标签文本分类模型上进行实验,结果表明该方法有效提高了相应模型的性能。 展开更多
关键词 标签概念 全局关键信息 对比损失 多标签文本分类
下载PDF
Corrective-Net:面向多标签文本分类的标签关联学习模块
10
作者 肖新正 黄瑞章 +3 位作者 陈艳平 秦永彬 宋玉梅 周裕林 《计算机工程与科学》 CSCD 北大核心 2024年第6期1092-1100,共9页
在目前的多标签文本分类任务中,主要面临以下2个问题:(1)侧重文本表示学习,对标签之间的关联信息建模不充分;(2)尽管使用了标签关联信息来改善多标签分类任务,但对标签关联的建模过于依赖人工预定义的外部知识,而外部知识的获取成本高昂... 在目前的多标签文本分类任务中,主要面临以下2个问题:(1)侧重文本表示学习,对标签之间的关联信息建模不充分;(2)尽管使用了标签关联信息来改善多标签分类任务,但对标签关联的建模过于依赖人工预定义的外部知识,而外部知识的获取成本高昂,限制了其实际应用。针对以上问题,提出了一种面向多标签文本分类的标签关联学习模块Corrective-Net。该模块可以在不依赖外部知识的前提下,自动学习数据中的标签关联信息;同时,它还可以利用标签关联信息,对基础分类模块的初始预测结果进行修正,使得最终预测兼顾语义信息和标签关联信息,以获得更精准的多标签预测结果。在AAPD和SO数据集上的大量实验表明,Corrective-Net具有通用性和有效性,通过分析标签修正对各个标签性能的影响,得到了显式的标签关联信息,并进行了可视化。 展开更多
关键词 标签关联 标签修正 多标签 文本分类 可视化
下载PDF
一种融合标签信息的多标签文本分类方法
11
作者 任彦凝 陈俊霖 刘群 《小型微型计算机系统》 CSCD 北大核心 2024年第3期584-590,共7页
多标签文本分类旨在从若干标签中选取最相关的标签子集来标记一个样本点.传统的研究倾向于探讨标签间关系而忽略标签语义,造成信息提取不完整,因此如何利用标签元数据有效提取样本中的关键信息是需要解决的一个重要问题.为解决上述问题... 多标签文本分类旨在从若干标签中选取最相关的标签子集来标记一个样本点.传统的研究倾向于探讨标签间关系而忽略标签语义,造成信息提取不完整,因此如何利用标签元数据有效提取样本中的关键信息是需要解决的一个重要问题.为解决上述问题,本文首先提出从现有数据集中生成标签语义元数据的方法,利用注意力模型对样本中混杂的语义进行筛选和清洗,生成标签的语义信息,解决了标签语义获取困难的问题.其次提出combined-attention模型用以提取样本中的关键信息,此模型将标签语义和标签关系结合起来共同提取样本中的信息,并且其内部设置了自适应融合单元,将以上两种关键信息根据其在分类结果中的关键程度自适应分配权重,进一步提升了模型的分类能力.3个英文数据集上的实验结果表明本模型优于最先进的基线方法,在分类精度上最高提升了5.68%,在真实的中文法律数据集上也实现了优异的分类效果. 展开更多
关键词 多标签文本分类 注意力 注意力头 语义生成
下载PDF
基于共享背景主题的Labeled LDA模型 被引量:17
12
作者 江雨燕 李平 王清 《电子学报》 EI CAS CSCD 北大核心 2013年第9期1794-1799,共6页
隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labe... 隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA,SBTL-LDA).在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background)主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性.同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果.实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果. 展开更多
关键词 隐藏狄利克雷分配 文本分析 多标记学习 半监督聚类
下载PDF
基于标签交互Seq2Seq模型的多标签文本分类方法
13
作者 王嫄 胡鹏 +3 位作者 鄢艳玲 王佳帅 赵婷婷 杨巨成 《传感器与微系统》 CSCD 北大核心 2024年第8期155-159,共5页
多标签文本分类任务可被建模为文本序列到标签序列的映射任务。然而,现有的序列到序列(Seq2Seq)模型仅从嘈杂文本中提取粗粒度的文本级表示,忽略了标签与单词之间细粒度的交互线索,导致类别理解偏差。对此,提出基于编码器—解码器结构... 多标签文本分类任务可被建模为文本序列到标签序列的映射任务。然而,现有的序列到序列(Seq2Seq)模型仅从嘈杂文本中提取粗粒度的文本级表示,忽略了标签与单词之间细粒度的交互线索,导致类别理解偏差。对此,提出基于编码器—解码器结构的标签语义交互Seq2Seq模型。在文本语义提取阶段,使用门控机制融合粗粒度的文本级表示和细粒度的交互线索,最终得到类别理解纠正的文本表示。在2个标准数据集上,与LEAM,LSAN,SGM等6个算法进行对比实验,结果表明,本文模型在2个主要评价指标上均得到显著提升。 展开更多
关键词 多标签文本分类 序列到序列 自适应门 多头注意力 标签嵌入
下载PDF
基于多粒度标签扰动的文本分类研究
14
作者 姚汝婧 王芳 《现代情报》 北大核心 2024年第1期25-36,共12页
[目的/意义]基于深度学习的有监督学习算法是当前文本分类主要的研究方法。然而,有监督的深度学习算法的训练严重依赖于样本标签的准确性,由于标注者的标注经验和主观性等原因,样本标签不可避免地会存在噪声。标签扰动是一种有效应对噪... [目的/意义]基于深度学习的有监督学习算法是当前文本分类主要的研究方法。然而,有监督的深度学习算法的训练严重依赖于样本标签的准确性,由于标注者的标注经验和主观性等原因,样本标签不可避免地会存在噪声。标签扰动是一种有效应对噪声标签的思路,但当前基于标签扰动的噪声标签学习算法缺乏对多种粒度信息的有效利用,从而限制了算法的性能。[方法/过程]为解决这一问题,本文提出了一种多粒度标签扰动算法(Multi-granularity Label Perturbation,MGLP),融合了样本级粒度和类别级粒度的扰动方式,并利用元学习的思想对不同粒度扰动方式的融合权重进行学习,使该算法能够根据不同的数据特点自适应地对融合权重进行调整。[结果/结论]本文在推文情感分类、电影评论情感分类、引文意图分类3个文本分类数据集上展开实验,结果表明MGLP算法有效地提升了深度学习模型在文本分类任务上的性能,在信息组织和信息分析中具有广泛的应用前景。 展开更多
关键词 文本分类 深度学习 标签扰动 元学习 多粒度
下载PDF
一种半监督金融事件多标签分类方法
15
作者 杨卓峰 李旸 李德玉 《数据采集与处理》 CSCD 北大核心 2024年第2期385-394,共10页
随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文... 随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法。首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型。在金融文本数据集上验证了本文所提方法的有效性。 展开更多
关键词 金融文本 金融事件 多标签分类 半监督方法 注意力机制
下载PDF
基于深度学习模型的智能化科室导诊
16
作者 顾君杰 王蓓 +1 位作者 李晓禹 邹俊忠 《计算机工程与设计》 北大核心 2024年第1期153-158,共6页
为减轻科室导诊人员的工作负荷,对智能化科室导诊的实现方法进行研究。区别于现有的导诊方式,提出一种少参数轻量化的多级科室导诊模型。结合ALBERT预训练解决现有算法参数量过大的问题,并关联多个相关科室,建立ALBERT预训练与Bi-GRU结... 为减轻科室导诊人员的工作负荷,对智能化科室导诊的实现方法进行研究。区别于现有的导诊方式,提出一种少参数轻量化的多级科室导诊模型。结合ALBERT预训练解决现有算法参数量过大的问题,并关联多个相关科室,建立ALBERT预训练与Bi-GRU结合的多标签分类模型。通过在互联网医院问诊数据集上的测试,与单科室分类模型对比,验证了该多科室分类模型的预测结果具备可靠性和有效性,能够较好辅助科室导诊工作。 展开更多
关键词 科室导诊 多标签 文本预训练 双向门控循环单元 文本分类 深度学习 自然语言处理
下载PDF
采用平衡函数的大规模多标签文本分类 被引量:1
17
作者 陈钊鸿 洪智勇 +1 位作者 余文华 张昕 《计算机工程与应用》 CSCD 北大核心 2024年第4期163-172,共10页
大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方... 大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方法。该方法使用BERT预训练模型对文本进行词嵌入处理,进一步使用预训练模型中多层编码器的拼接输出作为文本向量表示,获取了丰富的文本语义信息,提高了模型收敛速度。最后采用平衡函数针对预测标签的训练损失赋予不同的衰减权重,提高了方法在尾部标签分类上的学习能力。在Eurlex-4K和Wiki10-31K数据集上的实验结果表明,评价指标P@1、P@3和P@5上分别达到86.95%、74.12%、61.43%和88.57%、77.46%、67.90%。 展开更多
关键词 自然语言处理 大规模多标签文本分类 BERT 平衡函数 深度学习
下载PDF
基于Labeled-LDA模型的文本特征提取方法 被引量:13
18
作者 王瑞 龙华 +1 位作者 邵玉斌 杜庆治 《电子测量技术》 2020年第1期141-146,共6页
针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取... 针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取出的主题词与关键词进行相似度计算,找到文本隐含主题的类别并提取特征词。实验表明结合后的特征提取方法比TF-IDF、传统LDA主题模型的文本特征提取方法,获得更高的分类精度,其中准确度提高了3.40%,召回率提高了4.40%,F值提高了3.92%。 展开更多
关键词 labeled-LDA TF-IDF Simhash 文本特征提取
下载PDF
学术论文学科领域层次标签分类方法
19
作者 贾启龙 张仰森 +2 位作者 刘帅康 朱思文 高强 《北京信息科技大学学报(自然科学版)》 2024年第1期42-48,54,共8页
针对学术论文在学科领域内进行层次标签分类问题,提出了一种基于知识增强的语义表示与图注意力网络的文本层次标签分类(text hierarchical label classification based on enhanced representation through knowledge integration and g... 针对学术论文在学科领域内进行层次标签分类问题,提出了一种基于知识增强的语义表示与图注意力网络的文本层次标签分类(text hierarchical label classification based on enhanced representation through knowledge integration and graph attention networks, GETHLC)模型。首先,通过层次标签抽取模块提取学科领域下层次标签的结构特征,并通过预训练模型对学术论文的摘要、标题和抽取后的层次标签结构特征进行嵌入;然后,在分类阶段基于层次标签的结构分层构造层次分类器,将学术论文逐层分类至最符合的类别中。在大规模中文科学文献数据集CSL上进行的实验结果表明,与基准的ERNIE模型相比,GETHLC模型的准确率、召回率和F1值分别提升了5.78、4.31和5.02百分点。 展开更多
关键词 层次标签 文本分类 图注意力机制 知识增强的语义表示 预训练
下载PDF
基于BERT和标签混淆的文本分类模型
20
作者 韩博 成卫青 《南京邮电大学学报(自然科学版)》 北大核心 2024年第3期100-108,共9页
目前,文本分类的研究主要集中在通过优化文本分类器来增强分类性能。然而,标签和文本之间的联系并没有得到很好的利用。尽管BERT对文本特征的处理表现出了非常好的效果,但对文本和标签的特征提取还有一定的提升空间。文中通过结合标签... 目前,文本分类的研究主要集中在通过优化文本分类器来增强分类性能。然而,标签和文本之间的联系并没有得到很好的利用。尽管BERT对文本特征的处理表现出了非常好的效果,但对文本和标签的特征提取还有一定的提升空间。文中通过结合标签混淆模型(Label Confusion Model,LCM),提出一种基于BERT和LCM的文本分类模型(Model Based on BERT and Label Confusion,BLC),对文本和标签的特征进一步做了处理。充分利用BERT每一层的句向量和最后一层的词向量,结合双向长短时记忆网络(Bi-LSTM)得到文本表示,来替代BERT原始的文本特征表示。标签在进入LCM之前,使用自注意力网络和Bi-LSTM提高标签之间相互依赖关系,从而提高最终的分类性能。在4个文本分类基准数据集上的实验结果证明了所提模型的有效性。 展开更多
关键词 文本分类 BERT 标签混淆模型 双向长短时记忆网络 自注意力网络
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部