期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于多重特征选择和多分类器融合的文本层次分类研究 被引量:1
1
作者 贾美英 杨炳儒 +1 位作者 郑德权 陈庆轩 《计算机应用研究》 CSCD 北大核心 2009年第12期4467-4470,共4页
针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表... 针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表明,相对于单分类器,该方法无论在平面分类和层次分类语料上都获得了更好的分类精度,且具有较好的时间复杂性,有很好的实际应用前景。 展开更多
关键词 文本自动分类 文本层次分类 多重特征选择 可信度函数 分类器融合
下载PDF
深层次标签辅助分类任务的层次标签文本分类方法
2
作者 曹渝昆 魏子越 +2 位作者 唐艺嘉 金成坤 李云峰 《计算机工程与应用》 CSCD 北大核心 2024年第10期105-112,共8页
层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导... 层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导致显著的标签训练不平衡问题。基于此,提出了深层次标签辅助分类任务的层次标签文本分类方法(DLAC)。该方法提出了一种深层次标签辅助分类器,在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点(即浅层次标签的丰富特征)来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明,模型能够有效提升深层次标签的分类性能,并取得良好效果。 展开更多
关键词 层次标签文本分类 标签层次结构 全局标签分类通道 层次标签辅助分类通道
下载PDF
基于Bert的层次多标签文本分类
3
作者 林娜 《应用数学进展》 2024年第5期2141-2147,共7页
层次多标签文本分类(Hierarchical Multi-label Text Classification, HMTC)是自然语言处理领域(Natural Language Processing, NLP)一项重要的任务。在其由浅至深的标签层次结构中,深层标签更能精确地代表文本所属的标签类别。然而,深... 层次多标签文本分类(Hierarchical Multi-label Text Classification, HMTC)是自然语言处理领域(Natural Language Processing, NLP)一项重要的任务。在其由浅至深的标签层次结构中,深层标签更能精确地代表文本所属的标签类别。然而,深层标签的样本实例较少且彼此之间语义接近,导致其难以被正确分类。针对上述的问题,文章提出了基于Bert的层次多标签文本分类方法,先利用Bert构建优越的文本表示,再以自上而下逐层的方式利用浅层级的标签信息引导深层级标签的分类,有效地提升了分类精度。实验结果表明所提模型与其它基线模型相比具有更好的分类性能。 展开更多
关键词 层次多标签文本分类 Bert 双向长短期记忆网络
下载PDF
一种基于向量空间模型的多层次文本分类方法 被引量:75
4
作者 刘少辉 董明楷 +2 位作者 张海俊 李蓉 史忠植 《中文信息学报》 CSCD 北大核心 2002年第3期8-14,26,共8页
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提... 本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 。 展开更多
关键词 层次文本分类方法 向量空间模型 信息增益 特征提取 词语权重 层次关系 文档分类
下载PDF
基于无标记Web数据的层次式文本分类
5
作者 何力 谭霜 +1 位作者 贾焰 韩伟红 《智能系统学报》 CSCD 北大核心 2014年第3期330-335,共6页
传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询... 传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询,从多种Web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。实验结果表明,该方法能够利用无标记Web数据学习分类器,并取得了较好的分类效果,其性能接近于有标记训练样本的监督分类方法。 展开更多
关键词 层次文本分类 主题层次 无标记数据分类 支持向量机
下载PDF
结合邻居辅助策略的两阶段层次文本分类模型
6
作者 古平 王春元 《计算机工程与应用》 CSCD 北大核心 2017年第9期97-102,共6页
传统两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法,但该模型的分类准确率仍然不是很高。为了缓解这个问题,提出了结合邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。THTC-NA模型由搜索阶段和分... 传统两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法,但该模型的分类准确率仍然不是很高。为了缓解这个问题,提出了结合邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。THTC-NA模型由搜索阶段和分类阶段组成。搜索阶段采用扁平策略从所有的叶子类别中选择与待分类文档最相关的k个类别作为候选类别集,这样可以大大减小分类阶段的搜索空间。分类阶段通过结合候选类别的祖先类别和兄弟类别的分类结果来帮助计算候选类别在分类阶段的结果。最后将搜索阶段的结果和分类阶段的结果融合起来共同决定待分类文档的目标类别。在数据集Newsgroups-18828上的实验表明,相对于THTC模型,THTCNA模型对提高层次文本分类准确率有很大的帮助。 展开更多
关键词 两阶段 层次文本分类 邻居辅助策略 类别层次
下载PDF
基于SMO的多层次文本分类法研究 被引量:3
7
作者 何建兵 何清 史忠植 《计算机工程与应用》 CSCD 北大核心 2006年第13期152-154,167,共4页
在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组... 在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组织难以进一步提高信息检索的速度。论文将SMO分类算法结合到文本分类研究中,通过构建多层支持向量机文本分类树,实现了基于SMO的多层次文本分类系统。 展开更多
关键词 文本分类 层次文本分类 支持向量机 SMO算法 多层支持向量机
下载PDF
基于类别混合嵌入的电力文本层次化分类方法 被引量:5
8
作者 陈晓娜 高鹏飞 +1 位作者 梁越 马应龙 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第1期77-82,共6页
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法。首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标... 针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法。首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系。然后,提出基于类别结构和标签语义混合嵌入的文本分类模型HONLSTM-BERT,利用类别标签之间的层次化结构关系进行自顶向下的层次化文本分类。最后,通过实验与当前流行的文本分类模型进行对比分析,结果表明HONLSTM-BERT方法具有更好的分类准确率,可有效地提高电力文本自动分类性能。 展开更多
关键词 电力信息技术 电力文本分类 层次文本分类 类别嵌入
下载PDF
改进组合算法在中文短文本分类中的应用
9
作者 房满林 《现代工业经济和信息化》 2017年第3期95-97,99,共4页
采用最大熵模型与情感分类词典组合的方式对这种短文本用户声音来生成观点。源声的领域通过最大熵模型识别,评价的好坏通过情感模型识别,最后通过领域和评价的组合来得出最终的分类。值得注意的是分类对象具有特征多和类别多等特点,对... 采用最大熵模型与情感分类词典组合的方式对这种短文本用户声音来生成观点。源声的领域通过最大熵模型识别,评价的好坏通过情感模型识别,最后通过领域和评价的组合来得出最终的分类。值得注意的是分类对象具有特征多和类别多等特点,对于源声有多个观点的,可以将源声以分隔符进行拆分,短文本通过分隔符由内向外的文本层次嵌套的分类方法来进行识别源声观点,防止错误输出。结果表明针对中文短文本观点分类,分类器融合是一种高效的分类组合算法。 展开更多
关键词 文本层次分类 最大熵模型 情感词典
下载PDF
基于领域特征词的突发事件层次分类方法 被引量:3
10
作者 韩永峰 郭志刚 +1 位作者 陈翰 许旭阳 《信息工程大学学报》 2012年第5期593-600,共8页
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件... 突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。 展开更多
关键词 突发事件 领域特征词 层次文本分类 SVM
下载PDF
基于《中国图书馆分类法》的文献自动化深层分类的研究和实现 被引量:1
11
作者 张雨卉 《图书馆杂志》 CSSCI 北大核心 2024年第3期61-74,共14页
基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基... 基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基于《中图法》的文献分类研究普遍将其视为普通的文本分类问题,由于没有充分挖掘问题的核心特点,这些研究在深层分类上的效果普遍不理想甚至不可行。相较于同类研究,本文基于对《中图法》文献分类特点和难点的深入分析,从XMC和HTC两个角度对基于《中图法》的文献深层分类和相关的解决方案进行了考察和研究,并针对该场景下的特点进行应用和创新,不仅提高了分类的准确度,还扩展了分类的深度和广度。本文模型首先通过适用于XMC问题的轻量深度学习模型提取了文本的语义特征作为分类的基础依据,而后针对《中图法》分类中的HTC问题,利用LTR(Learning to Rank)框架融入包括层级结构信息等多元特征作为分类的辅助依据,极大化地挖掘了蕴含在文本语义及分类体系中的信息和知识。本模型兼具深度学习模型强大的语义理解能力与机器学习模型的可解释性,同时具备良好的可扩展性,后期可较为便捷地融入专家定制的新特征进行提高,并且模型较为轻量,可在有限计算资源下轻松应对数万级别的分类标签,为基于《中图法》的全深度分类奠定良好的基础。 展开更多
关键词 极限多标签文本分类 层次文本分类 深度学习 《中国图书馆分类法》
下载PDF
基于层次化类别嵌入的电力ICT系统故障分类 被引量:2
12
作者 李建桂 梁越 +2 位作者 高鹏飞 刘绍华 马应龙 《北京邮电大学学报》 EI CAS CSCD 北大核心 2021年第4期34-40,共7页
为解决电力信息通信客服系统在故障研判时存在故障分类准确率低甚至误分的问题,提出基于层次化类别嵌入的文本分类方法,进行电力信息通信系统故障识别。首先,基于电力信息通信系统故障的用户保修工单文本数据构建电力信息通信系统层次... 为解决电力信息通信客服系统在故障研判时存在故障分类准确率低甚至误分的问题,提出基于层次化类别嵌入的文本分类方法,进行电力信息通信系统故障识别。首先,基于电力信息通信系统故障的用户保修工单文本数据构建电力信息通信系统层次化电力故障标签;其次,提出了基于层次化深层金字塔卷积神经网络和基于层次化中断循环神经网络2种层次化文本分类方法,采用层次化类别嵌入方法逐层进行故障类型分类。实验结果表明,基于层次化深层金字塔卷积神经网络的方法效果最优,可以提供高效、准确的故障识别服务。 展开更多
关键词 电力信息通信客服系统 电力文本分类 层次文本分类 类别嵌入
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部