期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
采用平衡函数的大规模多标签文本分类 被引量:1
1
作者 陈钊鸿 洪智勇 +1 位作者 余文华 张昕 《计算机工程与应用》 CSCD 北大核心 2024年第4期163-172,共10页
大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方... 大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方法。该方法使用BERT预训练模型对文本进行词嵌入处理,进一步使用预训练模型中多层编码器的拼接输出作为文本向量表示,获取了丰富的文本语义信息,提高了模型收敛速度。最后采用平衡函数针对预测标签的训练损失赋予不同的衰减权重,提高了方法在尾部标签分类上的学习能力。在Eurlex-4K和Wiki10-31K数据集上的实验结果表明,评价指标P@1、P@3和P@5上分别达到86.95%、74.12%、61.43%和88.57%、77.46%、67.90%。 展开更多
关键词 自然语言处理 大规模多标签文本分类 BERT 平衡函数 深度学习
下载PDF
用于大规模深度卷积分类网络DOA估计的标签分解方法 被引量:9
2
作者 吴双 袁野 +2 位作者 马育红 黄敬健 袁乃昌 《信号处理》 CSCD 北大核心 2021年第1期1-10,共10页
为了有效地解决使用深度神经网络求解波达方向(DOA)估计涉及到的大规模分类器的训练和部署实现,本文提出将传统的one-hot分类器分解为多个类别互质的小分类器,然后联合使用多个互质分类器的分类结果重构原始one-hot标签。首先使用标签分... 为了有效地解决使用深度神经网络求解波达方向(DOA)估计涉及到的大规模分类器的训练和部署实现,本文提出将传统的one-hot分类器分解为多个类别互质的小分类器,然后联合使用多个互质分类器的分类结果重构原始one-hot标签。首先使用标签分解,将原始标签分解为多个互质的小标签,小标签对应的类别为原始类别对质数取余数的结果。其次,通过独立并行地训练每一个互质分类器,降低了大类别条件下分类器的训练难度。仿真结果表明,相比one-hot分类器,互质分类器网络的复杂度低,易于训练。另外,使用互质分类器进行DOA估计能够实现超分辨并且估计的精度比one-hot分类器以及稀疏贝叶斯学习等方法更高。 展开更多
关键词 波达方向估计 深度卷积神经网络 标签分解 大规模分类问题
下载PDF
大规模层次分类中的候选类别搜索 被引量:19
3
作者 何力 丁兆云 +1 位作者 贾焰 韩伟红 《计算机学报》 EI CSCD 北大核心 2014年第1期41-49,共9页
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,... 大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,但结果表明候选类别搜索成为了其中瓶颈.文中首先对候选搜索问题的计算复杂性进行了分析,证明了该问题是NP难的,接下来提出了一个基于贪心策略的启发式候选搜索算法,并且证明了该贪心策略在求解过程中是一个局部最优选择.作者采用DMOZ目录中的简体中文网页数据进行了实验论证,实验结果显示,相比已有算法,文中提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%. 展开更多
关键词 文本分类 大规模层次分类 类别层次 候选类别 候选搜索问题 社交网络
下载PDF
大规模层次分类问题研究及其进展 被引量:14
4
作者 何力 贾焰 +2 位作者 韩伟红 谭霜 陈志坤 《计算机学报》 EI CSCD 北大核心 2012年第10期2101-2115,共15页
随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上... 随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.该文对大规模层次分类问题进行了分析.首先,给出了大规模层次分类问题的定义,分析了大规模层次分类问题的求解策略;其次,对大规模层次分类问题的求解方法加以分类,在分类基础上,介绍了各种典型的求解方法并进行了对比;最后总结了各种大规模层次分类问题求解方法并指出了未来的研究方向. 展开更多
关键词 文本分类 大规模层次分类 类别层次 类别层次树
下载PDF
面向大规模类不平衡数据的变分高斯过程分类算法 被引量:5
5
作者 马彪 周瑜 贺建军 《大连理工大学学报》 EI CAS CSCD 北大核心 2016年第3期279-284,共6页
变分高斯过程分类器是最近提出的一种较有效的面向大规模数据的快速核分类算法,其在处理类不平衡问题时,对少数类样本的预测精度通常会较低.针对此问题,通过在似然函数中引入指数权重系数和构造包含相同数目正负类样本的诱导子集解决原... 变分高斯过程分类器是最近提出的一种较有效的面向大规模数据的快速核分类算法,其在处理类不平衡问题时,对少数类样本的预测精度通常会较低.针对此问题,通过在似然函数中引入指数权重系数和构造包含相同数目正负类样本的诱导子集解决原始算法的分类面向少数类偏移的问题,建立了一种可以有效处理大规模类不平衡问题的改进变分高斯过程分类算法.在10个大规模UCI数据集上的实验结果表明,改进算法在类不平衡问题上的精度较原始算法得到大幅提高. 展开更多
关键词 类不平衡问题 高斯过程 变分推理 大规模数据分类
下载PDF
基于快速SVM的大规模网络流量分类方法 被引量:5
6
作者 王涛 程良伦 《计算机应用研究》 CSCD 北大核心 2012年第6期2301-2305,共5页
支持向量机方法具有良好的分类准确率、稳定性与泛化性,在网络流量分类领域已有初步应用,但在面对大规模网络流量分类问题时却存在计算复杂度高、分类器训练速度慢的缺陷。为此,提出一种基于比特压缩的快速SVM方法,利用比特压缩算法对... 支持向量机方法具有良好的分类准确率、稳定性与泛化性,在网络流量分类领域已有初步应用,但在面对大规模网络流量分类问题时却存在计算复杂度高、分类器训练速度慢的缺陷。为此,提出一种基于比特压缩的快速SVM方法,利用比特压缩算法对初始训练样本集进行聚合与压缩,建立具有权重信息的新样本集,在损失尽量少原始样本信息的前提下缩减样本集规模,进一步利用基于权重的SVM算法训练流量分类器。通过大规模样本集流量分类实验对比,快速SVM方法能在损失较少分类准确率的情况下,较大程度地缩减流量分类器的训练时间以及未知样本的预测时间,同时,在无过度压缩前提下,其分类准确率优于同等压缩比例下的随机取样SVM方法。本方法在保留SVM方法较好分类稳定性与泛化性能的同时,有效提升了其应对大规模流量分类问题的能力。 展开更多
关键词 支持向量机 大规模流量分类 比特压缩 权重SVM 分类 分类准确率
下载PDF
基于全路径相似度的大规模层次分类算法
7
作者 朱建林 陈忠阳 +1 位作者 张永俊 孙存一 《计算机工程与设计》 北大核心 2019年第5期1300-1304,1333,共6页
为快速准确地实现大规模层次分类问题,提出词类区分度概念,并以此作为计算类向量的基础。基于类向量,以改进的Rocchio算法计算待分类文本与目标类的相似度,候选出N个最可能的目标类别;根据目标类别的层次拓扑结构,计算待分类文本与N个... 为快速准确地实现大规模层次分类问题,提出词类区分度概念,并以此作为计算类向量的基础。基于类向量,以改进的Rocchio算法计算待分类文本与目标类的相似度,候选出N个最可能的目标类别;根据目标类别的层次拓扑结构,计算待分类文本与N个目标类别的全路径相似度,确定分类类别。实验结果表明,该方法分类效果优于传统算法,其基于文本类全路径相似度的策略明显改善了单纯基于词类区分度的分类算法。 展开更多
关键词 词类区分度 全路径相似度 大规模层次分类 文本分类 化繁为简策略
下载PDF
大规模文本分类中特征提取方法的比较研究
8
作者 何海斌 司建辉 《电脑知识与技术》 2009年第7X期5768-5769,5775,共3页
文本分类中特征向量空间是高维和稀疏的,降维处理是分类的关键步骤。针对传统特征提取方法的不足,提出采用基于迭代的CCIPCA和ICA特征提取方法处理大规模文本分类问题,实验结果表明降维提高了分类效果。在CCIPCA、ICA及ICA与IG组合降维... 文本分类中特征向量空间是高维和稀疏的,降维处理是分类的关键步骤。针对传统特征提取方法的不足,提出采用基于迭代的CCIPCA和ICA特征提取方法处理大规模文本分类问题,实验结果表明降维提高了分类效果。在CCIPCA、ICA及ICA与IG组合降维的方法中,基于ICA降维的分类效果是最好的。 展开更多
关键词 大规模文本分类 特征提取 直观无协方差增量主元分析 独立成分分析
下载PDF
SemFA:基于语义特征与关联注意力的大规模多标签文本分类模型 被引量:2
9
作者 王振东 董开坤 +1 位作者 黄俊恒 王佰玲 《计算机科学》 CSCD 北大核心 2023年第12期270-278,共9页
大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势... 大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势,忽略了文本不同粒度下细微的局部语义信息,同时标签与文本之间的潜在关联尚未得到稳健的建立与利用。对此,提出了一种基于语义特征与关联注意力的大规模多标签文本分类模型SemFA(An Extreme Multi-Label Text Classification Model Based on Semantic Features and Association-Attention)。在SemFA中,首先拼接多层编码器顶层输出作为全局特征。其次,结合卷积神经网络从多层编码器浅层向量中获取局部特征。综合丰富的全局信息和不同粒度下细微的局部信息获得更丰富、更准确的语义特征。最后,通过关联注意力机制建立标签特征与文本特征之间的潜在关联,引入关联损失作为潜在关联不断优化模型。在Eurlex-4K和Wiki10-31K两个公开数据集上的实验结果表明,SemFA优于大多数现有的XMTC模型,能有效地融合语义特征与关联注意力,提升整体的分类性能。 展开更多
关键词 自然语言处理 大规模多标签文本分类 语义特征 预训练模型 注意力机制
下载PDF
一种大规模文本分类大间隔近邻算法 被引量:1
10
作者 朱茜 覃华 +1 位作者 冯志新 陈晨 《计算机与现代化》 2016年第6期68-72,共5页
大间隔近邻算法(Large Margin Nearest Neighbor,LMNN)具有较强学习能力和泛化能力,在分类领域有广泛的应用。但将其用于大规模文本分类问题时,LMNN算法中的半定规划问题规模会随着数据规模增大而急剧膨胀,导致求解困难。针对此问题,引... 大间隔近邻算法(Large Margin Nearest Neighbor,LMNN)具有较强学习能力和泛化能力,在分类领域有广泛的应用。但将其用于大规模文本分类问题时,LMNN算法中的半定规划问题规模会随着数据规模增大而急剧膨胀,导致求解困难。针对此问题,引入胡贝尔损失函数把LMNN算法的半定优化模型分解为2个低阶的连续优化子模型,降低算法的计算复杂度,提高计算效率。在舆情分类数据集上的实验结果表明,本文算法与传统大间隔近邻算法相比,精度提高了4.5%,分类时间节省了47.1%,故采用分解降阶法来改进LMNN算法的性能是可行的,更适用于大规模文本分类。 展开更多
关键词 半定规划 大间隔近邻 胡贝尔损失函数 大规模文本分类 泛化能力
下载PDF
基于双支持向量机的大样本分类算法 被引量:1
11
作者 胡小生 《佛山科学技术学院学报(自然科学版)》 CAS 2015年第4期26-30,共5页
针对支持向量机(Support Vector Machine,SVM)处理大规模样本分类的学习效率降低问题,提出两阶段学习的支持向量机算法。该方法首先在正负类分别进行无监督聚类,提取各个聚类质心组成约简训练集,进行初次SVM训练;然后,根据初次训练结果... 针对支持向量机(Support Vector Machine,SVM)处理大规模样本分类的学习效率降低问题,提出两阶段学习的支持向量机算法。该方法首先在正负类分别进行无监督聚类,提取各个聚类质心组成约简训练集,进行初次SVM训练;然后,根据初次训练结果选取边界样本集,参与第二次SVM训练。在UCI数据集上的实验结果表明,所提方法在保持分类泛化性能的同时,提高了模型的训练速度。 展开更多
关键词 支持向量机 大规模分类 聚类 样本选取
下载PDF
基于机器学习的文本分类技术研究进展 被引量:388
12
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
下载PDF
基于类别层次结构的多层文本分类样本扩展策略 被引量:17
13
作者 李保利 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期357-366,共10页
针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构... 针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。 展开更多
关键词 多层文本分类 大规模中文新闻分类 中文新闻信息分类 类别层次体系
下载PDF
基于拉普拉斯方法的大规模高斯过程分类算法 被引量:1
14
作者 马彪 贺建军 李厚杰 《控制与决策》 EI CSCD 北大核心 2017年第7期1319-1324,共6页
基于KL散度的大规模变分高斯过程分类算法(KLSP)需要同时对诱导变量的均值向量和协方差矩阵进行优化,这会给模型求解带来一定的挑战.基于拉普拉斯方法建立一种改进算法:首先为诱导变量的后验分布构造一个易于计算的下界;然后利用拉普拉... 基于KL散度的大规模变分高斯过程分类算法(KLSP)需要同时对诱导变量的均值向量和协方差矩阵进行优化,这会给模型求解带来一定的挑战.基于拉普拉斯方法建立一种改进算法:首先为诱导变量的后验分布构造一个易于计算的下界;然后利用拉普拉斯方法计算该下界的一个高斯逼近作为诱导变量的后验分布函数的近似表达式,将问题转换为一个只与均值向量有关的凸优化问题,从而降低了模型的求解难度.仿真实验结果表明,所提出的改进算法在速度和精度上都较原始算法有了明显提高. 展开更多
关键词 大规模数据分类 高斯过程模型 拉普拉斯方法 变分方法
原文传递
基于支持向量机的文本分类方法研究
15
作者 赵鹏 《齐齐哈尔大学学报(自然科学版)》 2008年第1期55-60,共6页
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展,其中基于支持向量机的文本分类方法的研究是信息检索领域的一个重要分支。本文首先讨论了该领域的研究状况,接着阐述并分析了在该领域中的... 文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展,其中基于支持向量机的文本分类方法的研究是信息检索领域的一个重要分支。本文首先讨论了该领域的研究状况,接着阐述并分析了在该领域中的主要研究方法以及实例,最后对该领域研究中存在的问题和方向进行了分析。 展开更多
关键词 支持向量机 文本分类 机器学习 多类分类 大规模文本分类
下载PDF
基于边界样本选择的支持向量机加速算法 被引量:5
16
作者 胡小生 钟勇 《计算机工程与应用》 CSCD 北大核心 2017年第3期169-173,共5页
针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法... 针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法剔除非边界样本,获得最终的类别边界区域样本,参与SVM模型训练。在标准数据集上的实验结果表明,算法在保持传统支持向量机的分类泛化能力的同时,显著降低了模型训练时间。 展开更多
关键词 支持向量机 大规模分类 边界样本 聚类
下载PDF
基于流形判别分析的全局保序学习机
17
作者 张静 刘忠宝 《电子科技大学学报》 EI CAS CSCD 北大核心 2015年第6期911-916,共6页
当前主流分类方法在分类决策时无法同时考虑样本的全局特征和局部特征,而且大多算法仅关注各类样本的可分性,往往忽略样本之间的相对关系。为了解决上述问题,提出了基于流形判别分析的全局保序学习机。该方法引入流形判别分析来反映样... 当前主流分类方法在分类决策时无法同时考虑样本的全局特征和局部特征,而且大多算法仅关注各类样本的可分性,往往忽略样本之间的相对关系。为了解决上述问题,提出了基于流形判别分析的全局保序学习机。该方法引入流形判别分析来反映样本的全局特征和局部特征;通过保持各类样本中心的相对关系不变进而实现保持全体样本的先后顺序不变;借鉴核心向量机有关理论和方法,通过建立所提方法与核心向量机对偶形式的等价关系实现大规模分类。人工数据集和标准数据集上的比较实验验证了该方法的有效性。 展开更多
关键词 全局保序 大规模分类 流形判别分析 支持向量机
下载PDF
AN IMPROVED GN ALGORITHM OF NETWORK COMMUNITY DETECTION METHOD
18
作者 WU Guodong SONG Fugen 《International English Education Research》 2017年第4期75-77,共3页
.GN algorithm has high classification accuracy on community detection, but its time complexity is too high. In large scale network, the algorithm is lack of practical values. This paper puts forward an improved GN alg... .GN algorithm has high classification accuracy on community detection, but its time complexity is too high. In large scale network, the algorithm is lack of practical values. This paper puts forward an improved GN algorithm. The algorithm firstly get the network center nodes set, then use the shortest paths between center nodes and other nodes to calculate the edge betweenness, and then use incremental module degree as the algorithm terminates standard. Experiments show that, the new algorithm not only ensures accuracy of network community division, but also greatly reduced the time complexity, and improves the efficiency of community division. 展开更多
关键词 Complex network Community detection Center node Improved GN algorithm
下载PDF
Energy Consumption in Wireless Sensor Networks
19
作者 金岩 王玲 +1 位作者 杨孝宗 温东新 《Journal of Donghua University(English Edition)》 EI CAS 2007年第5期646-651,共6页
Wireless sensor networks (WSNs) can be used to collect surrounding data by multi-hop. As sensor networks have the constrained and not rechargeable energy resource, energy efficiency is an important design issue for ... Wireless sensor networks (WSNs) can be used to collect surrounding data by multi-hop. As sensor networks have the constrained and not rechargeable energy resource, energy efficiency is an important design issue for its topology. In this paper, the energy consumption issue under the different topology is studied. We derive the exact mathematical expression of energy consumption for the fiat and clustering scheme, respectively. Then the energy consumptions of different schemes are compared. By the comparison, multi-level clustering scheme is more energy efficient in large scale networks. Simulation results demonstrate that our analysis is correct from the view of prolonging the large-scale network lifetime and achieving more power reductions. 展开更多
关键词 wireless sensor networks WSNs energy consumption FLAT CLUSTERING
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部