期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于稀疏编码和集成学习的多示例多标记图像分类方法 被引量:14
1
作者 宋相法 焦李成 《电子与信息学报》 EI CSCD 北大核心 2013年第3期622-626,共5页
该文基于稀疏编码和集成学习提出了一种新的多示例多标记图像分类方法。首先,利用训练包中所有示例学习一个字典,根据该字典计算示例的稀疏编码系数;然后基于每个包中所有示例的稀疏编码系数计算包特征向量,从而将多示例多标记问题转化... 该文基于稀疏编码和集成学习提出了一种新的多示例多标记图像分类方法。首先,利用训练包中所有示例学习一个字典,根据该字典计算示例的稀疏编码系数;然后基于每个包中所有示例的稀疏编码系数计算包特征向量,从而将多示例多标记问题转化为多标记问题;最后利用多标记分类算法进行求解。为了提高分类器的泛化能力,对多个分类器进行集成。在多示例多标记图像数据集上的实验结果表明所提方法与其它方法相比有更好的性能。 展开更多
关键词 图像分类 多示例多标记学习 稀疏编码 集成学习
下载PDF
基于快速多示例多标记学习的G蛋白偶联受体生物学功能预测 被引量:3
2
作者 吴建盛 冯巧遇 +3 位作者 袁京洲 胡海峰 周家特 高昊 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1674-1682,共9页
G蛋白偶联受体(G protein-coupled receptors,GPCRs)是人类中最庞大的膜蛋白家族,也是很多药物的重要靶点,准确了解GPCRs生物学功能是理解它们参与的生物学过程及其药物作用机制的关键.以前的研究表明,蛋白质功能预测可抽象为多示例多... G蛋白偶联受体(G protein-coupled receptors,GPCRs)是人类中最庞大的膜蛋白家族,也是很多药物的重要靶点,准确了解GPCRs生物学功能是理解它们参与的生物学过程及其药物作用机制的关键.以前的研究表明,蛋白质功能预测可抽象为多示例多标记学习(multi-instance multi-label learning,MIML)问题.设计了一种基于快速多示例多标记学习方法 MIMLfast的GPCRs生物学功能预测模型.该模型采用了一种新的混合特征,它考虑了GPCRs结构域的三联氨基酸、氨基酸关联、进化、二级结构关联、信号肽及无序残基等多种信息.实验结果证明,该模型获得了很好的性能,优于目前最优的多示例多标记学习、多标记学习的预测方法和CAFA蛋白质功能预测方法. 展开更多
关键词 G蛋白偶联受体 生物学功能预测 快速多示例多标记学习 结构域 混合特征
下载PDF
基于半监督学习的多示例多标记E-MIMLSVM^+算法 被引量:2
3
作者 李村合 朱红波 《计算机工程与应用》 CSCD 北大核心 2018年第2期149-154,共6页
多示例多标记是一种新的机器学习框架,在该框架下一个对象用多个示例来表示,同时与多个类别标记相关联。MIMLSVM^+算法将多示例多标记问题转化为一系列独立的二类分类问题,但是在退化过程中标记之间的联系信息会丢失,而E-MIMLSVM^+算法... 多示例多标记是一种新的机器学习框架,在该框架下一个对象用多个示例来表示,同时与多个类别标记相关联。MIMLSVM^+算法将多示例多标记问题转化为一系列独立的二类分类问题,但是在退化过程中标记之间的联系信息会丢失,而E-MIMLSVM^+算法则通过引入多任务学习技术对MIMLSVM^+算法进行了改进。为了充分利用未标记样本来提高分类准确率,使用半监督支持向量机TSVM对E-MIMLSVM^+算法进行了改进。通过实验将该算法与其他多示例多标记算法进行了比较,实验结果显示,改进算法取得了良好的分类效果。 展开更多
关键词 机器学习 多示例多标记 支持向量机(SVM) 半监督学习
下载PDF
面向蛋白质功能预测中有向无环图标记结构的多示例多标记学习 被引量:1
4
作者 吴建盛 唐诗迪 +2 位作者 梅德进 朱燕翔 刁业敏 《国防科技大学学报》 EI CAS CSCD 北大核心 2022年第3期23-30,共8页
在多示例多标记学习问题中,标记之间往往是相互关联的,其中有向无环图结构是一种常见的层次关联结构,可见于蛋白质的基因本体学生物学功能预测的应用场景中。针对其标记间的有向无环图结构,提出了一种新的多示例多标记学习算法。算法从... 在多示例多标记学习问题中,标记之间往往是相互关联的,其中有向无环图结构是一种常见的层次关联结构,可见于蛋白质的基因本体学生物学功能预测的应用场景中。针对其标记间的有向无环图结构,提出了一种新的多示例多标记学习算法。算法从原始数据的特征空间训练出所有标记共享的低维子空间,通过随机梯度下降方法来降低模型排序损失,并融入标记间有向无环图结构关系对预测标记进行优化。将该算法应用于多个数据集的蛋白质功能预测中,实验结果表明,该算法具有更高的效率及预测性能。 展开更多
关键词 多示例多标记学习 蛋白质功能预测 有向无环图标记结构 标记相关性
下载PDF
基于分类器链的多示例多标记算法
5
作者 李村合 田程程 董玉坤 《计算机工程与设计》 北大核心 2019年第6期1580-1584,1625,共6页
退化方法是求解多示例多标记学习(MIML)问题常用的求解方式,但是在退化过程中会造成标记之间的关联信息丢失。对该问题进行研究,提出OCC-MIMLSVM+分类算法,将MIMLSVM+算法与有序分类器链(OCC)方法相结合,通过对分类器进行合理组织,将标... 退化方法是求解多示例多标记学习(MIML)问题常用的求解方式,但是在退化过程中会造成标记之间的关联信息丢失。对该问题进行研究,提出OCC-MIMLSVM+分类算法,将MIMLSVM+算法与有序分类器链(OCC)方法相结合,通过对分类器进行合理组织,将标记之间的关联信息融入至算法的训练过程中,解决信息丢失问题,提高分类准确率。实验结果表明,改进算法取得了比基准多示例多标记算法更好的分类效果。 展开更多
关键词 多示例多标记学习 分类器链 标记依赖 信息丢失 支持向量机
下载PDF
基于标记相关性的多示例多标记算法
6
作者 李村合 田程程 姜宇 《计算机系统应用》 2018年第8期146-152,共7页
多示例多标记学习(Multi-Instance Multi-Label,MIML)是一种新的机器学习框架,基于该框架上的样本由多个示例组成并且与多个类别相关联,该框架因其对多义性对象具有出色的表达能力,已成为机器学习界研究的热点.解决MIML分类问题的最直... 多示例多标记学习(Multi-Instance Multi-Label,MIML)是一种新的机器学习框架,基于该框架上的样本由多个示例组成并且与多个类别相关联,该框架因其对多义性对象具有出色的表达能力,已成为机器学习界研究的热点.解决MIML分类问题的最直接的思路是采用退化策略,通过向多示例学习或多标记学习的退化,将MIML框架下的分类问题简化为一系列的二类分类问题进行求解.但是在退化过程中会丢失标记之间的关联信息,降低分类的准确率.针对此问题,本文提出了MIMLSVM-LOC算法,该算法将改进的MIMLSVM算法与一种局部标记相关性的方法ML-LOC相结合,在训练过程中结合标记之间的关联信息进行分类.算法首先对MIMLSVM算法中的K-medoids聚类算法进行改进,采用的混合Hausdorff距离,将每一个示例包转化为一个示例,将MIML问题进行了退化.然后采用单示例多标记的算法ML-LOC算法继续以后的分类工作.在实验中,通过与其他多示例多标记算法对比,得出本文提出的算法取得了比其他分类算法更优的分类效果. 展开更多
关键词 多示例多标记学习 ML-LOC算法 标记依赖 支持向量机
下载PDF
基于多示例多标记学习的手机游戏道具推荐 被引量:2
7
作者 唐俊 周志华 《计算机科学与探索》 CSCD 北大核心 2016年第1期103-111,共9页
手机游戏提供商通过在游戏中销售虚拟道具来获得收益。将游戏玩家日志数据中每个事件描述为一个示例,玩家对多种游戏道具的购买状态表示为多个标记,从而将游戏道具推荐问题抽象为多示例多标记学习问题。在此基础上,将快速多示例多标记... 手机游戏提供商通过在游戏中销售虚拟道具来获得收益。将游戏玩家日志数据中每个事件描述为一个示例,玩家对多种游戏道具的购买状态表示为多个标记,从而将游戏道具推荐问题抽象为多示例多标记学习问题。在此基础上,将快速多示例多标记学习算法用于手机网络游戏道具推荐,并利用半监督学习提升推荐性能。离线数据集以及实际在线手机网络游戏实验结果表明,基于多示例多标记学习的游戏道具推荐技术带来了游戏营收的显著增长。 展开更多
关键词 机器学习 多示例多标记学习(MIML) 半监督学习 推荐
下载PDF
基于多示例多标记KNN的图像分类算法的改进 被引量:1
8
作者 王爽 张化祥 刘丽 《济南大学学报(自然科学版)》 CAS 北大核心 2015年第4期275-279,共5页
为了提高图像分类的准确度,提出基于最小Hausdorff距离的多示例多标记K近邻图像分类方法。该方法通过改善图像包的生成方法,均匀分割并提取图像的颜色和纹理特征,使用最小Hausdorff距离作为包间的距离度量,对多示例多标记K近邻算法进行... 为了提高图像分类的准确度,提出基于最小Hausdorff距离的多示例多标记K近邻图像分类方法。该方法通过改善图像包的生成方法,均匀分割并提取图像的颜色和纹理特征,使用最小Hausdorff距离作为包间的距离度量,对多示例多标记K近邻算法进行改进。实验结果表明,该方法提高了分类准确度,减少了运行时间。 展开更多
关键词 图像分类 多示例多标记 K近邻 图像分割 特征提取
下载PDF
基于主题模型的多示例多标记学习方法 被引量:1
9
作者 严考碧 李志欣 张灿龙 《计算机应用》 CSCD 北大核心 2015年第8期2233-2237,共5页
针对现有的大部分多示例多标记(MIML)算法都没有考虑如何更好地表示对象特征这一问题,将概率潜在语义分析(PLSA)模型和神经网络(NN)相结合,提出了基于主题模型的多示例多标记学习方法。算法通过概率潜在语义分析模型学习到所有训练样本... 针对现有的大部分多示例多标记(MIML)算法都没有考虑如何更好地表示对象特征这一问题,将概率潜在语义分析(PLSA)模型和神经网络(NN)相结合,提出了基于主题模型的多示例多标记学习方法。算法通过概率潜在语义分析模型学习到所有训练样本的潜在主题分布,该过程是一个特征学习的过程,用于学习到更好的特征表达,用学习到的每个样本的潜在主题分布作为输入来训练神经网络。当给定一个测试样本时,学习测试样本的潜在主题分布,将学习到的潜在主题分布输入到训练好的神经网络中,从而得到测试样本的标记集合。与两种经典的基于分解策略的多示例多标记算法相比,实验结果表明提出的新方法在现实世界中的两种多示例多标记学习任务中具有更优越的性能。 展开更多
关键词 主题模型 特征表达 多示例多标记学习 场景分类 文本分类
下载PDF
基于多示例多标记的抽油机故障诊断 被引量:2
10
作者 陈妍 许少华 《计算机系统应用》 2016年第12期285-288,共4页
针对抽油机工况数据可从位移、载荷、电流等多个方面进行描述,若仅仅使用一个特征向量来描述抽油机工况数据会使其信息过于简化,丢失一部分有效信息的问题,以及工况数据具有多义性的特征,提出基于多示例多标记的抽油机故障诊断.该学习... 针对抽油机工况数据可从位移、载荷、电流等多个方面进行描述,若仅仅使用一个特征向量来描述抽油机工况数据会使其信息过于简化,丢失一部分有效信息的问题,以及工况数据具有多义性的特征,提出基于多示例多标记的抽油机故障诊断.该学习方法中,用抽油机的位移、载荷、电流数据作为抽油机工况样本包的多个示例,使用k-medoids聚类算法对样本包进行聚类,将多个样本包转换为若干示例,新示例的每一维表示样本包到样本各聚类中心的距离,再利用MLSVM算法对转换后的多标记问题进行求解.实验结果表明,多示例多标记学习能够及时、准确地诊断出抽油机故障问题. 展开更多
关键词 多示例多标记 抽油机 故障诊断
下载PDF
基于树结构的层次性多示例多标记学习 被引量:1
11
作者 袁京洲 高昊 +2 位作者 周家特 冯巧遇 吴建盛 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2019年第3期80-87,共8页
针对多示例多标记学习中标记间树结构的问题,将多示例学习、多标记学习和树结构标记优化方法有机融合,提出了基于树结构标记的层次性多示例多标记学习方法TreeMIML.TreeMIML先将样本中的多个示例转化为单示例,然后通过多标记学习得到新... 针对多示例多标记学习中标记间树结构的问题,将多示例学习、多标记学习和树结构标记优化方法有机融合,提出了基于树结构标记的层次性多示例多标记学习方法TreeMIML.TreeMIML先将样本中的多个示例转化为单示例,然后通过多标记学习得到新样本的标记,最后通过树结构标记优化方法学习样本的最终标记.实验结果证明,TreeMIML方法在G蛋白偶联受体的生物学功能预测上获得了很好的分类性能,优于目前最好的多示例多标记学习和多标记学习方法. 展开更多
关键词 层次性多示例多标记学习 树结构 G蛋白偶联受体 生物学功能 多示例学习
下载PDF
结合均值漂移的多示例多标记学习改进算法 被引量:4
12
作者 王一宾 程玉胜 裴根生 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第2期422-435,共14页
多示例多标记学习在多语义对象处理中克服了多示例学习和多标记学习的缺点,成功应用于文本分类、图像识别标注、基因数据分析等任务中.其中基于退化策略的多示例多标记学习算法,多利用K-Medoids聚类将多示例多标记退化成单示例多标记,... 多示例多标记学习在多语义对象处理中克服了多示例学习和多标记学习的缺点,成功应用于文本分类、图像识别标注、基因数据分析等任务中.其中基于退化策略的多示例多标记学习算法,多利用K-Medoids聚类将多示例多标记退化成单示例多标记,但此种退化方式过于简化多语义和复杂语义的对象,并未考虑示例间的相关性,导致退化过程中的信息削弱甚至丢失.针对这一问题,提出了结合均值漂移的多示例多标记学习改进算法(MultiInstance Multi-Label with Mean Shift,MIMLMS),将高斯核函数和权值加入均值漂移中.权值的加入保证了示例之间的相关性得以保留,而将多示例集合加入高斯核函数就可利用核密度估计和梯度下降法求解退化过程最优解,最终以误差平方和为分类目标函数,建立多示例多标记分类模型.算法在基准的多示例多标记测试数据集中的实验结果,验证了算法的良好分类效果及算法的有效性和可靠性. 展开更多
关键词 多示例多标记学习 均值漂移算法 高斯核函数 核密度估计 梯度下降法
下载PDF
基于多示例多标记迁移学习的蛋白质功能预测 被引量:3
13
作者 胡海峰 郑茂 +2 位作者 吴伟坚 王俊 吴建盛 《中国科学:信息科学》 CSCD 北大核心 2017年第11期1538-1550,共13页
随着各种基因组测序计划的推出,不断有很多物种被新测序完成,需要对这些物种的蛋白质功能进行注释.这些物种中已知功能的蛋白质数量少,可以考虑使用亲缘关系近、已知功能蛋白质数量多的物种来帮助这些物种进行蛋白质功能预测.本文把这... 随着各种基因组测序计划的推出,不断有很多物种被新测序完成,需要对这些物种的蛋白质功能进行注释.这些物种中已知功能的蛋白质数量少,可以考虑使用亲缘关系近、已知功能蛋白质数量多的物种来帮助这些物种进行蛋白质功能预测.本文把这个任务抽象为多示例多标记迁移学习问题,并提出了第一个多示例多标记迁移学习框架TR-MIML来解决此任务.TR-MIML通过最小化投影空间上加权源域样本中心点与目标域样本中心点的距离,给源域样本赋予不同权值,并基于目标域和源域样本训练多示例多标记学习模型.在两个新完成测序物种上,实验结果证明了迁移学习有助于它们的蛋白质功能预测.另外,亲缘关系越近的物种作为源域进行迁移学习帮助越大. 展开更多
关键词 新测序物种 蛋白质功能预测 迁移学习 多示例多标记学习 样本加权
原文传递
一种基于多示例多标记学习的新标记学习方法 被引量:6
14
作者 朱越 姜远 周志华 《中国科学:信息科学》 CSCD 北大核心 2018年第12期1670-1680,共11页
多标记学习是一种应用非常广泛的学习范式,其中,一个对象可能同时与多个标记相关联.传统的多标记学习研究多假设训练数据中观察到的标记分布与测试数据的真实标记分布一致.但在实际应用中,训练数据中可能存在一些从未被标注出的新标记.... 多标记学习是一种应用非常广泛的学习范式,其中,一个对象可能同时与多个标记相关联.传统的多标记学习研究多假设训练数据中观察到的标记分布与测试数据的真实标记分布一致.但在实际应用中,训练数据中可能存在一些从未被标注出的新标记.在预测时,不仅希望能够在目标标记集合(已知标记)上取得好的性能,还要求能够检测出样本是否存在新标记.针对这种多标记新标记学习问题,本文提出了一种端到端的多视图多示例多标记学习方法 EM3NL.该方法基于卷积神经网络产生多示例包,并通过最小化包上观察标记的错分损失和对新标记预测值排序损失的惩罚以及对多视图预测不一致的惩罚同时学习图像,文本两个视图的特征表示以及已知标记和新标记的预测函数.在大规模图片–文本真实数据集上验证了EM3NL在已知标记学习和新标记检测任务上的有效性. 展开更多
关键词 多标记标记学习 多示例多标记学习 多视图学习 深度学习
原文传递
MIMLRBF预测谷物蛋白质功能方法的改进
15
作者 刘静 崔双龙 +1 位作者 曹洪伟 管骁 《食品与生物技术学报》 CAS CSCD 北大核心 2021年第4期36-43,共8页
随着人们对营养与保健功能的关注,谷物蛋白质功能预测已经成为当前研究热点。面对大量已完成测序的谷物蛋白质基因组数据,利用计算方法来预测谷物蛋白质功能已经成为主流。从谷物蛋白质结构域序列出发,首次将MIMLRBF算法运用到蛋白质功... 随着人们对营养与保健功能的关注,谷物蛋白质功能预测已经成为当前研究热点。面对大量已完成测序的谷物蛋白质基因组数据,利用计算方法来预测谷物蛋白质功能已经成为主流。从谷物蛋白质结构域序列出发,首次将MIMLRBF算法运用到蛋白质功能预测,并在此算法基础上,提出了多种改进后的谷物蛋白质功能预测模型。其中,针对平均Hausdorff距离削弱了两种蛋白质之间最短结构域距离所起作用的问题,为平均Hausdorff距离引入一个自动调节系数来计算蛋白质之间的相似性。同时,为提高MIMLRBF算法的预测效果,利用改进后的混合径向基核函数进行激活,得到了改进后的MIMLRBF算法模型。最终利用主流的评价标准对预测结果进行评价,可以发现改进后的MIMLRBF比传统的预测效果更好,证明了所建模型的优越性。 展开更多
关键词 谷物 蛋白质功能预测 多示例多标记 HAUSDORFF距离 核函数
下载PDF
基于全局和局部标签相关性的MIMLSVM改进算法
16
作者 李村合 张振凯 《计算机系统应用》 2019年第4期131-138,共8页
多示例多标记学习是用多个示例来表示一个对象,同时该对象与多个类别标记相关联的新型机器学习框架.设计多示例多标记算法的一种方法是使用退化策略将其转化为多示例学习或者是多标记学习,最后退化为传统监督学习,然后使用某种算法进行... 多示例多标记学习是用多个示例来表示一个对象,同时该对象与多个类别标记相关联的新型机器学习框架.设计多示例多标记算法的一种方法是使用退化策略将其转化为多示例学习或者是多标记学习,最后退化为传统监督学习,然后使用某种算法进行训练和建模,但是在退化过程中会有信息丢失,从而影响到分类准确率.MIMLSVM算法是以多标记学习为桥梁,将多示例多标记学习问题退化为传统监督学习问题求解,但是该算法在退化过程中没有考虑标记之间的相关信息,本文利用一种既考虑到全局相关性又考虑到局部相关性的多标记算法GLOCAL来对MIMLSVM进行改进,实验结果显示,改进的算法取得了良好的分类效果. 展开更多
关键词 多示例多标记 局部性 全局性 退化 MIMLSVM GLOCAL
下载PDF
对象定位处理中分类信息融合技术研究 被引量:4
17
作者 钱怡 林莹 武港山 《计算机应用研究》 CSCD 北大核心 2013年第12期3844-3849,共6页
为提高图像中对象定位技术的处理效果,对对象定位技术和分类技术的融合进行了研究。针对大规模、多对象类别的图像对象定位问题,提出了先进行快速分类,再精确定位的处理方案。通过MIMLSVM+多类别分类算法预判出包含对象的图像,利用ESS... 为提高图像中对象定位技术的处理效果,对对象定位技术和分类技术的融合进行了研究。针对大规模、多对象类别的图像对象定位问题,提出了先进行快速分类,再精确定位的处理方案。通过MIMLSVM+多类别分类算法预判出包含对象的图像,利用ESS方法在上述图像中定位对象;针对高精度对象定位需求,提出了融入全局分类信息的最优框打分机制,将MIMLSVM+算法对于图像的分类信息融入ESS方法中最优框的打分信息中。在PASCAL 2006数据集上相应的实验结果表明,前者在缩短处理时间的同时取得了不错的定位平均精度,而后者对最优框得分的改进也在多个类别上带来了定位效果的提高。实验结果表明,分类信息融入对象定位处理中能提升处理效果。 展开更多
关键词 信息融合 对象定位 多类别分类 多示例多标记学习框架 快速子窗口搜索方法 最优框
下载PDF
基于新型机器学习方法的蛋白质功能预测与分析
18
作者 吴建盛 《信息通信》 2012年第5期19-20,共2页
介绍了蛋白质功能预测与分析的现状和主要研究内容,并说明了如何利用新型机器学习方法来进行这方面的研究工作,并对其以后的发展提出了展望。
关键词 蛋白质功能预测 机器学习 多示例多标记学习
下载PDF
基于MIML的OGC网络服务语义检索方法研究 被引量:1
19
作者 孙君祯 苗立志 徐兴永 《计算机技术与发展》 2021年第6期24-28,共5页
由于地理信息服务存在能力描述内容敏感度不够、语义信息缺乏等问题,地理信息服务的语义检索一直是空间数据搜索方面的研究热点。该文以OGC(open geospatial consortium)地理信息服务为研究对象,通过解析其能力文件中的相关标签的属性值... 由于地理信息服务存在能力描述内容敏感度不够、语义信息缺乏等问题,地理信息服务的语义检索一直是空间数据搜索方面的研究热点。该文以OGC(open geospatial consortium)地理信息服务为研究对象,通过解析其能力文件中的相关标签的属性值,采用TF-IDF算法提取能够描述OGC网络服务(OGC web service, OWS)特征的标记词汇;并基于MIMLBoost算法实现对OWS的语义标记,设计了面向OGC地理信息服务的语义检索模型。结合MIMLBoost算法、TF-IDF算法和地质本体库,设计并开发了面向OGC地理信息服务的语义检索系统,实现了OWS数据的语义检索。通过对OneGeology和美国地质勘探局(USGS)中300条可访问的地理信息服务数据进行检索实验,结果表明:基于MIMLBoost和TF-IDF的OGC地理信息服务检索方法的查全率与查准率达到了92%、93.48%,与基于GeoNetwork的查询相比分别提高22%和16.34%,为面向OWS的语义检索方法的研究提供了一种解决方法。 展开更多
关键词 多示例多标记 OWS 语义检索 TF-IDF算法 地理本体
下载PDF
基于类别重要度的MIMLBoost改进算法
20
作者 郝宁 夏士雄 +1 位作者 牛强 赵志军 《计算机应用》 CSCD 北大核心 2015年第11期3122-3125,共4页
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以... 针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化。在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率。 展开更多
关键词 多示例多标记 MIMIBoost算法 TF-IDF算法 聚类 类别不平衡
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部