期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
非平衡数据训练方法概述 被引量:10
1
作者 张琦 吴斌 王柏 《计算机科学》 CSCD 北大核心 2005年第10期181-186,共6页
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类... 现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类样本与负类样本可能数量上相差极大,这给训练非平衡数据提出了挑战。传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差。本文分析了导致非平衡数据分类性能差的多方面原因,并针对这些原因列出了多种解决方法。 展开更多
关键词 非平衡数据 小析取项 元学习 训练方法 数据挖掘 评估度量
下载PDF
术语定义抽取的特征选择框架 被引量:1
2
作者 潘湑 顾宏斌 赵芷晴 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2012年第3期399-404,共6页
为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析... 为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析该框架和传统过滤器特征选择方法对特征分布的影响的基础上,在航空领域术语定义语料库中对实验结果进行了对比。结果表明,本文提出的方法在使用平衡随机森林方法时,取得的最好成绩为F1-measure=0.652,F2-measure=0.761,所需特征比例从30%~40%降低到20%~30%;在使用直接分类方法时,F1-measure成绩提高了2.57倍,F2-measure成绩提高了3.11倍,均优于过滤器方法和Fisher Score方法。 展开更多
关键词 特征选择 不平衡语料 定义抽取 文本分类 小析取项
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部