期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
非平衡数据训练方法概述
被引量:
10
1
作者
张琦
吴斌
王柏
《计算机科学》
CSCD
北大核心
2005年第10期181-186,共6页
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类...
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类样本与负类样本可能数量上相差极大,这给训练非平衡数据提出了挑战。传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差。本文分析了导致非平衡数据分类性能差的多方面原因,并针对这些原因列出了多种解决方法。
展开更多
关键词
非平衡数据
小析取项
元学习
训练方法
数据挖掘
评估度量
下载PDF
职称材料
术语定义抽取的特征选择框架
被引量:
1
2
作者
潘湑
顾宏斌
赵芷晴
《南京航空航天大学学报》
EI
CAS
CSCD
北大核心
2012年第3期399-404,共6页
为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析...
为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析该框架和传统过滤器特征选择方法对特征分布的影响的基础上,在航空领域术语定义语料库中对实验结果进行了对比。结果表明,本文提出的方法在使用平衡随机森林方法时,取得的最好成绩为F1-measure=0.652,F2-measure=0.761,所需特征比例从30%~40%降低到20%~30%;在使用直接分类方法时,F1-measure成绩提高了2.57倍,F2-measure成绩提高了3.11倍,均优于过滤器方法和Fisher Score方法。
展开更多
关键词
特征选择
不平衡语料
定义抽取
文本分类
小析取项
下载PDF
职称材料
题名
非平衡数据训练方法概述
被引量:
10
1
作者
张琦
吴斌
王柏
机构
北京邮电大学计算机科学与技术学院通信软件工程中心
出处
《计算机科学》
CSCD
北大核心
2005年第10期181-186,共6页
基金
国家自然科学基金(60402011)
文摘
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类样本与负类样本可能数量上相差极大,这给训练非平衡数据提出了挑战。传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差。本文分析了导致非平衡数据分类性能差的多方面原因,并针对这些原因列出了多种解决方法。
关键词
非平衡数据
小析取项
元学习
训练方法
数据挖掘
评估度量
Keywords
Imbalanced data, Small disjuncts, Meta-learning
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
术语定义抽取的特征选择框架
被引量:
1
2
作者
潘湑
顾宏斌
赵芷晴
机构
南京航空航天大学民航学院
出处
《南京航空航天大学学报》
EI
CAS
CSCD
北大核心
2012年第3期399-404,共6页
基金
中国民航局民航应用研究基金(MHRD0723)资助项目
文摘
为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析该框架和传统过滤器特征选择方法对特征分布的影响的基础上,在航空领域术语定义语料库中对实验结果进行了对比。结果表明,本文提出的方法在使用平衡随机森林方法时,取得的最好成绩为F1-measure=0.652,F2-measure=0.761,所需特征比例从30%~40%降低到20%~30%;在使用直接分类方法时,F1-measure成绩提高了2.57倍,F2-measure成绩提高了3.11倍,均优于过滤器方法和Fisher Score方法。
关键词
特征选择
不平衡语料
定义抽取
文本分类
小析取项
Keywords
feature selection
unbalanced corpus
definition extraction
text categorization
small disjunct
分类号
TB941 [机械工程—测试计量技术及仪器]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
非平衡数据训练方法概述
张琦
吴斌
王柏
《计算机科学》
CSCD
北大核心
2005
10
下载PDF
职称材料
2
术语定义抽取的特征选择框架
潘湑
顾宏斌
赵芷晴
《南京航空航天大学学报》
EI
CAS
CSCD
北大核心
2012
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部