-
题名类别混叠度对非均衡数据分类的有效性分析
被引量:2
- 1
-
-
作者
邢延
陈嘉锋
贾小彦
汪新
-
机构
广东工业大学自动化学院
广东工业大学土木与交通工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2018年第5期936-944,共9页
-
基金
国家自然科学基金(51378128)资助项目
广东省自然科学基金(2015A030313498)资助项目
-
文摘
类别混叠度是指不同类别数据之间互相交叠、混合的程度,其量化指标包含基于几何统计的和基于信息论的两类,用于衡量数据分类的难易。实际分类任务中存在大量的非均衡数据,大类与小类样本之间悬殊的数量差别给分类造成了极大的困难。本文采用实验研究的方法,验证类别混叠度量化指标指导非均衡数据分类的有效性,以减少甚至避免盲目试错带来的庞大计算开销。首先,针对两类分类问题,设计验证实验,在不同类数据非均衡率,不同别边界形状、不同特征类型、不同概率分布的非均衡仿真数据上研究类别混叠度的有效性。其次,在实验研究的基础上,分析数据的非均衡性对类别混叠度的影响规律,找出类别混叠度指导非均衡分类的有效方法。最后,在真实的非均衡数据上验证类别混叠度指导非均衡分类的实际效果。实验结果表明,对数据的非均衡率具有较强鲁棒性的类别混叠度量化指标可以有效地指导非均衡数据的分类器选择。
-
关键词
类别混叠度
分类复杂度
非均衡数据
分类
非均衡率
-
Keywords
class overlap measures
classification complexity
imbalanced data
classification
imbalance ratio
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名云计算环境下的数据准确性评估
被引量:4
- 2
-
-
作者
贾小彦
王帅
邢延
蔡延光
-
机构
广东工业大学自动化学院
-
出处
《工业控制计算机》
2014年第10期105-106,108,共3页
-
基金
广东省科技计划项目(2012B050600028)
-
文摘
数据质量是数据挖掘和数据分析结论有效性和准确性的基础、前提和保障,数据质量评估是解决数据质量问题的关键。数据质量评估的标准是多种多样的,其中准确性评估是一个重要的指标。设计并实现了一个基于OpenShift云计算环境的数据质量评估平台,利用Benford法则对数据的准确性进行评估。
-
关键词
云计算
数据准确性
数据质量
-
Keywords
cloud computing
data accuracy
data quality
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名感念故乡
- 3
-
-
作者
贾小彦
-
出处
《当代护士(上旬刊)》
2006年第10期46-46,共1页
-
-
关键词
故乡
怀念
生活
生命
-
分类号
I267
[文学—中国文学]
-