-
题名非共现数据两阶段加权IB算法
- 1
-
-
作者
姬波
叶阳东
-
机构
郑州大学信息工程学院计算机科学技术系
-
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第10期2278-2282,共5页
-
基金
国家自然科学基金项目(60773048
61170223)资助
-
文摘
非共现数据是指不符合联合概率分布,而是符合一个未知函数的数据.将非共现数据转化为共现形式后可以采用熵来定量度量信息并进行聚类.但是,现有算法假设非共现数据的各个属性特征对聚类贡献均匀,没有考虑代表性属性和不相关(冗余)属性对聚类效果的不同影响.因此,本文提出一个非共现数据的两阶段加权IB算法(TSAW-sIB),在非共现数据共现转化的两个阶段,从"非共现/共现/联合"三个视角观察非共现数据,突出代表性属性,抑制冗余属性,获得更能准确反映非共现数据特征的数据表示并进行聚类.实验表明,TSAW-sIB算法优于ROCK、COOLCAT和LIMBO算法.
-
关键词
非共现数据
特征加权
两阶段
信息瓶颈方法
聚类
-
Keywords
non co-occurrence
feature weighting
two stage
information bottleneck
clustering
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名非共现数据的二元化加权转化算法
- 2
-
-
作者
姬波
叶阳东
-
机构
郑州大学信息工程学院计算机科学与技术系
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2013年第6期584-591,共8页
-
基金
国家自然科学基金资助项目(No.61170223)
-
文摘
面向范畴数据的序列化信息瓶颈算法(CD-sIB)假设数据各个属性特征对二元化转化的贡献均匀,从而影响转化效果.文中提出二元化加权转化方法来反映非共现数据的特征.该方法通过突出非共现数据的代表性属性,从抑制非代表性(冗余)属性,从而获取最佳共现表示.文中提出随机分布数据的适用性和计算方法的无监督性两个非共现加权原则,并基于加权粒度概念构造二元化加权转化算法.实验结果表明,文中算法的聚类精度优于其它算法.
-
关键词
非共现数据
特征权重
信息瓶颈
面向范畴数据的序列化信息瓶颈(CD—sIB)算法
二元化转化
-
Keywords
Non Co-occurrence Data, Feature Weighting, Information Bottleneck, Categorical Data-Sequential Information Bottleneck(CD-sIB) Algorithm, Binary Transformation
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-