文摘针对数据对象自身模式特征明确程度的不同给IB(Information Bottleneck)方法数据分析带来的问题,定义一个"基于明确因素"的数据选择模型,使得IB方法可从数据集中选取模式特征较为明确的数据对象并对其进行模式分析,提出DSIB(Data Selection Information Bottleneck)算法.DSIB算法采用数据压缩过程中所产生的信息损失作为数据对象模式特征是否明确的判定条件,使用"边选择边学习"的顺序"抽取-合并"策略来优化DSIB目标函数.实验结果表明:随着数据选择标准的不断提高,DSIB算法在提高数据分析精度的同时所牺牲的召回率较小;与未做选择的数据分析算法相比,DSIB算法可更好地识别出数据中所固有的内在模式.