近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检...近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检测的策略来为K-prototype算法选择初始中心,并提出一种新的混合型数据聚类初始化算法(initialization of K-prototype clustering based on outlier detection and density,IKP-ODD)。给定一个候选对象,IKP-ODD通过计算其距离离群因子、加权密度以及与已有初始中心之间的加权距离来判断候选对象是否是一个初始中心。IKP-ODD通过采用距离离群因子和加权密度,防止选择离群点作为初始中心。在计算对象的加权密度以及对象之间的加权距离时,采用邻域粗糙集中的粒度邻域熵来计算每一个属性的重要性,并根据属性重要性的大小为不同属性赋予不同的权重,有效地反映不同属性之间的差异性。在多个UCI数据集上的实验表明,相对于现有的初始化方法,IKP-ODD能够更好地解决K-prototype聚类的初始化问题。展开更多
基于沂蒙山区祊河流域不同土地利用方式下土壤理化性质分析,采用主成分分析法(principal component analysis,PCA)建立最小数据集(minimum data set,MDS),利用土壤质量指数(soil quality index,SQI)研究了该区不同土地利用方式下的土壤...基于沂蒙山区祊河流域不同土地利用方式下土壤理化性质分析,采用主成分分析法(principal component analysis,PCA)建立最小数据集(minimum data set,MDS),利用土壤质量指数(soil quality index,SQI)研究了该区不同土地利用方式下的土壤质量状况。结果表明:(1)不同土地利用方式下土壤物理性质变化明显。林地的土壤容重最小,砂粒含量最少,黏粒含量最多,土壤含水量较高,而园地正好相反;耕地土壤容重较大,砂粒和黏粒含量都较少,土壤含水量最高,而草地正好相反。(2)不同土地利用方式下土壤化学性质差异显著。土壤pH值由大到小依次为草地、林地、耕地、园地;林地和草地的土壤有机质、全氮、碱解氮和全钾含量均较高,而速效磷含量均较低;林地的土壤全磷含量最低而速效钾含量最高,草地正好相反;耕地和园地的土壤有机质、全氮、碱解氮和全钾含量均较低,而全磷、速效磷含量较高,耕地的速效钾含量较高而园地的最低;研究区域耕地和园地的土壤有机质、全氮和速效钾含量处于相对缺乏状态。(3)不同土地利用方式的土壤质量指数为SQI_(林地)(0.64)>SQI_(草地)(0.51)>SQI_(耕地)(0.35)>SQI_(园地)(0.23),土壤全氮含量是限制研究区域耕地、园地土壤质量的关键因素。(4)由土壤容重、砂粒含量、全氮含量构成的最小数据集(MDS)能够替代全量数据集(total data set,TDS)评价研究区域土壤质量。展开更多
Large quantities of data are accumulated in process planning for body in white (BIW). To acquire thepotential and valuable process knowledge from these data, the rough set theory and association rule technique arein...Large quantities of data are accumulated in process planning for body in white (BIW). To acquire thepotential and valuable process knowledge from these data, the rough set theory and association rule technique areintegrated to discover the useful correlations between the welding type and process requirements. The correlationscan guide us to select the welding type according to the given process requirements. During data mining, everyprocess requirement is regarded as an attribute. First, the decision table for the welding type is constructed. Sec-ond, rough set theory is employed to remove redundant attributes. A simplified decision table is constructed.Third, association rule is used to extract the useful rules. Finally, an illustrative example indicates this methodol-ogy can extract useful rules for the selection of welding type.展开更多
文摘近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检测的策略来为K-prototype算法选择初始中心,并提出一种新的混合型数据聚类初始化算法(initialization of K-prototype clustering based on outlier detection and density,IKP-ODD)。给定一个候选对象,IKP-ODD通过计算其距离离群因子、加权密度以及与已有初始中心之间的加权距离来判断候选对象是否是一个初始中心。IKP-ODD通过采用距离离群因子和加权密度,防止选择离群点作为初始中心。在计算对象的加权密度以及对象之间的加权距离时,采用邻域粗糙集中的粒度邻域熵来计算每一个属性的重要性,并根据属性重要性的大小为不同属性赋予不同的权重,有效地反映不同属性之间的差异性。在多个UCI数据集上的实验表明,相对于现有的初始化方法,IKP-ODD能够更好地解决K-prototype聚类的初始化问题。
文摘基于沂蒙山区祊河流域不同土地利用方式下土壤理化性质分析,采用主成分分析法(principal component analysis,PCA)建立最小数据集(minimum data set,MDS),利用土壤质量指数(soil quality index,SQI)研究了该区不同土地利用方式下的土壤质量状况。结果表明:(1)不同土地利用方式下土壤物理性质变化明显。林地的土壤容重最小,砂粒含量最少,黏粒含量最多,土壤含水量较高,而园地正好相反;耕地土壤容重较大,砂粒和黏粒含量都较少,土壤含水量最高,而草地正好相反。(2)不同土地利用方式下土壤化学性质差异显著。土壤pH值由大到小依次为草地、林地、耕地、园地;林地和草地的土壤有机质、全氮、碱解氮和全钾含量均较高,而速效磷含量均较低;林地的土壤全磷含量最低而速效钾含量最高,草地正好相反;耕地和园地的土壤有机质、全氮、碱解氮和全钾含量均较低,而全磷、速效磷含量较高,耕地的速效钾含量较高而园地的最低;研究区域耕地和园地的土壤有机质、全氮和速效钾含量处于相对缺乏状态。(3)不同土地利用方式的土壤质量指数为SQI_(林地)(0.64)>SQI_(草地)(0.51)>SQI_(耕地)(0.35)>SQI_(园地)(0.23),土壤全氮含量是限制研究区域耕地、园地土壤质量的关键因素。(4)由土壤容重、砂粒含量、全氮含量构成的最小数据集(MDS)能够替代全量数据集(total data set,TDS)评价研究区域土壤质量。
基金support by Xinjiang special major project of science and technology [201130110]Xinjiang University doctor initial foundation [BS130119]
文摘Large quantities of data are accumulated in process planning for body in white (BIW). To acquire thepotential and valuable process knowledge from these data, the rough set theory and association rule technique areintegrated to discover the useful correlations between the welding type and process requirements. The correlationscan guide us to select the welding type according to the given process requirements. During data mining, everyprocess requirement is regarded as an attribute. First, the decision table for the welding type is constructed. Sec-ond, rough set theory is employed to remove redundant attributes. A simplified decision table is constructed.Third, association rule is used to extract the useful rules. Finally, an illustrative example indicates this methodol-ogy can extract useful rules for the selection of welding type.