提出一种数据挖掘方法 MMHC来求解DNA序列模体。首先使用基于种子的错配聚类形成候选模体类,然后使用基于相对熵及聚类复杂度的深度优先判定(depth first determination,DFD)算法识别真正的模体类,最后使用保守区扫描法(conservation re...提出一种数据挖掘方法 MMHC来求解DNA序列模体。首先使用基于种子的错配聚类形成候选模体类,然后使用基于相对熵及聚类复杂度的深度优先判定(depth first determination,DFD)算法识别真正的模体类,最后使用保守区扫描法(conservation region scanning,CRS)及最大后验概率保值过滤法(MAP value-preservation filtering,MVPF)优化模体类。在两类DNA序列数据集上,将MMHC与三种经典的模体发现方法 MEME、AlignACE和SOMBRERO进行了对比试验。结果表明:对于大多数数据集,MMHC方法无论是在发现模体的可靠性及准确性方面,还是在反映背景种类的聚类结构方面,都明显优于三种经典的模体发现方法。展开更多
文摘提出一种数据挖掘方法 MMHC来求解DNA序列模体。首先使用基于种子的错配聚类形成候选模体类,然后使用基于相对熵及聚类复杂度的深度优先判定(depth first determination,DFD)算法识别真正的模体类,最后使用保守区扫描法(conservation region scanning,CRS)及最大后验概率保值过滤法(MAP value-preservation filtering,MVPF)优化模体类。在两类DNA序列数据集上,将MMHC与三种经典的模体发现方法 MEME、AlignACE和SOMBRERO进行了对比试验。结果表明:对于大多数数据集,MMHC方法无论是在发现模体的可靠性及准确性方面,还是在反映背景种类的聚类结构方面,都明显优于三种经典的模体发现方法。