心电图(electrocardiogram,ECG)异常的自动检测是一个典型的多标签分类问题,训练分类器需要大量有高质量标签的样本.但心电数据集异常标签经常缺失或错误,如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题.在一个标签完整且准...心电图(electrocardiogram,ECG)异常的自动检测是一个典型的多标签分类问题,训练分类器需要大量有高质量标签的样本.但心电数据集异常标签经常缺失或错误,如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题.在一个标签完整且准确的示例数据集辅助下,提出一种基于异常特征模式(abnormality-feature pattern,AFP)的方法对弱标签心电数据进行标签清洗,以获取所有正确的异常标签.清洗分2个阶段,即基于聚类的规则构造和基于迭代的标签清洗.在第1阶段,通过狄利克雷过程混合模型(Dirichlet process mixture model,DPMM)聚类,识别每个异常标签对应的不同特征模式,进而构建异常发现规则、排除规则和1组二分类器.在第2阶段,根据发现和排除规则辨识初始相关标签集,然后根据二分类器迭代扩展相关标签并排除不相关标签.AFP方法捕捉了示例数据集和弱标签数据集的共享特征模式,既应用了人的知识,又充分利用了正确标记的标签;同时,渐进地去除错误标签和填补缺失标签,保证了标签清洗的可靠性.真实和模拟数据集上的实验证明了AFP方法的有效性.展开更多
文摘心电图(electrocardiogram,ECG)异常的自动检测是一个典型的多标签分类问题,训练分类器需要大量有高质量标签的样本.但心电数据集异常标签经常缺失或错误,如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题.在一个标签完整且准确的示例数据集辅助下,提出一种基于异常特征模式(abnormality-feature pattern,AFP)的方法对弱标签心电数据进行标签清洗,以获取所有正确的异常标签.清洗分2个阶段,即基于聚类的规则构造和基于迭代的标签清洗.在第1阶段,通过狄利克雷过程混合模型(Dirichlet process mixture model,DPMM)聚类,识别每个异常标签对应的不同特征模式,进而构建异常发现规则、排除规则和1组二分类器.在第2阶段,根据发现和排除规则辨识初始相关标签集,然后根据二分类器迭代扩展相关标签并排除不相关标签.AFP方法捕捉了示例数据集和弱标签数据集的共享特征模式,既应用了人的知识,又充分利用了正确标记的标签;同时,渐进地去除错误标签和填补缺失标签,保证了标签清洗的可靠性.真实和模拟数据集上的实验证明了AFP方法的有效性.