近年来,人工智能技术被广泛地应用于多个领域。其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用。然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数...近年来,人工智能技术被广泛地应用于多个领域。其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用。然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数据的数据特征和数据质量将直接影响人工智能应用的效果。相比其他智能应用领域,由于罕见病患者在人群中总是占极少数,医疗数据具有天然的非均衡的特点,而高度非均衡的数据在机器学习领域被认为是难于学习的。针对这一应用现状,文中首先围绕"数据非均衡"问题开展了文献调研,尝试通过寻找该问题的通用解决办法来指导在智慧医疗环境下的应用。之后,以数据挖掘领域的会议SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)近年来涉及非均衡数据集的工作为分析样本,统计针对特定领域的"数据非均衡"问题人们倾向选择的处理方法。最后,通过医学数据分析中的两个典型应用场景,对调研获得的知识和方法进行实验应用,从而验证了调研和统计分析中所得出方法的可用性。展开更多
文摘近年来,人工智能技术被广泛地应用于多个领域。其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用。然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数据的数据特征和数据质量将直接影响人工智能应用的效果。相比其他智能应用领域,由于罕见病患者在人群中总是占极少数,医疗数据具有天然的非均衡的特点,而高度非均衡的数据在机器学习领域被认为是难于学习的。针对这一应用现状,文中首先围绕"数据非均衡"问题开展了文献调研,尝试通过寻找该问题的通用解决办法来指导在智慧医疗环境下的应用。之后,以数据挖掘领域的会议SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)近年来涉及非均衡数据集的工作为分析样本,统计针对特定领域的"数据非均衡"问题人们倾向选择的处理方法。最后,通过医学数据分析中的两个典型应用场景,对调研获得的知识和方法进行实验应用,从而验证了调研和统计分析中所得出方法的可用性。