由于没有完整可用的指标同义词库以进行指标映射,各家医院关于同一检验检查指标的不同称谓,已严重影响到了区域间医疗信息的互联共享,因而需要对检验检查指标进行标准化处理.这可以看作是一个实体对齐问题,但指标只有相应的取值和取值范...由于没有完整可用的指标同义词库以进行指标映射,各家医院关于同一检验检查指标的不同称谓,已严重影响到了区域间医疗信息的互联共享,因而需要对检验检查指标进行标准化处理.这可以看作是一个实体对齐问题,但指标只有相应的取值和取值范围,难以像知识库实例匹配那般使用到属性信息,也不似实体链接那般拥有上下文信息,而且不存在一个标准知识库来提供所有指标的标准名称.针对以上问题,提出指标标准化算法,先根据指标字面特征进行聚类,再使用相似度特征和分块打分特征迭代地进行二分类映射.实验表明,最终的二分类映射,其 F 1-score可以达到85.27%,证明了该方法的有效性.展开更多
文摘由于没有完整可用的指标同义词库以进行指标映射,各家医院关于同一检验检查指标的不同称谓,已严重影响到了区域间医疗信息的互联共享,因而需要对检验检查指标进行标准化处理.这可以看作是一个实体对齐问题,但指标只有相应的取值和取值范围,难以像知识库实例匹配那般使用到属性信息,也不似实体链接那般拥有上下文信息,而且不存在一个标准知识库来提供所有指标的标准名称.针对以上问题,提出指标标准化算法,先根据指标字面特征进行聚类,再使用相似度特征和分块打分特征迭代地进行二分类映射.实验表明,最终的二分类映射,其 F 1-score可以达到85.27%,证明了该方法的有效性.