针对目前自动ICD(international classification of diseases)编码任务存在标签空间大、诊断代码分布不均衡与临床文本表征差的问题,提出一种融合Longformer与标签注意力的分层ICD自动编码模型。借助Clinical-Longformer预训练语言模型...针对目前自动ICD(international classification of diseases)编码任务存在标签空间大、诊断代码分布不均衡与临床文本表征差的问题,提出一种融合Longformer与标签注意力的分层ICD自动编码模型。借助Clinical-Longformer预训练语言模型获得融合长文本语境的词向量表征。通过将标签的语义表示与注意力机制相结合,捕捉临床文本中与诊断代码相关的关键特征信息,获取更精准的文本表示。引入分层联合学习机制,建立分层预测层解码输出ICD编码。实验结果表明,该模型的准确率、召回率与F1值均高于现有模型,验证了该方法进行自动ICD编码的有效性,为实施疾病诊断相关分组提供高质量的数据支撑。展开更多
文摘针对目前自动ICD(international classification of diseases)编码任务存在标签空间大、诊断代码分布不均衡与临床文本表征差的问题,提出一种融合Longformer与标签注意力的分层ICD自动编码模型。借助Clinical-Longformer预训练语言模型获得融合长文本语境的词向量表征。通过将标签的语义表示与注意力机制相结合,捕捉临床文本中与诊断代码相关的关键特征信息,获取更精准的文本表示。引入分层联合学习机制,建立分层预测层解码输出ICD编码。实验结果表明,该模型的准确率、召回率与F1值均高于现有模型,验证了该方法进行自动ICD编码的有效性,为实施疾病诊断相关分组提供高质量的数据支撑。