将中医临床病历分为五大类问题,利用Transformers的双向编码器,在训练文本分类器之前,用未标注的临床语料库来微调ERNIE(Traditional Chinese Medicine-ERNIE)模型,精炼出一个针对中医知识领域的TCM-ERNIE模型,该语料库只使用临床记录...将中医临床病历分为五大类问题,利用Transformers的双向编码器,在训练文本分类器之前,用未标注的临床语料库来微调ERNIE(Traditional Chinese Medicine-ERNIE)模型,精炼出一个针对中医知识领域的TCM-ERNIE模型,该语料库只使用临床记录文本中的汉字作为输入,无须再进行预处理或特征提取.最后采用基准数据集来评估TCM-ERNIE模型和传统文本分类器,取得了89.39%±0.35%的分类精度,Macro F1为88.64%±0.40%,Micro F1为89.39%±0.35%,还采用可视化的方法来显示注意力权重,进一步揭示临床病历文本中的指标性症状.展开更多
文摘将中医临床病历分为五大类问题,利用Transformers的双向编码器,在训练文本分类器之前,用未标注的临床语料库来微调ERNIE(Traditional Chinese Medicine-ERNIE)模型,精炼出一个针对中医知识领域的TCM-ERNIE模型,该语料库只使用临床记录文本中的汉字作为输入,无须再进行预处理或特征提取.最后采用基准数据集来评估TCM-ERNIE模型和传统文本分类器,取得了89.39%±0.35%的分类精度,Macro F1为88.64%±0.40%,Micro F1为89.39%±0.35%,还采用可视化的方法来显示注意力权重,进一步揭示临床病历文本中的指标性症状.