目的 结合不同的文本向量化方法和分类模型,评估中英文对照的X线影像学报告在分类任务中的一致性。方法 提取Medical Information Mart for Intensive Care(MIMIC)数据集中的X线影像报告并翻译为中文,使用Doc2vec、词频-逆文档频率算法...目的 结合不同的文本向量化方法和分类模型,评估中英文对照的X线影像学报告在分类任务中的一致性。方法 提取Medical Information Mart for Intensive Care(MIMIC)数据集中的X线影像报告并翻译为中文,使用Doc2vec、词频-逆文档频率算法、双向编码器表示(Bidirectional Encoder Representation from Transformers,BERT)等方法对文本进行向量化,利用随机森林、卷积神经网络(Convolutional Neural Networks,CNN)、 TextCNN、Softmax等算法和模型完成分类任务。利用一致率和Kappa值对中英文对照的影像学报告的分类结果进行一致性评价。结果 在二分类任务下,中英文版本影像学报告分类一致率可以达到0.7~0.9,Kappa值为0.3~0.7,其中BERT-Softmax模型可以得到一致率为0.922,Kappa值为0.724;在三分类任务下,中英文版本的影像学报告分类一致率可以达到0.6~0.7,Kappa值可以达到0.3~0.4;在五分类任务下,BERTSoftmax得到中英文文本分类一致率为0.744,Kappa值为0.638。结论 X线影像报告的中英文版本在分类任务中具有较高的一致性,且一致性与文本向量化方法、分类模型性能及具体分类任务有关。展开更多
文摘目的 结合不同的文本向量化方法和分类模型,评估中英文对照的X线影像学报告在分类任务中的一致性。方法 提取Medical Information Mart for Intensive Care(MIMIC)数据集中的X线影像报告并翻译为中文,使用Doc2vec、词频-逆文档频率算法、双向编码器表示(Bidirectional Encoder Representation from Transformers,BERT)等方法对文本进行向量化,利用随机森林、卷积神经网络(Convolutional Neural Networks,CNN)、 TextCNN、Softmax等算法和模型完成分类任务。利用一致率和Kappa值对中英文对照的影像学报告的分类结果进行一致性评价。结果 在二分类任务下,中英文版本影像学报告分类一致率可以达到0.7~0.9,Kappa值为0.3~0.7,其中BERT-Softmax模型可以得到一致率为0.922,Kappa值为0.724;在三分类任务下,中英文版本的影像学报告分类一致率可以达到0.6~0.7,Kappa值可以达到0.3~0.4;在五分类任务下,BERTSoftmax得到中英文文本分类一致率为0.744,Kappa值为0.638。结论 X线影像报告的中英文版本在分类任务中具有较高的一致性,且一致性与文本向量化方法、分类模型性能及具体分类任务有关。