-
题名中文医疗文本中的嵌套实体识别方法
被引量:2
- 1
-
-
作者
闫璟辉
宗成庆
徐金安
-
机构
北京交通大学计算机与信息工程学院
模式识别国家重点研究室(中国科学院自动化研究所)
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第6期2923-2935,共13页
-
文摘
实体识别是信息抽取的关键技术.相较于普通文本,中文医疗文本的实体识别任务往往面对大量的嵌套实体.以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法,为此,提出一种融合实体嵌套规则的中文实体识别方法.所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务,在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤,从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律.在公开的医疗文本实体识别的实验上取得良好的效果.数据集上的实验表明,所提方法在嵌套类型实体识别性能上显著优于已有的方法,在整体准确率方面比最先进的方法提高0.5%.
-
关键词
实体识别
中文文本
医疗领域
嵌套实体识别
边界识别
-
Keywords
entity recognition
Chinese text
medical field
nested entity recognition
boundary detection
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名深度生成式模型在临床术语标准化中的应用
被引量:2
- 2
-
-
作者
闫璟辉
向露
周玉
孙建
陈思
薛晨
-
机构
北京交通大学计算机与信息技术学院
中国科学院自动化研究所
北京中科凡语科技有限公司
凡语AI研究院
中国科学院大学人工智能学院
-
出处
《中文信息学报》
CSCD
北大核心
2021年第5期77-85,共9页
-
文摘
临床术语标准化任务是医学统计中不可或缺的一部分。在实际应用中,一个标准的临床术语可能有数种口语化和非标准化的描述,而对于一些应用例如临床知识库的构建而言,如何将这些描述进行标准化是必须要面对的问题。该文主要关注中文临床术语的标准化任务,即将非标准的中文临床术语的描述文本和给定的临床术语库中的标准词进行对应。尽管一些深度判别式模型在简单文本结构的医疗术语,例如,疾病、药品名等的标准化任务上取得了一定成效,但对于中文临床术语标准化任务而言,其带标准化的描述文本中经常包含的信息缺失、"一对多"等情况,仅依靠判别式模型无法得到完整的语义信息,因而导致模型效果欠佳。该文将临床术语标准化任务类比为翻译任务,引入深度生成式模型对描述文本的核心语义进行生成并得到标准词候选集,再利用基于BERT的语义相似度算法对候选集进行重排序得到最终标准词。该方法在第五届中国健康信息处理会议(CHIP2019)评测数据中进行了实验并取得了很好的效果。
-
关键词
术语标准化
核心语义
生成式模型
-
Keywords
entity normalization
core semantics
generative model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-