利用自然语言处理技术从生物医学文本中抽取药物治疗、疾病诊断等事件以及事件中涉及的疾病、药物等实体,对于生物医学领域相关学术研究以及各类生物医学应用系统具有重要意义。针对生物医学文本中的缩略词及专业术语难以识别和生物医...利用自然语言处理技术从生物医学文本中抽取药物治疗、疾病诊断等事件以及事件中涉及的疾病、药物等实体,对于生物医学领域相关学术研究以及各类生物医学应用系统具有重要意义。针对生物医学文本中的缩略词及专业术语难以识别和生物医学语义关系难以嵌入的问题,提出了一种融合外部知识和图卷积神经网络的生物医学信息联合识别模型。图卷积神经网络构建了包含实体和语义关系的异构图,能够迭代地融合本地知识图和外部知识图中的交互信息,根据得到的交互信息来进行生物医学实体对之间关系的抽取任务。预训练编码后利用图卷积神经网络构建本地和外部知识两个知识图,获得两个图中每个节点的特征表示,并且通过注意力实体链接的方法将两个图进行融合与信息迭代,进而抽取其最后一层隐藏层来完成最终的分类识别。其中统一医学语言系统(unified medical language system,UMLS)被用作实体消歧的外部知识库,实体链接器根据注意力权重选择对应实体。通过在MLEE语料库上进行的实验表明,联合任务能够实现事件抽取和触发词、元素识别的综合性能。展开更多
在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER效率较低,因此提出了基于感知器的实体边界识别算法,该算法采用随机梯度下降算法训练权重,利用token过滤器...在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER效率较低,因此提出了基于感知器的实体边界识别算法,该算法采用随机梯度下降算法训练权重,利用token过滤器、n-gram模型及实体过滤器实现生物医学命名实体边界识别。在GENIA corpus 3.02语料库上进行的实验表明,该算法可以达到71.5%的准确率和79.2%的召回率,与相关工作相比均有一定提高。另外算法相对简单,识别算法速度较快,易在生产中应用。展开更多
文摘利用自然语言处理技术从生物医学文本中抽取药物治疗、疾病诊断等事件以及事件中涉及的疾病、药物等实体,对于生物医学领域相关学术研究以及各类生物医学应用系统具有重要意义。针对生物医学文本中的缩略词及专业术语难以识别和生物医学语义关系难以嵌入的问题,提出了一种融合外部知识和图卷积神经网络的生物医学信息联合识别模型。图卷积神经网络构建了包含实体和语义关系的异构图,能够迭代地融合本地知识图和外部知识图中的交互信息,根据得到的交互信息来进行生物医学实体对之间关系的抽取任务。预训练编码后利用图卷积神经网络构建本地和外部知识两个知识图,获得两个图中每个节点的特征表示,并且通过注意力实体链接的方法将两个图进行融合与信息迭代,进而抽取其最后一层隐藏层来完成最终的分类识别。其中统一医学语言系统(unified medical language system,UMLS)被用作实体消歧的外部知识库,实体链接器根据注意力权重选择对应实体。通过在MLEE语料库上进行的实验表明,联合任务能够实现事件抽取和触发词、元素识别的综合性能。
文摘在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER效率较低,因此提出了基于感知器的实体边界识别算法,该算法采用随机梯度下降算法训练权重,利用token过滤器、n-gram模型及实体过滤器实现生物医学命名实体边界识别。在GENIA corpus 3.02语料库上进行的实验表明,该算法可以达到71.5%的准确率和79.2%的召回率,与相关工作相比均有一定提高。另外算法相对简单,识别算法速度较快,易在生产中应用。