为了从生物医学文献中提取丰富的实体信息及其规范化表达,提出了一种面向生物医学命名实体和规范化的多粒度特征融合方法 (multi-granularity feature fusion approach for biomedical named entity recognition and normalization, MGF...为了从生物医学文献中提取丰富的实体信息及其规范化表达,提出了一种面向生物医学命名实体和规范化的多粒度特征融合方法 (multi-granularity feature fusion approach for biomedical named entity recognition and normalization, MGFFA).通过整合字符级、词级、概念级的文本信息,显著增强了模型的学习能力.同时还包含一个用于存储和综合不同层次信息的记忆库,以实现对实体及其规范化标签间复杂关系的深入理解.通过预训练模型的配合使用, MGFFA不仅捕捉了文本的粗粒度语义表示,还细致分析了构词层面的特征,从而全面提升了对长跨度实体的识别准确率.在NCBI和NC5CDR数据集上的实验结果显示,该模型在总体上优于其他基线模型.展开更多
在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER效率较低,因此提出了基于感知器的实体边界识别算法,该算法采用随机梯度下降算法训练权重,利用token过滤器...在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER效率较低,因此提出了基于感知器的实体边界识别算法,该算法采用随机梯度下降算法训练权重,利用token过滤器、n-gram模型及实体过滤器实现生物医学命名实体边界识别。在GENIA corpus 3.02语料库上进行的实验表明,该算法可以达到71.5%的准确率和79.2%的召回率,与相关工作相比均有一定提高。另外算法相对简单,识别算法速度较快,易在生产中应用。展开更多
文摘为了从生物医学文献中提取丰富的实体信息及其规范化表达,提出了一种面向生物医学命名实体和规范化的多粒度特征融合方法 (multi-granularity feature fusion approach for biomedical named entity recognition and normalization, MGFFA).通过整合字符级、词级、概念级的文本信息,显著增强了模型的学习能力.同时还包含一个用于存储和综合不同层次信息的记忆库,以实现对实体及其规范化标签间复杂关系的深入理解.通过预训练模型的配合使用, MGFFA不仅捕捉了文本的粗粒度语义表示,还细致分析了构词层面的特征,从而全面提升了对长跨度实体的识别准确率.在NCBI和NC5CDR数据集上的实验结果显示,该模型在总体上优于其他基线模型.
文摘在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER效率较低,因此提出了基于感知器的实体边界识别算法,该算法采用随机梯度下降算法训练权重,利用token过滤器、n-gram模型及实体过滤器实现生物医学命名实体边界识别。在GENIA corpus 3.02语料库上进行的实验表明,该算法可以达到71.5%的准确率和79.2%的召回率,与相关工作相比均有一定提高。另外算法相对简单,识别算法速度较快,易在生产中应用。