摘要
命名实体是自然语言处理中重要的信息元素,是正确理解文本的基础。本研究根据蒙古文命名实体的特点,采用机器词典进行命名实体的最大化匹配后引入有限状态自动机。实验表明,采用该方法对10万词级蒙古文新闻语料库进行标注后,其召回率为90.67%,准确率为92.53%,F值为91.59%,取得了较好的识别效果。
Named entities are important information elements in natural language processing and are the basis for correct understanding of text. Based on the characteristics of Mongolian named entity, this paper introduces the finite state automata with the maximization of named entities by machine dictionary. The experimental results show that the recall rate is 90. 67% , the precision is 92. 53% , the F-measure is 91. 59% , and the recognition effect is achieved on 100, 000 words of Mongolian news corpus.
出处
《中央民族大学学报(哲学社会科学版)》
CSSCI
北大核心
2017年第3期165-169,共5页
Journal of Minzu University of China(Philosophy and Social Sciences Edition)
基金
青格乐图教授主持的蒙古语言文字信息化专项扶持资金项目"蒙古文综合型语言知识库建设"(项目编号:MW-2014-MGYWXXH-01)
斯.劳格劳主持的国家自然科学基金项目"基于规则和统计的蒙古语多层级文本查错及纠错推理模型研究"(项目编号:61662050)的资助
关键词
蒙古文
命名实体
词典匹配
Mongolian
named entity
dictionary match