期刊文献+

边界模板和局部统计相结合的中国人名识别 被引量:13

Chinese Name Recognition Based on Boundary Templates and Local Frequency
下载PDF
导出
摘要 本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。 In this paper an effective algorithm for Chinese person name recognition is proposed. Person name's left and right boundary words and person name's character frequency are extracted from tagged corpus, which will be used as the knowledge for recognition. First we use these boundary templates to find possible person names. Then these recognized person names are used to match the missed occurrence in the text. At last, the local frequency obtained from the whole text is used to check and correct the name boundaries. The time complexity of this algorithm is linear, and the test result on 1,354 news articles ( with 3.04 million Chinese characters and 37,014 Chinese names in all) gives the precision of 94.52% and the recall of 98.97% , which is fairly satisfying in comparison with other published algorithms.
作者 李中国 刘颖
出处 《中文信息学报》 CSCD 北大核心 2006年第5期44-50,共7页 Journal of Chinese Information Processing
基金 清华大学亚洲研究中心2005年度青年项目资助(2005C-2)
关键词 计算机应用 中文信息处理 人名识别 命名实体识别 边界模板 局部统计量 词法分析 computer application Chinese information processing person name recognition named entity recognition boundary template local frequency lexical analysis
  • 相关文献

参考文献10

二级参考文献87

共引文献358

同被引文献165

引证文献13

二级引证文献110

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部