期刊文献+

中文分词中未登录词分布规律及处理方法研究 被引量:2

下载PDF
导出
摘要 本文以较大规模汉语语料库为基础,对中文分词中的未登录词分布规律进行考察,提出了词增长代价、语料效率等评价指标,借此来定量考察语料规模与未登录词之间的内在关系。调查结果显示,随着语料规模的不断扩大,未登录词的覆盖率也随之增大,但同时词增长代价也越来越大,而新增未登录词的词例数占新增总词例数的比例始终保持在一个较低水平,造成语料效率较低。基于该调查结果,提出针对"伪未登录词"使用定向收集语料的方法来扩充训练集,从而在不过分扩大语料规模的前提下,更有针对性地为未登录词识别提供语言知识,提高分词的准确率和领域适应性。本文在SIGHAN组织的第二届中文分词评测语料上进行实验,结果显示该方法能够有效提高分词准确率。
作者 邢富坤
出处 《解放军外国语学院学报》 CSSCI 北大核心 2013年第5期27-32,共6页 Journal of PLA University of Foreign Languages
  • 相关文献

参考文献5

二级参考文献37

共引文献528

同被引文献16

  • 1李文中,濮建忠.语料库索引在外语教学中的应用[J].解放军外国语学院学报,2001,24(2):20-25. 被引量:143
  • 2刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量:67
  • 3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量:249
  • 4黄建传,宋柔.标点句标注研究[C]//孙茂松,陈群秀.内容计算的研究与应用前沿--第九届全国计算语言学学术会议论文集.大连,2007:359-364.
  • 5Garside, R. The robust tagging of unrestricted text: The BNC experience [C] //J. Thomas & M. Short. Using Corpora for Language Research : Studies in the Honour of Geoffrey Leech. London: The Longman Press, 1996: 167-180.
  • 6Garside, R. & N. Smith. A hybrid grammatical tagger: CLAWS4 [C] //R. Garside, G. Leech & A. McEnery. Corpus Annotation : Linguistic Information from Computer Text Corpora. London: The Longman Press, 1997: 102-121.
  • 7Ide, N. & L. Romary. International standard for a linguistic annotation framework [J]. Journal of Natural Lan- guage Engineering, 2004, 10 (3) : 211-225.
  • 8Kuebler, S. & H. Zinsmeister. Corpus Linguistics and Linguistically Annotated Corpora [M]. London : Looms- bury Academic, 2015.
  • 9Leech, G., R. Garside & M. Bryant. CLAWS4 : The tagging of the British National Corpus [C] //Proceedings of the 15^th International Conference on Computational Linguistics (COLING 94), Kyoto, Japan, 1994: 622- 628.
  • 10Liddy, L. & E. Hovy. Natural Language Processing [EB/OL]. (2007-04-04) [2014-12-20]. http: // www. itl. nist. gov/iaui/894. 02/minds. html.

引证文献2

二级引证文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部