期刊文献+

双语平行语料的预处理 被引量:1

Pre-processing of Bilingual Parallel Texts
原文传递
导出
摘要 本文分析和讨论了双语平行语料库建设中的纯文本化、分词处理和文本对齐三个步骤,并认为它们是双语平行语料的预处理过程。探讨了各个步骤之间的关系以及各个步骤目前发展现状和存在的问题,对我国现已建成的汉英双语语料库也作了剖析说明。 The paper focuses on the three procedures of text-formatting,word segmentation and sentence alignment in the building of bilingual parallel corpus,and regards these three procedures as the pro-procession of bilingual parallel corpora. It explores the relationship between the procedures and points out their present status and difficulties respectively in the NLP project. It also introduces the exited bilingual parallel corpus in our country.
出处 《外语教育》 2007年第1期145-149,共5页 Foreign Language Education
关键词 平行语料 预处理 纯文本化 分词处理 文本对齐 parallel corpora pre-processing text-formatting word segmentation sentence alignment
  • 相关文献

参考文献1

二级参考文献3

  • 1[6]Christopher D. Manning, Hinrich Schütze. Foundations of Statistical Natural Language Processing. London: The MIT Press. 1999.
  • 2梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
  • 3孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法[J].清华大学学报(自然科学版),1999,39(5):101-103. 被引量:22

共引文献6

同被引文献6

引证文献1

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部