期刊文献+

北京大学现代汉语语料库基本加工规范(续) 被引量:18

The Basic Processing of Contemporary Chinese Corpus at Peking University SPECIFICATION
下载PDF
导出
摘要 北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。 The Institute of Computational Linguistics,Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters.In addition to word segmentation and part of speech tagging,the processing involves the tagging of proper nouns (person names,place names,organization names and so on),morpheme subcategories and the special usages of verbs and adjectives.The success of this large scale language engineering is attributed to the SPECIFICATION,which had been made beforehand and was being perfected while in use.We are hereby making an introduction to the SPECIFICATION through this publication,thus inviting the comments from all the experts and our colleagues for the improvement of it.
出处 《中文信息学报》 CSCD 北大核心 2002年第6期58-65,共8页 Journal of Chinese Information Processing
基金 国家自然基金 (6 94 830 0 3) 973项目 (G19980 30 5 0 7- 4 ) 86 3项目 (2 0 0 1AA114 0 )
关键词 北京大学 现代汉语语料库 加工规范 词语切分 词性标注 名词标注 汉字处理系统 contemporary Chinese corpus word segmentation part of speech tagging specification
  • 相关文献

参考文献6

二级参考文献26

共引文献72

同被引文献183

引证文献18

二级引证文献63

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部