期刊文献+

藏语语料库词语分类体系及标记集研究 被引量:18

Research on the Word Categories and Its Annotation Scheme for Tibetan Corpus
下载PDF
导出
摘要 青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。 For the automatic segmentation and POS tagging, this paper proposes a Tibetan word category system and a annotation scheme after a careful analysis over a large Tibetan corpus. According to the practical demands on the Tibetan corpus, the Tibetan words are first divided into several main categories according to where they are content words or function words. Then several fine granularized sub-categories are further suggested. This framework has been proved valid for the processing of a Tibetan Corpus with 10 million characters.
作者 才让加
出处 《中文信息学报》 CSCD 北大核心 2009年第4期107-112,共6页 Journal of Chinese Information Processing
基金 国家语委资助项目(MZ115-018) 国家社会科学基金(07BYY035) 国家社会科学重点基金(05AYY001)
关键词 计算机应用 中文信息处理 语料库 藏语词语 分类体系 标记集 computer application Chinese information processing corpus Tibetan phrases category mark gathering
  • 相关文献

参考文献10

  • 1吴蔚天.汉语计算语言学[M].北京:电子工业出版社,1994..
  • 2俞士汶.关于现代汉语词语的语法功能分类[J].中国计算机报,1994,(21).
  • 3俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量:126
  • 4多识.藏语语法论集[M].兰州:甘肃民族出版社,1987.
  • 5孙宏林,陆勤,俞士汶.利用遗传算法实现词类标记集的优化[J].中文信息学报,2001,15(1):19-27. 被引量:1
  • 6陈玉忠.信息处理用现代藏语词语的分类方案[C]//第十届全国少数民族语言文字处理学术研讨会论文集,2005.
  • 7青海师范大学民族部.藏汉对照简易藏文读本[M].西宁:青海民族出版社,1996.
  • 8扎西加,多拉,大罗桑朗杰,欧珠.(信息处理用藏语词类及标记集规范》的理论说明[C]//第十一届全国少数民族信息技术研讨会议论文集,2007:441-452.
  • 9多拉,扎西加,欧珠,大罗桑朗杰.信息处理用藏文词类及标记集规范(征求意见稿)[C]//第十一届全国民族语言文字信息学术研讨会论文集,2007:428-440.
  • 10周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量:35

二级参考文献11

  • 1周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量:40
  • 2孙宏林 罗振声 等.现代汉语研究语料库系统.计算机时代的汉语和汉字研究[M].北京:清华大学出版社,1996..
  • 3周强,计算机研究与运用,1993年
  • 4李子云,汉语句法规则,1992年
  • 5房玉清,实用汉语语法,1992年
  • 6吴竞存,现代汉语句法结构与分析,1992年
  • 7范晓,汉语的短语,1991年
  • 8团体著者,世界汉语教学,1989年,1期
  • 9朱德熙,语法答问,1985年
  • 10孙宏林,计算机时代的汉语和汉字研究,1996年

共引文献167

同被引文献121

引证文献18

二级引证文献95

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部