摘要
青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。
For the automatic segmentation and POS tagging, this paper proposes a Tibetan word category system and a annotation scheme after a careful analysis over a large Tibetan corpus. According to the practical demands on the Tibetan corpus, the Tibetan words are first divided into several main categories according to where they are content words or function words. Then several fine granularized sub-categories are further suggested. This framework has been proved valid for the processing of a Tibetan Corpus with 10 million characters.
出处
《中文信息学报》
CSCD
北大核心
2009年第4期107-112,共6页
Journal of Chinese Information Processing
基金
国家语委资助项目(MZ115-018)
国家社会科学基金(07BYY035)
国家社会科学重点基金(05AYY001)
关键词
计算机应用
中文信息处理
语料库
藏语词语
分类体系
标记集
computer application
Chinese information processing
corpus
Tibetan phrases
category
mark gathering