-
题名藏语音节标注研究
被引量:2
- 1
-
-
作者
龙从军
刘汇丹
吴健
-
机构
中国社会科学院民族学与人类学研究所
中国科学院软件研究所
-
出处
《中文信息学报》
CSCD
北大核心
2017年第4期89-93,99,共6页
-
基金
国家语委重点项目(ZDI135-17)
-
文摘
藏语的"音节"在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音节构词的规律预测复合词的词性,尤其是未登录词的词性。该文作者对藏语音节的定义进行了界定,提出音节的性质分类及标注原则,利用统计模型,在约24万音节的中小学语文教材语料库上进行实验,音节性质标注的正确率为93.520 8%。在此基础上,把音节性质标注信息用到词性标注中。实验结果表明:即使在音节性质标注存在一定错误的情况下,词性标注的正确率也提高到94.196 7%;如果在保证音节性质标注完全正确的情况下,词性标注的正确率可以提高到97.775 4%,这说明音节性质标注信息对词性标注有帮助。
-
关键词
藏语
藏语音节
音节性质标注
音节性质分类
-
Keywords
Tibetan language
Tibetan syllable
syllable tagging
syllable classification
-
分类号
TP301.2
[自动化与计算机技术—计算机系统结构]
-