-
题名藏语语料库加工方法研究
被引量:13
- 1
-
-
作者
才让加
-
机构
青海师范大学藏文信息研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第6期138-139,146,共3页
-
基金
国家语委基金(No.MZ115-018)
国家社会科学基金(No.07BYY035)
+1 种基金
国家社会科学重点基金(No.05AYY001)
973计划前期研究专项(No.2010CB334708)
-
文摘
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。
-
关键词
藏语语料库
规范
词类
标记集
词典
分词标注
-
Keywords
Tibetan corpus
norms
lexicon
mark sets
dictionary
participle labeling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语语料库管理系统中读写数据粒度问题的研究
- 2
-
-
作者
力毛措
-
机构
青海省藏文信息研究中心
青海师范大学计算机学院
-
出处
《青海师范大学学报(自然科学版)》
2012年第2期26-29,共4页
-
基金
973计划前期研究专项(2010CB334708)
国家自然科学基金项目
项目批准号:61063033
-
文摘
应用体系的执行效率、访问速度、服务器的负荷、数据处理的安全性、读写数据的粒度是影响系统性能的主要因素.本文在分析藏语语料库应用体系的基础上对藏语语料库管理系统中读写数据的粒度问题进行了探讨,并采用值对象解决了用户通过大量细粒度的调用读取数据时造成的系统性能下降的问题,从而在一定程度上提高了藏语语料库管理系统的性能.
-
关键词
数据粒度
值对象
藏语语料库(TLDBMS)
-
Keywords
data granularity
value object
Tibetan language data base materials system(TLDBMS)
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名面向语音合成的藏语单音素与三音素自动切分算法研究
被引量:4
- 3
-
-
作者
张金溪
李永宏
单广荣
李照耀
江静
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
西北民族大学数学与计算机科学学院
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第11期3272-3275,共4页
-
基金
国家自然科学基金资助项目(61262052)
西北民族大学中央高校基本科研业务费专项项目(ycx12024)
-
文摘
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。
-
关键词
语音合成
藏语语料库
单音素
三音素
自动切分
-
Keywords
speech synthesis Tibetan corpus monophonic prime triphone automatic segmentation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名班智达藏文标注词典设计
被引量:15
- 4
-
-
作者
才智杰
才让卓玛
-
机构
青海师范大学藏文信息研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2010年第5期46-49,共4页
-
基金
国家语委资助项目(MZ05-118)
国家社会科学基金资助项目(07BYY035
09XYY024)
-
文摘
语料库加工是一项庞大的语言工程,其中分词标注是最基础性的工作,而分词标注词典是标注系统的重要组成,词典设计的优劣直接关系着分词标注的速度和效率。在设计国家语委项目《班智达藏文自动标注系统》的基础上,给出了分词标注词典库的结构及词典库索引查询算法。对85万字节藏语实验语料的分词和标注,分词准确率达99%,标注准确率达97%。
-
关键词
藏语语料库
分词
标注
词典
索引
-
Keywords
corpus of Tibetan
segmentation
tagging
dictionory
index
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-