-
题名藏语迪庆方言的音变类型研究
- 1
-
-
作者
取次
高定国
-
机构
西藏大学
-
出处
《四川民族学院学报》
2022年第2期84-91,共8页
-
基金
2020年青海省藏文信息处理与机器翻译重点实验项目/藏文信息处理教育部重点实验室开放课题“自然场景下乌金体藏文的检测与识别”(2020Z001)。
-
文摘
藏语迪庆方言属于藏语康方言的南路次方言。在藏语方言的不断演变中,各路方言的音韵与书面语的发音产生了很大差别。本文以藏语迪庆方言常用词汇为研究对象,运用语音学及藏文字性组织法等语言学理论知识,分析迪庆方言与藏语书面语的发音差异,从音节的声母、韵母、元音三个方面探讨藏语迪庆方言中存在的不同于书面藏语的音变现象。为今后深入了解迪庆方言的语音系统奠定理论基础,同时为当地藏文教材和藏语文的教学提供参考材料。
-
关键词
藏语
迪庆方言
音变
-
Keywords
Tibetan
Diqing dialect
tone changing
-
分类号
H214
[语言文字—少数民族语言]
-
-
题名自然场景下乌金体藏文的检测与识别
被引量:8
- 2
-
-
作者
洪松
高定国
三排才让
取次
-
机构
西藏大学信息科学与技术学院
-
出处
《计算机系统应用》
2021年第12期332-338,共7页
-
基金
西藏大学研究生高水平人才培养计划(2018-GSP-020)
青海省藏文信息处理与机器翻译重点实验室/藏文信息处理教育部重点实验室开放课题(2020Z001)。
-
文摘
自然场景乌金体藏文文本信息作为高度浓缩的高层语义信息,不仅具有较大的研究和实用价值,而且可以用于协助藏文场景文本理解领域的研究.目前针对自然场景下乌金体藏文的检测与识别的相关研究甚少,本文在人工收集的自然场景乌金体藏文图像数据集的基础上,对比了目前常见的文字检测算法在自然场景乌金体藏文上的检测性能以及在不同特征提取网络下基于序列的文字识别算法CRNN在自然场景乌金体藏文图像数据集上的识别准确率并分析了在314张真实自然场景下乌金体藏文识别出错的特殊例子.实验表明本文在文字检测阶段采用的可微分的二值化网络DBNet在测试集上具有更好的检测性能,该方法在测试集上的准确率、召回率、F1值分别达到了0.89、0.59、0.71;在文字识别阶段采用MobileNetV3 Large作为特征提取网络时,CRNN算法在测试集上的识别准确率最高,达到了0.4365.
-
关键词
自然场景
乌金体藏文
检测
识别
-
Keywords
natural scene
Wujin Tibetan script
detection
recognition
-
分类号
H214
[语言文字—少数民族语言]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文文本语料中音节错误类型统计分析
- 3
-
-
作者
取次
高定国
-
机构
西藏大学信息科学技术学院
-
出处
《中央民族大学学报(自然科学版)》
2022年第2期13-20,共8页
-
基金
2018年西藏自治区自然科学基金(XZ2018 ZR G-11)
青海省藏文信息处理与机器翻译重点实验室和藏文信息处理教育部重点实验室开放课题(2020Z001)。
-
文摘
藏文文本质量是影响藏文信息处理的重要因素,纠正藏文文本中复杂多样的音节错误是提高藏文文本质量的重要工作。本文以1.5亿多音节的真实藏文文本为统计源,并从中查找出2 333 617个错误音节(约占总语料库文本的5.6%),并根据上下文信息和藏文文法规则对错误音节进行人工纠错和分类,把藏文音节错误归为11种类型,并统计每一种错误类型的出现频度、高频错误音节等,分析错误原因,为藏文文本校对系统等软件的设计和实现提供参考。
-
关键词
藏文
语料
音节
错误类型
-
Keywords
Tibetan
corpus
syllable
error type
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名MLWS2021藏文分词评测报告
- 4
-
-
作者
高定国
杨晓龙
杨宇帆
取次
高红梅
-
机构
西藏大学信息科学技术学院
-
出处
《高原科学研究》
CSCD
2022年第1期82-89,共8页
-
基金
国家自然科学基金项目(6266038)
国家语委科研重点项目(ZDI135-118)
2021年度自治区一流课程建设项目。
-
文摘
藏文分词是藏文信息处理中关键的基础性工作,是机器翻译、智能检索、自然语言理解等智能信息处理的前提。藏文作为“少数民族语言分词技术评测MLWS2021”的一种评测语种,在MLWS2017的基础上,语料从新闻类单一语料扩展为新闻、法律、经济、小说和语言文字等多领域综合语料,训练语料和测试语料的质和量都有了较大的提升。文章介绍MLWS2021中藏文分词评测语料的构成、收集、整理情况;再分析藏文分词评测分析软件设计思想的基础上,针对测试语料的多样性,设计了“文本对比”和“藏文评测分析”软件,按需建设评测软件测试语料并测试证明了软件的正确性;最后,在不破坏评测语料的基础上,对语料进行预处理和测试,给出了参赛队不同模型的藏文分词评测结果并验证了结果的正确性。
-
关键词
MLWS2021
藏文分词
评测
-
Keywords
MLWS2021
Tibetan word segmentation
Review
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-