-
题名藏文文本拼写错误类型分析
被引量:2
- 1
-
-
作者
三毛措
才智杰
才让卓玛
道吉扎西
华旦扎西
-
机构
青海师范大学计算机学院
藏文信息处理教育部重点实验室
青海省藏文信息处理与机器翻译重点实验室
西南民族大学计算机科学与技术学院
青海省海南州第五民族高级中学
藏语智能信息处理及应用国家重点实验室
-
出处
《西北民族大学学报(自然科学版)》
2022年第1期26-31,共6页
-
基金
国家自然科学基金项目(61866032)
藏文信息处理与机器翻译重点实验室(2020-ZJ-Y05)。
-
文摘
拼写错误分析是一项具有挑战性的研究课题,在文本编辑、字处理、拼写检查等诸多方面具有广阔的应用前景.藏文是一种拼音文字,其拼写错误类型包括非真字型、真字型和标点符号等.文章以藏文文法中的字、词构造规则和语义作为切入点,总结归纳了藏文文本拼写错误类型,为藏文文本拼写检查技术提供参考依据.
-
关键词
自然语言处理
藏文
拼写检查
错误类型
-
Keywords
Natural language processing
Tibetan
Spell checking
Error type
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文文本校对评测集构建
- 2
-
-
作者
才智杰
三毛措
才让卓玛
-
机构
青海师范大学计算机学院
省部共建藏语智能信息处理及应用国家重点实验室
四川省威州民族师范学校
西南民族大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2023年第11期15-22,共8页
-
基金
国家自然科学基金(61866032,61966031)
青海省科技厅资助项目(2019-SF-129)
+2 种基金
“长江学者和创新团队发展计划”创新团队资助项目(IRT1068)
青海省重点实验室项目(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03)
藏文信息处理与机器翻译重点实验室项目(2013-Y-17,2020-ZJ-Y05)。
-
文摘
文本校对评测集是拼写检查研究的基础,包括传统文本校对评测集和标准文本校对评测集。传统文本校对评测集是对正确的数据集通过主观经验人工伪造而得到的评测集,标准文本校对评测集是通过选择研究对象获取可信度强的真实数据集而得到的评测集。该文在分析英、汉文文本校对评测集构建方法的基础上,结合藏文的特点研究了藏文文本校对评测集的构建方法,构建了用于评价藏文文本校对性能的标准文本校对评测集,并统计分析了评测集中的错误类型及分布,验证了构建的标准文本校对评测集的有效性和可用性。
-
关键词
自然语言处理
藏文
文本校对
评测集
-
Keywords
natural language processing
Tibetan
text proofreading
evaluation set
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文词同现网络的构建及特征分析
被引量:1
- 3
-
-
作者
加羊东周
才智杰
才让卓玛
三毛措
-
机构
青海师范大学计算机学院
西南民族大学计算机科学与技术学院
藏文信息处理教育部重点实验室
青海省藏文信息处理与机器翻译重点实验室
-
出处
《高原科学研究》
CSCD
2020年第3期111-116,共6页
-
基金
国家自然科学基金项目(61866032,61966031)
青海省科技厅资助项目(2019-SF-129)
+2 种基金
“长江学者和创新团队发展计划”创新团队资助项目(IRT1068)
青海省重点实验室项目(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03)
藏文信息处理与机器翻译重点实验室(2013-Y-17)。
-
文摘
语言同现网络用复杂网络技术对语言进行研究,揭示语言的内部结构。文章收集和整理了6个不同载体的藏语语料,包括诗歌、散文、政治、佛教、教材及口语共计64篇文章,在此基础上构建了藏文词同现网络,并从最短路径、聚类系数、度分布等方面分析了藏文词同现网络的统计特征,实验表明藏文词同现网络具有小世界效应和无标度特性。
-
关键词
同现网络
藏文词
小世界效应
无标度特性
-
Keywords
Co-occurrence network
Tibetan words
small world effect
scale-free features
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-