-
题名面向小学藏语文课程知识问答语料库的构建和设计
- 1
-
-
作者
切羊卓玛
石海强
更太加
魏建国
-
机构
青海民族大学人工智能应用技术国家民委重点实验室
青海省河南蒙古族自治县民族中学
“两弹一星”理想信念教育学院
天津大学智能与计算学部
-
出处
《青海科技》
2023年第4期164-174,共11页
-
基金
国家自然科学基金项目(62261045)
青海省重点研发与转化计划(2022-QY-218)
创新项目“面向小学藏语文课程的智能问答语料库构建”(09M2022001)。
-
文摘
随着人工智能的发展,智能问答系统逐渐成为研究的热点,得到了越来越多研究者的关注。藏文问答系统不同于中英文等主流语种的问答系统,没有大量的结构化数据以支撑问答系统丰富全面的知识库引擎。本研究通过着力于面向小学藏语文课本数据领域的问答数据资源,通过规则筛选、人工校正、问句意图及相似度标注,构建了一个高质量的藏文问答数据集。经自动评价和实验验证,该数据集的问句和答复句具有较好的知识关联度,采用三分制的人工评价结果显示98%的数据样本符合小学生认知和藏文文语法规则,且问答对句子流畅、问题与答案相关性较高。通过Bert融合提取词和不融合提取词进行了意图分类和tf-idf+Bert相似度计算,分类结果准确率分别在75%和76%,相似度准确率在76%,这也验证了所构建面向小学藏语文课程知识问答语料库的有效性。
-
关键词
小学藏语文课程
智能问答
语义关联
问答语料库
意图分类
-
Keywords
Elementary Tibetan language curriculum
Intelligent quizzing
Semantic association
QA corpus
Intent categorization
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语口语语音语料库的设计与研究
被引量:8
- 2
-
-
作者
黄晓辉
李京
马睿
-
机构
中国科学技术大学计算机科学与技术学院
解放军外国语学院工程系
中央民族大学藏学研究院
-
出处
《计算机工程与应用》
CSCD
北大核心
2018年第13期231-235,共5页
-
基金
国家重点研发计划项目(No.2016YFB0201402)
-
文摘
基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。
-
关键词
语音语料库
口语语音
语音识别
标注规范
藏语拉萨话
-
Keywords
speech corpus
spoken speech
speech recognition
annotation standard
Tibetan Lhasa words
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语语料库TEI标记规范探讨
被引量:4
- 3
-
-
作者
扎西加
高定国
-
机构
西藏大学工学院计算机科学系
西藏大学藏文信息技术研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2011年第4期66-70,81,共6页
-
基金
国家自然科学基金资助项目(61063015)
教育部人文社科基金青年项目(10YJCZH033)
-
文摘
在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。
-
关键词
藏语
语料库
TEI标记
-
Keywords
Tibetan
corpus
TEI mark
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语语料库加工方法研究
被引量:13
- 4
-
-
作者
才让加
-
机构
青海师范大学藏文信息研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第6期138-139,146,共3页
-
基金
国家语委基金(No.MZ115-018)
国家社会科学基金(No.07BYY035)
+1 种基金
国家社会科学重点基金(No.05AYY001)
973计划前期研究专项(No.2010CB334708)
-
文摘
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。
-
关键词
藏语语料库
规范
词类
标记集
词典
分词标注
-
Keywords
Tibetan corpus
norms
lexicon
mark sets
dictionary
participle labeling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语料库的藏语高频词抽取研究
被引量:3
- 5
-
-
作者
才让卓玛
才智杰
-
机构
青海师范大学藏文信息处理省部共建教育部重点实验室
-
出处
《计算机工程》
CAS
CSCD
2012年第15期56-58,共3页
-
基金
国家自然科学基金资助项目(61163018)
国家"973"计划前期研究专项基金资助项目(2010CB334708)
+4 种基金
国家社会科学基金资助项目(09XYY024)
青海省科技厅应用基础研究计划基金资助项目(2011-Z-755
2011-Z-753)
青海师范大学科研创新计划基金资助项目
青海师范大学中青年科研基金资助项目
-
文摘
在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。
-
关键词
信息处理
高频词
藏语抽词
自动分词
语料库
预处理
-
Keywords
information processing
high-frequency words
Tibetan words extraction
automatic words segmentation
corpus
preprocessing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语语料库的词性分类方法研究
被引量:5
- 6
-
-
作者
才让加
吉太加
-
机构
青海师范大学民族师范学院
-
出处
《青海师范大学学报(哲学社会科学版)》
2005年第4期112-114,共3页
-
基金
国家语委资助项目<藏语语料库切分规范及辅助工具研究>(MZ115-018)
-
文摘
本文根据藏语语料库建设的实际需求,提出了一个基于语料库的藏语词类标注和分类方法,以其为藏语语料库建设提供一个可供参考的标准和方法。
-
关键词
藏语
语料库
词类
语法信息
标注
-
Keywords
Tibetan language
repertoire
parts of speech
grammar information
sign
-
分类号
H214
[语言文字—少数民族语言]
-
-
题名藏语语料库词语分类体系及标记集研究
被引量:18
- 7
-
-
作者
才让加
-
机构
青海师范大学藏文信息处理与机器翻译省级重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2009年第4期107-112,共6页
-
基金
国家语委资助项目(MZ115-018)
国家社会科学基金(07BYY035)
国家社会科学重点基金(05AYY001)
-
文摘
青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。
-
关键词
计算机应用
中文信息处理
语料库
藏语词语
分类体系
标记集
-
Keywords
computer application
Chinese information processing
corpus
Tibetan phrases
category
mark gathering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名大型藏语平衡语料库建设中样本类别号的研究
被引量:1
- 8
-
-
作者
高定国
索郎桑姆
-
机构
西藏大学工学院
-
出处
《西藏大学学报(社会科学版)》
CSSCI
2013年第4期54-58,共5页
-
基金
2011年度国家自然科学基金项目"基于虚词的藏语基本句型的形式化研究"(项目号:61063015)
2011年度国家自然科学基金项目"藏语依存树库的构建"(项目号:61163043)
+1 种基金
2005年度年度国家语委项目"大型藏文基础语料库建设"(项目号:MZ115-039)
2011年度西藏自治区科技计划项目"基于语料库的藏语词汇计量研究"阶段性成果
-
文摘
藏文语料库是计算机研究藏语规律的素材,建设藏语语料库是藏文信息处理研究的基础和前提。语料库建设中样本的类别号是识别样本类别的依据,也是关联藏文语料信息库、样本文档和使用者的纽带,在语料库建设中非常重要。文章结合藏语平衡语料库的建设,设计了藏文语料数据库,划分了藏文语料库的类别并设计实现了样本类别号的产生方法。
-
关键词
藏语
语料库
样本
类别号
-
Keywords
Tibetan language
corpus
samples
type number
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于藏语语料库的词类分类方法研究
被引量:5
- 9
-
-
作者
才让加
吉太加
-
机构
青海师范大学
-
出处
《西北民族大学学报(自然科学版)》
2005年第2期39-42,共4页
-
文摘
根据藏语语料库建设的实际需求,提出一个基于语料库的藏语词类标注和分类方法,以便为藏语语料库建设提供一个可供参考的标准和方法.
-
关键词
藏语
语料库
词类
语法信息
标注
-
Keywords
Tibetan language
repertoire
speech
grammar information
sign
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语料库的藏语名词分类与统计研究
被引量:3
- 10
-
-
作者
祁坤钰
-
机构
西北民族大学中国民族信息技术研究院
-
出处
《西北民族大学学报(自然科学版)》
2012年第3期44-49,共6页
-
基金
教育部国家民委重点实验室2012年开放课题(JYBX2012-4)
中央高校科研项目(zyz2012101)
-
文摘
在藏文信息处理领域,大量的应用研究都离不开词汇知识库.高质量的词汇知识库构建已经成为当前语言信息处理的基础课题之一.文章在大规模藏语语料库的支持下,对藏语名词做了较为详实的分类统计研究,分析了藏语名词词类内部的差异,尤其是对辞藻词、人名、地名和机构名称做了分类描述,为专有名词的识别建立了高质量的训练词表.
-
关键词
语料库
藏语名词
统计研究
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语拉萨话语音合成语料库的研究与建立
被引量:3
- 11
-
-
作者
陈小莹
-
机构
西藏民族学院信息工程学院
-
出处
《科技信息》
2013年第9期13-14,共2页
-
基金
西藏民族学院校内项目阶段性成果
项目名称<藏语方言的孤立词识别技术研究>
项目编号11myZ05
-
文摘
藏语语音合成语料库的好坏对合成语音质量有很大的影响。本文介绍了藏语拉萨话语音合成语料库的设计过程,语料的设计考虑了内容上和语义上的完整性,利用Greed算法实现对语料的选取,同时严格按照标准的录音过程对语料进行录制,最后设计了一套韵律标注规则对语料库中的语音数据进行了音段特征和超音段特征的标注,基本完成了藏语拉萨话语音合成语料库的建立。
-
关键词
藏语语音
语音合成
语料库
-
分类号
H0
[语言文字—语言学]
-
-
题名藏语语料库管理系统中读写数据粒度问题的研究
- 12
-
-
作者
力毛措
-
机构
青海省藏文信息研究中心
青海师范大学计算机学院
-
出处
《青海师范大学学报(自然科学版)》
2012年第2期26-29,共4页
-
基金
973计划前期研究专项(2010CB334708)
国家自然科学基金项目
项目批准号:61063033
-
文摘
应用体系的执行效率、访问速度、服务器的负荷、数据处理的安全性、读写数据的粒度是影响系统性能的主要因素.本文在分析藏语语料库应用体系的基础上对藏语语料库管理系统中读写数据的粒度问题进行了探讨,并采用值对象解决了用户通过大量细粒度的调用读取数据时造成的系统性能下降的问题,从而在一定程度上提高了藏语语料库管理系统的性能.
-
关键词
数据粒度
值对象
藏语语料库(tldbms)
-
Keywords
data granularity
value object
Tibetan language data base materials system(tldbms)
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名面向藏语声纹识别的语料库建设
被引量:8
- 13
-
-
作者
周雁
西绕多吉
-
机构
西藏大学藏文信息技术研究中心
-
出处
《计算机工程与科学》
CSCD
北大核心
2018年第11期2080-2084,共5页
-
基金
西藏自治区自然科学基金(2015ZR-14-5)
国家自然科学基金(61165010)
-
文摘
藏语声纹识别技术的研究刚刚起步,建设一个用于藏语声纹识别的语料库迫在眉睫。结合藏语特点,设计、建立了一个面向藏语声纹识别的语料库。语料库包含文本相关、文本无关两部分,文本语料来自新闻报刊、文学类、教育类、科技类、佛学类、历史类和传统文化五明类等文献资料,录音者由来自多个不同藏语方言地区的50人组成,产生了语音语料9 500条,为藏语的声纹识别研究奠定了一定的基础。
-
关键词
藏语
声纹识别
语料库
-
Keywords
Tibetan
voiceprint recognition
corpus
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语料库的藏语副词搭配研究
- 14
-
-
作者
道杰本
才让措
张同龄
-
机构
西北民族大学中国民族信息技术研究院
-
出处
《西北民族大学学报(自然科学版)》
2011年第4期44-47,共4页
-
基金
教育部-国家民委重点实验室开放基金项目支持(2011-KF005)
-
文摘
文章以计算语言学理论为指导,在传统藏语语法理论的基础上,针对藏文信息处理领域的实际需要,依据副词内部的功能差异和语料库统计数据,把藏语副词划分为十个子类,并根据频率、结构和功能特点做了详细的属性形式化描述,建立了藏语副词语法信息字典,同时,依据互信息理论构建了藏语副词的搭配信息库,分析了搭配词序列的语言学意义.
-
关键词
藏语副词
语料库
搭配
互信息
-
Keywords
Tibetan Adverv
Corpus
Mutual Information
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-
-
题名基于初中藏语文教材语料库浅层句法分析
被引量:2
- 15
-
-
作者
王文玲
-
机构
鲁东大学文学院
华东师范大学中文系
-
出处
《西北民族大学学报(自然科学版)》
2017年第2期36-41,共6页
-
文摘
通过借鉴前人在英语和汉语中,对组块的定义,针对初中藏语文教材语料库的特点和现代藏语中组块的语序规则,提出了6种藏语组块类型,并从组块的类型、频率等分布情况的统计和组块间同现关系的统计,对初中藏语文教材的结构构成和内容构成进行了直观的评价,借助组块的分布状况体现组块的价值.通过研究组块分析达到了简化句子结构、提高机器翻译系统整体性能的目的,为客观的评价藏语文教材提供了思路,也为今后更好地提高初中藏语文教材的编写质量奠定了一定的基础.
-
关键词
初中藏语文教材
语料库
组块统计
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语语料库语言学的研究内容与应用
- 16
-
-
作者
索南才让
-
机构
青海师范大学计算机学院
-
出处
《青海师范大学学报(藏文版)》
2019年第2期49-57,共9页
-
基金
国家社会科学基金项目:“基于语料库的《八大藏戏》词汇研究”(项目编号:17XYY030)
教育部“春晖计划”合作科研项目“现代藏语虚词知识库的构建研究”(项目编号:Z20170532018Z002)阶段性成果。
-
文摘
藏语语料库是一门与应用语言学、自然语言处理及计算机科学直接相关的新型交叉学科。它的目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。文章通过对其语料库的概念、分类、发展历程、研究范围、研究方法及其研究意义方面的论述,对语料库语言学进行综述。
-
关键词
语料库语言学
发展历程
藏语言
-
Keywords
Corpus linguistic
development course
Tibetan
-
分类号
C95
[社会学—民族学]
C
[社会学]
-
-
题名一种藏语语料网页数据的采集方法
被引量:1
- 17
-
-
作者
扎西吉
才智杰
-
机构
青海师范大学计算机学院
-
出处
《通讯世界》
2017年第9期115-116,共2页
-
基金
国家自然科学基金资助项目(61163018
61262051
+4 种基金
61363055)
国家社科基金项目(13BYY141
16BYY167)
教育部"春晖计划"合作科研项目(Z2012093
Z2016077)
-
文摘
语料库是自然语言处理的基础,其建设方式从传统手工输入法转移到网页数据的采集。网页爬虫方法能够快速有效地从网页上获取大量的藏文网页文本信息。本文给出了一种藏语网页爬虫算法及URL的广度优先遍历选取策略,为藏语语料库的建设、藏文搜索引擎、网页信息提取等提供了理论基础。
-
关键词
藏语自然语言处理
语料库
网页爬虫
深度优先遍历
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向信息处理的少数民族语料库构建分析
被引量:2
- 18
-
-
作者
费德莲
袁凌云
权朝臣
-
机构
云南师范大学
-
出处
《无线互联科技》
2019年第19期77-79,共3页
-
文摘
语料库是一切自然语言处理的基础,尤其是在机器翻译、语音识别等应用的大趋势下,构建高质量、大规模、标准化的语料库尤为重要。民族语料库构建工作自20世纪八九十年代起,到目前已取得众多成果。文章主要对我国民族语料库的建设现状及相关研究进行介绍与评价,重点分析蒙语、维语、藏语语料库研究工作,并在此基础上,针对民族语料库构建存在的问题提几点建议,以期为其他少数民族构建民族语料库提供借鉴与参考。
-
关键词
少数民族语
语料库构建
蒙语
维语
藏语
-
Keywords
minority nationality language
corpus construction
Mongolian
Uyghur
Tibetan
-
分类号
H31
[语言文字—英语]
-
-
题名面向语音合成的藏语单音素与三音素自动切分算法研究
被引量:4
- 19
-
-
作者
张金溪
李永宏
单广荣
李照耀
江静
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
西北民族大学数学与计算机科学学院
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第11期3272-3275,共4页
-
基金
国家自然科学基金资助项目(61262052)
西北民族大学中央高校基本科研业务费专项项目(ycx12024)
-
文摘
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。
-
关键词
语音合成
藏语语料库
单音素
三音素
自动切分
-
Keywords
speech synthesis Tibetan corpus monophonic prime triphone automatic segmentation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语句子相似度算法的研究
被引量:14
- 20
-
-
作者
安见才让
-
机构
青海民族大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第4期110-114,121,共6页
-
基金
国家社会科学基金项目资助(08xyy006)
-
文摘
该文提出了一种藏语句子相似度的计算方法,即采用散列单词倒排索引和基于句长相似度粗选的算法,快速从语料库中筛选出候选句子的集合,散列单词倒排索引能够有效提高算法的查找速度;再采用基于词形和连续单词序列相似度的多策略精选算法,可以有效衡量两个藏语句子的相似程度。实验结果证明算法是有效的。
-
关键词
自然语言处理
语料库
连续单词序列
藏语
句子相似度
-
Keywords
natural language processing
corpus
continuous word series
Tibetan language
sentence similarity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-