期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
面向小学藏语文课程知识问答语料库的构建和设计
1
作者 切羊卓玛 石海强 +1 位作者 更太加 魏建国 《青海科技》 2023年第4期164-174,共11页
随着人工智能的发展,智能问答系统逐渐成为研究的热点,得到了越来越多研究者的关注。藏文问答系统不同于中英文等主流语种的问答系统,没有大量的结构化数据以支撑问答系统丰富全面的知识库引擎。本研究通过着力于面向小学藏语文课本数... 随着人工智能的发展,智能问答系统逐渐成为研究的热点,得到了越来越多研究者的关注。藏文问答系统不同于中英文等主流语种的问答系统,没有大量的结构化数据以支撑问答系统丰富全面的知识库引擎。本研究通过着力于面向小学藏语文课本数据领域的问答数据资源,通过规则筛选、人工校正、问句意图及相似度标注,构建了一个高质量的藏文问答数据集。经自动评价和实验验证,该数据集的问句和答复句具有较好的知识关联度,采用三分制的人工评价结果显示98%的数据样本符合小学生认知和藏文文语法规则,且问答对句子流畅、问题与答案相关性较高。通过Bert融合提取词和不融合提取词进行了意图分类和tf-idf+Bert相似度计算,分类结果准确率分别在75%和76%,相似度准确率在76%,这也验证了所构建面向小学藏语文课程知识问答语料库的有效性。 展开更多
关键词 小学藏语文课程 智能问答 语义关联 问答语料库 意图分类
下载PDF
藏语口语语音语料库的设计与研究 被引量:8
2
作者 黄晓辉 李京 马睿 《计算机工程与应用》 CSCD 北大核心 2018年第13期231-235,共5页
基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、... 基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。 展开更多
关键词 语音语料库 口语语音 语音识别 标注规范 藏语拉萨话
下载PDF
藏语语料库TEI标记规范探讨 被引量:4
3
作者 扎西加 高定国 《中文信息学报》 CSCD 北大核心 2011年第4期66-70,81,共6页
在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中... 在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。 展开更多
关键词 藏语 语料库 TEI标记
下载PDF
藏语语料库加工方法研究 被引量:13
4
作者 才让加 《计算机工程与应用》 CSCD 北大核心 2011年第6期138-139,146,共3页
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料... 为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。 展开更多
关键词 藏语语料库 规范 词类 标记集 词典 分词标注
下载PDF
基于语料库的藏语高频词抽取研究 被引量:3
5
作者 才让卓玛 才智杰 《计算机工程》 CAS CSCD 2012年第15期56-58,共3页
在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算... 在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。 展开更多
关键词 信息处理 高频词 藏语抽词 自动分词 语料库 预处理
下载PDF
藏语语料库的词性分类方法研究 被引量:5
6
作者 才让加 吉太加 《青海师范大学学报(哲学社会科学版)》 2005年第4期112-114,共3页
本文根据藏语语料库建设的实际需求,提出了一个基于语料库的藏语词类标注和分类方法,以其为藏语语料库建设提供一个可供参考的标准和方法。
关键词 藏语 语料库 词类 语法信息 标注
下载PDF
藏语语料库词语分类体系及标记集研究 被引量:18
7
作者 才让加 《中文信息学报》 CSCD 北大核心 2009年第4期107-112,共6页
青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上... 青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。 展开更多
关键词 计算机应用 中文信息处理 语料库 藏语词语 分类体系 标记集
下载PDF
大型藏语平衡语料库建设中样本类别号的研究 被引量:1
8
作者 高定国 索郎桑姆 《西藏大学学报(社会科学版)》 CSSCI 2013年第4期54-58,共5页
藏文语料库是计算机研究藏语规律的素材,建设藏语语料库是藏文信息处理研究的基础和前提。语料库建设中样本的类别号是识别样本类别的依据,也是关联藏文语料信息库、样本文档和使用者的纽带,在语料库建设中非常重要。文章结合藏语平衡... 藏文语料库是计算机研究藏语规律的素材,建设藏语语料库是藏文信息处理研究的基础和前提。语料库建设中样本的类别号是识别样本类别的依据,也是关联藏文语料信息库、样本文档和使用者的纽带,在语料库建设中非常重要。文章结合藏语平衡语料库的建设,设计了藏文语料数据库,划分了藏文语料库的类别并设计实现了样本类别号的产生方法。 展开更多
关键词 藏语 语料库 样本 类别号
下载PDF
基于藏语语料库的词类分类方法研究 被引量:5
9
作者 才让加 吉太加 《西北民族大学学报(自然科学版)》 2005年第2期39-42,共4页
根据藏语语料库建设的实际需求,提出一个基于语料库的藏语词类标注和分类方法,以便为藏语语料库建设提供一个可供参考的标准和方法.
关键词 藏语 语料库 词类 语法信息 标注
下载PDF
基于语料库的藏语名词分类与统计研究 被引量:3
10
作者 祁坤钰 《西北民族大学学报(自然科学版)》 2012年第3期44-49,共6页
在藏文信息处理领域,大量的应用研究都离不开词汇知识库.高质量的词汇知识库构建已经成为当前语言信息处理的基础课题之一.文章在大规模藏语语料库的支持下,对藏语名词做了较为详实的分类统计研究,分析了藏语名词词类内部的差异,尤其是... 在藏文信息处理领域,大量的应用研究都离不开词汇知识库.高质量的词汇知识库构建已经成为当前语言信息处理的基础课题之一.文章在大规模藏语语料库的支持下,对藏语名词做了较为详实的分类统计研究,分析了藏语名词词类内部的差异,尤其是对辞藻词、人名、地名和机构名称做了分类描述,为专有名词的识别建立了高质量的训练词表. 展开更多
关键词 语料库 藏语名词 统计研究
下载PDF
藏语拉萨话语音合成语料库的研究与建立 被引量:3
11
作者 陈小莹 《科技信息》 2013年第9期13-14,共2页
藏语语音合成语料库的好坏对合成语音质量有很大的影响。本文介绍了藏语拉萨话语音合成语料库的设计过程,语料的设计考虑了内容上和语义上的完整性,利用Greed算法实现对语料的选取,同时严格按照标准的录音过程对语料进行录制,最后设计... 藏语语音合成语料库的好坏对合成语音质量有很大的影响。本文介绍了藏语拉萨话语音合成语料库的设计过程,语料的设计考虑了内容上和语义上的完整性,利用Greed算法实现对语料的选取,同时严格按照标准的录音过程对语料进行录制,最后设计了一套韵律标注规则对语料库中的语音数据进行了音段特征和超音段特征的标注,基本完成了藏语拉萨话语音合成语料库的建立。 展开更多
关键词 藏语语音 语音合成 语料库
下载PDF
藏语语料库管理系统中读写数据粒度问题的研究
12
作者 力毛措 《青海师范大学学报(自然科学版)》 2012年第2期26-29,共4页
应用体系的执行效率、访问速度、服务器的负荷、数据处理的安全性、读写数据的粒度是影响系统性能的主要因素.本文在分析藏语语料库应用体系的基础上对藏语语料库管理系统中读写数据的粒度问题进行了探讨,并采用值对象解决了用户通过大... 应用体系的执行效率、访问速度、服务器的负荷、数据处理的安全性、读写数据的粒度是影响系统性能的主要因素.本文在分析藏语语料库应用体系的基础上对藏语语料库管理系统中读写数据的粒度问题进行了探讨,并采用值对象解决了用户通过大量细粒度的调用读取数据时造成的系统性能下降的问题,从而在一定程度上提高了藏语语料库管理系统的性能. 展开更多
关键词 数据粒度 值对象 藏语语料库(tldbms)
下载PDF
面向藏语声纹识别的语料库建设 被引量:8
13
作者 周雁 西绕多吉 《计算机工程与科学》 CSCD 北大核心 2018年第11期2080-2084,共5页
藏语声纹识别技术的研究刚刚起步,建设一个用于藏语声纹识别的语料库迫在眉睫。结合藏语特点,设计、建立了一个面向藏语声纹识别的语料库。语料库包含文本相关、文本无关两部分,文本语料来自新闻报刊、文学类、教育类、科技类、佛学类... 藏语声纹识别技术的研究刚刚起步,建设一个用于藏语声纹识别的语料库迫在眉睫。结合藏语特点,设计、建立了一个面向藏语声纹识别的语料库。语料库包含文本相关、文本无关两部分,文本语料来自新闻报刊、文学类、教育类、科技类、佛学类、历史类和传统文化五明类等文献资料,录音者由来自多个不同藏语方言地区的50人组成,产生了语音语料9 500条,为藏语的声纹识别研究奠定了一定的基础。 展开更多
关键词 藏语 声纹识别 语料库
下载PDF
基于语料库的藏语副词搭配研究
14
作者 道杰本 才让措 张同龄 《西北民族大学学报(自然科学版)》 2011年第4期44-47,共4页
文章以计算语言学理论为指导,在传统藏语语法理论的基础上,针对藏文信息处理领域的实际需要,依据副词内部的功能差异和语料库统计数据,把藏语副词划分为十个子类,并根据频率、结构和功能特点做了详细的属性形式化描述,建立了藏语副词语... 文章以计算语言学理论为指导,在传统藏语语法理论的基础上,针对藏文信息处理领域的实际需要,依据副词内部的功能差异和语料库统计数据,把藏语副词划分为十个子类,并根据频率、结构和功能特点做了详细的属性形式化描述,建立了藏语副词语法信息字典,同时,依据互信息理论构建了藏语副词的搭配信息库,分析了搭配词序列的语言学意义. 展开更多
关键词 藏语副词 语料库 搭配 互信息
下载PDF
基于初中藏语文教材语料库浅层句法分析 被引量:2
15
作者 王文玲 《西北民族大学学报(自然科学版)》 2017年第2期36-41,共6页
通过借鉴前人在英语和汉语中,对组块的定义,针对初中藏语文教材语料库的特点和现代藏语中组块的语序规则,提出了6种藏语组块类型,并从组块的类型、频率等分布情况的统计和组块间同现关系的统计,对初中藏语文教材的结构构成和内容构成进... 通过借鉴前人在英语和汉语中,对组块的定义,针对初中藏语文教材语料库的特点和现代藏语中组块的语序规则,提出了6种藏语组块类型,并从组块的类型、频率等分布情况的统计和组块间同现关系的统计,对初中藏语文教材的结构构成和内容构成进行了直观的评价,借助组块的分布状况体现组块的价值.通过研究组块分析达到了简化句子结构、提高机器翻译系统整体性能的目的,为客观的评价藏语文教材提供了思路,也为今后更好地提高初中藏语文教材的编写质量奠定了一定的基础. 展开更多
关键词 初中藏语文教材 语料库 组块统计
下载PDF
藏语语料库语言学的研究内容与应用
16
作者 索南才让 《青海师范大学学报(藏文版)》 2019年第2期49-57,共9页
藏语语料库是一门与应用语言学、自然语言处理及计算机科学直接相关的新型交叉学科。它的目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。文章通过对其语料库的概念、分类、发展历... 藏语语料库是一门与应用语言学、自然语言处理及计算机科学直接相关的新型交叉学科。它的目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。文章通过对其语料库的概念、分类、发展历程、研究范围、研究方法及其研究意义方面的论述,对语料库语言学进行综述。 展开更多
关键词 语料库语言学 发展历程 藏语
下载PDF
一种藏语语料网页数据的采集方法 被引量:1
17
作者 扎西吉 才智杰 《通讯世界》 2017年第9期115-116,共2页
语料库是自然语言处理的基础,其建设方式从传统手工输入法转移到网页数据的采集。网页爬虫方法能够快速有效地从网页上获取大量的藏文网页文本信息。本文给出了一种藏语网页爬虫算法及URL的广度优先遍历选取策略,为藏语语料库的建设、... 语料库是自然语言处理的基础,其建设方式从传统手工输入法转移到网页数据的采集。网页爬虫方法能够快速有效地从网页上获取大量的藏文网页文本信息。本文给出了一种藏语网页爬虫算法及URL的广度优先遍历选取策略,为藏语语料库的建设、藏文搜索引擎、网页信息提取等提供了理论基础。 展开更多
关键词 藏语自然语言处理 语料库 网页爬虫 深度优先遍历
下载PDF
面向信息处理的少数民族语料库构建分析 被引量:2
18
作者 费德莲 袁凌云 权朝臣 《无线互联科技》 2019年第19期77-79,共3页
语料库是一切自然语言处理的基础,尤其是在机器翻译、语音识别等应用的大趋势下,构建高质量、大规模、标准化的语料库尤为重要。民族语料库构建工作自20世纪八九十年代起,到目前已取得众多成果。文章主要对我国民族语料库的建设现状及... 语料库是一切自然语言处理的基础,尤其是在机器翻译、语音识别等应用的大趋势下,构建高质量、大规模、标准化的语料库尤为重要。民族语料库构建工作自20世纪八九十年代起,到目前已取得众多成果。文章主要对我国民族语料库的建设现状及相关研究进行介绍与评价,重点分析蒙语、维语、藏语语料库研究工作,并在此基础上,针对民族语料库构建存在的问题提几点建议,以期为其他少数民族构建民族语料库提供借鉴与参考。 展开更多
关键词 少数民族语 语料库构建 蒙语 维语 藏语
下载PDF
面向语音合成的藏语单音素与三音素自动切分算法研究 被引量:4
19
作者 张金溪 李永宏 +2 位作者 单广荣 李照耀 江静 《计算机应用研究》 CSCD 北大核心 2013年第11期3272-3275,共4页
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别... 在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。 展开更多
关键词 语音合成 藏语语料库 单音素 三音素 自动切分
下载PDF
藏语句子相似度算法的研究 被引量:14
20
作者 安见才让 《中文信息学报》 CSCD 北大核心 2011年第4期110-114,121,共6页
该文提出了一种藏语句子相似度的计算方法,即采用散列单词倒排索引和基于句长相似度粗选的算法,快速从语料库中筛选出候选句子的集合,散列单词倒排索引能够有效提高算法的查找速度;再采用基于词形和连续单词序列相似度的多策略精选算法... 该文提出了一种藏语句子相似度的计算方法,即采用散列单词倒排索引和基于句长相似度粗选的算法,快速从语料库中筛选出候选句子的集合,散列单词倒排索引能够有效提高算法的查找速度;再采用基于词形和连续单词序列相似度的多策略精选算法,可以有效衡量两个藏语句子的相似程度。实验结果证明算法是有效的。 展开更多
关键词 自然语言处理 语料库 连续单词序列 藏语 句子相似度
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部