大型藏语平衡语料库建设中样本类别号的研究被引量：1

Research on the Type number of Samples in the Construction of Large Tibetan Language Balanced Corpus

下载PDF

导出

摘要藏文语料库是计算机研究藏语规律的素材,建设藏语语料库是藏文信息处理研究的基础和前提。语料库建设中样本的类别号是识别样本类别的依据,也是关联藏文语料信息库、样本文档和使用者的纽带,在语料库建设中非常重要。文章结合藏语平衡语料库的建设,设计了藏文语料数据库,划分了藏文语料库的类别并设计实现了样本类别号的产生方法。 The Tibetan language corpus is the material for researching the regular pattern of Tibetan language by computer,and the constructing the Tibetan language corpus is the baseline and the presupposition for research of the Tibetan information processes.The type number of samples is very important in the construction of the corpus and is the baseline of identifying the samples and a link of connecting between the related Tibetan language corpus repository,the sample document and users.In the present paper,the database of the Tibetan language corpus was designed and the categories of the Tibetan language corpus was recognized combining with the constructing the Tibetan language balanced corpus,and the method of producing the samples type number was designed and realized as well.

作者高定国索郎桑姆

机构地区西藏大学工学院

出处《西藏大学学报（社会科学版）》 CSSCI 2013年第4期54-58,共5页 Journal of Tibet University

基金 2011年度国家自然科学基金项目"基于虚词的藏语基本句型的形式化研究"(项目号:61063015) 2011年度国家自然科学基金项目"藏语依存树库的构建"(项目号:61163043) 2005年度年度国家语委项目"大型藏文基础语料库建设"(项目号:MZ115-039) 2011年度西藏自治区科技计划项目"基于语料库的藏语词汇计量研究"阶段性成果

关键词藏语语料库样本类别号 Tibetan language corpus samples type number

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量：126
2靳光瑾,郭曙纶,肖航,章云帆.语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[J].语言文字应用,2003(4):16-24. 被引量：11
3才让加.藏语语料库词类描述方法研究[J].计算机工程与应用,2011,47(4):146-148. 被引量：7
4才让加.藏语语料库加工方法研究[J].计算机工程与应用,2011,47(6):138-139. 被引量：13
5才让加.藏语语料库词语分类体系及标记集研究[J].中文信息学报,2009,23(4):107-112. 被引量：18
6扎西加,高定国.藏语语料库TEI标记规范探讨[J].中文信息学报,2011,25(4):66-70. 被引量：4

二级参考文献45

1冯志伟.标准通用置标语言SGML及其在自然语言处理中的应用[J].当代语言学,1998(4):2-12. 被引量：8
2朱学锋,俞士汶,王惠.现代汉语五万词语归类的实践[J].语言文字应用,1997(4):89-95. 被引量：8
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4信息处理用现代汉语词类标记集规范[J].语言文字应用,2001(3):16-20. 被引量：13
5孙茂松,王洪君,李行健,富丽,黄昌宁,陈松岑,谢自立,张卫国.《信息处理用词汇研究》九五项目结题汇报信息处理用现代汉语分词词表[J].语言文字应用,2001(4):84-89. 被引量：24
6才让加,吉太加.藏语语料库的词性分类方法研究[J].青海师范大学学报（哲学社会科学版）,2005,27(4):112-114. 被引量：5
7才让加,吉太加.基于藏语语料库的词类分类方法研究[J].西北民族大学学报（自然科学版）,2005,26(2):39-42. 被引量：5
8刘华.超大规模分类语料库构建[J].现代图书情报技术,2006(1):71-73. 被引量：6
9周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
10黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：246

共引文献161

1杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：1
2吴先,胡俊峰.基于历时语料库的在线词典编纂系统设计[J].中文信息学报,2020(5):27-35. 被引量：1
3程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：9
4谭晓平.现代汉语文本语料库建设及应用现状研究[J].对外汉语研究,2018,0(1):20-29.
5姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
6化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2
7刘亮.现代汉语广义助词知识库构建与应用[J].光盘技术,2008(4):14-16. 被引量：2
8杨芸,周昌乐,王雪梅,戴帅湘.基于机器理解的汉语隐喻分类研究初步[J].中文信息学报,2004,18(4):31-36. 被引量：15
9朱学锋,张化瑞,段慧明,俞士汶.《汉语高频词语法信息词典》的研制[J].语言文字应用,2004(3):98-104. 被引量：2
10俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：29

同被引文献92

1昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：16
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3罗振声.清华大学TH大型通用汉语语料库系统的研制[J].清华大学学报（哲学社会科学版）,1996,11(1):94-98. 被引量：2
4张姝,赵铁军,杨沐昀,李生.面向事件的多语平行语料库构建研究[J].计算机应用研究,2005,22(11):23-24. 被引量：4
5淑琴,那顺乌日图.面向EBMT系统的汉蒙双语语料库的构建[J].内蒙古社会科学,2006,27(1):140-144. 被引量：5
6刘华.超大规模分类语料库构建[J].现代图书情报技术,2006(1):71-73. 被引量：6
7李军辉,朱巧明,李培峰.基于邮件过滤的中文邮件语料库构建[J].计算机应用与软件,2007,24(8):56-58. 被引量：2
8郝晓燕,李济洪,由丽萍,刘开瑛.中文阅读理解语料库构建技术研究[J].中文信息学报,2007,21(6):29-35. 被引量：3
9李晓光,王鹏,张威,王大玲.面向多领域资源的汉英双语语料库构建的研究[J].计算机应用,2008,28(1):146-148. 被引量：2
10徐琳宏,林鸿飞,赵晶.情感语料库的构建和分析[J].中文信息学报,2008,22(1):116-122. 被引量：108

引证文献1

1黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：37

二级引证文献37

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2许行健.多语种军事综合语料库平台建设与应用[J].电声技术,2023,47(1):66-69.
3刘畅,阿布都克力木·阿布力孜,姚登峰,哈里旦木·阿布都克里木.维吾尔语形态分析研究综述[J].计算机工程与应用,2021,57(15):42-61. 被引量：3
4王媛.论语言学基础课教学语料库的建设及其意义[J].科教文汇,2021(22):66-69. 被引量：1
5郭铭,孙蕊.基于评价理论的新闻语篇中“中国梦”报道话语研究——以新华网为例[J].长春大学学报,2021,31(11):61-66. 被引量：2
6张芙蓉.面向航空领域的技术与术语语料库构建[J].长沙航空职业技术学院学报,2021,21(4):33-37. 被引量：2
7冯玮杰,宫媛.基于语料库的新疆文化新闻高频词统计与分析[J].边疆经济与文化,2022(2):116-122.
8宫媛,冯玮杰.新疆融媒体报道热点领域提取与分析--基于天山网新闻标题语料库的计量研究[J].中国传媒科技,2022(4):36-38. 被引量：2
9杨云,宋清漪,云馨雨,史雯倩,尚梦丹.基于BiLSTM-CRF的玻璃文物知识点抽取研究[J].陕西科技大学学报,2022,40(3):179-184. 被引量：4
10陈双,刘敏.认知视角下高职英语词汇教学的困境与纾解[J].安徽电气工程职业技术学院学报,2022,27(2):115-120.

1李军伟,廖文军.基于多密钥加密算法的RFID安全认证协议研究[J].新乡学院学报,2012,29(5):423-425.
2朱剑锋.SIP服务器的Park保留[J].软件,2015,36(12):66-68.
3数字对象识别号——DOI[J].导弹与航天运载技术,2013(1):82-82.
4力毛措.藏语语料库管理系统中读写数据粒度问题的研究[J].青海师范大学学报（自然科学版）,2012,28(2):26-29.
5汤双.人工智能与人脑复制[J].书摘,2017,0(3):97-99.
6李静,程文娟,杨超宇.机器翻译对网络信息安全的影响研究[J].中国科技论坛,2013(12):129-134.
7才藏太.藏文语料库深加工方法研究[J].计算机工程与应用,2012,48(26):127-130. 被引量：2
8滚动字幕[J].八小时以外,2004(6):47-47.
9别学东：8年建成八大系统[J].信息化观察,2010(1):40-41.
10杨帮华,何美燕,韩志军,何亮飞.基于CVI与Matlab相结合的BCI在线应用系统[J].测控技术,2014,33(9):40-43.

西藏大学学报（社会科学版）

2013年第4期

浏览历史

内容加载中请稍等...

大型藏语平衡语料库建设中样本类别号的研究被引量：1

参考文献6

二级参考文献45

共引文献161

同被引文献92

引证文献1

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

大型藏语平衡语料库建设中样本类别号的研究 被引量：1

参考文献6

二级参考文献45

共引文献161

同被引文献92

引证文献1

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

大型藏语平衡语料库建设中样本类别号的研究被引量：1