统计与规则相结合的藏文句子自动断句方法被引量：7

An approach of automatic segmentation for Tibetan sentence based on rules and statistics

导出

摘要藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题. Segmentation of Tibetan sentences is one of the difficult task in the area of Tibetan information processing, and is also one of the key foundational researches of Tibetan - Chinese Machine Translation, Text Cat- egorization, etc. To deal with the ambiguous functions of the Tibetan punctuations, this paper proposes a method of automatic segmentation of Tibetan sentences, which combines statistics and rules. The experiment shows that thisapproach works really well： the F1 - measure reaches 98 % and more. First, the experience method is used in rules to identify the ambiguous Tibetan sentences which are the candidate sentences. Then the analysis of com- pound sentences which is based on conjunctive words is used to combine clauses to form the further candidate sentences. Finally, the method of Maximum Entropy is used to cut up the further candidate sentences according to the meanings. Thus the experience method and the analysis of compound sentences have solved the problems of sparse corpus and clauses that Maximum Entropy cannot work out.

作者徐涛加羊吉于洪志

机构地区西北民族大学

出处《云南大学学报（自然科学版）》 CAS CSCD 北大核心 2012年第6期653-657,663,共6页 Journal of Yunnan University(Natural Sciences Edition)

基金国家自然科学基金资助项目(61032008 60970071) 甘肃省自然科学基金资助项目(1107RJZA157)

关键词藏文句子自动断句复句分析二次候选句子最大熵 automatic segmentation of Tibetan sentences analysis of compound sentences further candidate sentences maximum entropy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1CHRIS Man-ning, HINRICH SCHUTZE. Foundations of statistical natural language processing [ M ]. Cambridge, MA : MIT Press, 1999.
2ADAM L BERGER, VINCENT J Della Pietra, Stephen A Della Pietra. A maximum entropy approach to natural language processing[J]. Journal Computational Linguistics Archive, 1996,22 ( 1 ) : 39-71.
3ADWAIT R. Maximum entropy models for natural language ambguity resolution [ M ]. Pennsylvania : Pennsyl- vania, 1998.
4王风娥,谭红叶,钱揖丽.基于最大熵的句内时间关系识别[J].计算机工程,2012,38(4):37-39. 被引量：12
5葛斌,封孝生,谭文堂,肖卫东.基于多层最大熵模型的句子主干分析[J].计算机科学,2010,37(12):156-160. 被引量：4
6赵维纳,刘汇丹,于新,等.基于法律文本的藏语句子边界识别[C]//第五届全国青年计算语言学研讨会论文集,2010:480-486.
7李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. 被引量：17
8共确降措.论藏文[J].西藏研究,1997(3):94-108. 被引量：7
9格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：10
10祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34

二级参考文献36

1王昀,苑春法.基于转换的时间-事件关系映射[J].中文信息学报,2004,18(4):23-30. 被引量：19
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
4格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：10
5黄永文,何中市.基于全局折扣的统计语言模型平滑技术[J].重庆大学学报（自然科学版）,2005,28(8):51-55. 被引量：3
6祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
7王诗文.汉、藏语句子结构对比研究[J].西南民族大学学报（人文社会科学版）,2007,28(4):50-55. 被引量：4
8赵维纳,刘汇丹,于新,等.基于法律文本的藏语句子边界识别[C]//第五届全国青年计算语言学研讨会论文集,2010:480-486.
9胡书津.简明藏文文法[M].昆明:云南民族出版社,1988.
10Riley, M. D. Some applications of tree-based modeling to speech and language indexing [C]//Proceedings of the DARPA Speech and Natural Language Work- shop, 1989:339-352.

共引文献74

1德吉梅朵.面向藏语语料库建设的数量词的分类研究[J].剑南文学（经典教苑）（下）,2013(1):228-229. 被引量：1
2拥措.基于贝叶斯算法的藏文垃圾邮件过滤研究[J].西藏科技,2008(10):73-74.
3苏俊峰,祁坤钰,本太.基于HMM的藏语语料库词性自动标注研究[J].西北民族大学学报（自然科学版）,2009,30(1):42-45. 被引量：6
4李永斌.西藏语言研究概况述评[J].天中学刊,2009,24(4):104-109. 被引量：1
5高定国,关白.回顾藏文信息处理技术的发展[J].西藏大学学报（社会科学版）,2009,24(3):18-27. 被引量：15
6江涛,于洪志,徐涛.互联网藏文内容安全检测过滤系统研究[J].信息网络安全,2009(10):47-48. 被引量：4
7关白.信息处理用藏文分词单位研究[J].中文信息学报,2010,24(3):124-128. 被引量：12
8扎西加,顿珠次仁.自然语言处理用藏语格助词的语法信息研究[J].中文信息学报,2010,24(5):41-45. 被引量：6
9江荻,燕海雄.藏文字符的分类与功能描述[J].西藏研究,2010(5):75-85. 被引量：2
10金明,杨欢欢,单广荣.藏语命名实体识别研究[J].西北民族大学学报（自然科学版）,2010,31(3):49-52. 被引量：11

同被引文献118

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：19
2尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
3扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
4索南尖措.藏语动词的黏着性及屈折性变化研究[J].西藏大学学报（社会科学版）,2013,28(4):70-75. 被引量：2
5德吉梅朵.面向藏语语料库建设的数量词的分类研究[J].剑南文学（经典教苑）（下）,2013(1):228-229. 被引量：1
6王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
7罗圣仪,江虹.藏文轻印刷系统[J].计算机世界月刊,1993(7):73-73. 被引量：2
8祁坤钰.《机器翻译用现代藏语语义词典》的设计研究[J].西北民族大学学报（自然科学版）,2004,25(3):33-37. 被引量：8
9高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
10扎西次仁.藏文的排序规则及其计算机自动排序的实现[J].中国藏学,1999(4):128-135. 被引量：15

引证文献7

1邹后孝.基于词语级的藏语显示情感句的情感分析与研究[J].网友世界,2014,0(17):317-317.
2高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：6
3万福成,马宁,何向真.融合事件特征及语义角色标注的藏文信息抽取技术[J].广西师范大学学报（自然科学版）,2018,36(2):18-23. 被引量：1
4张瑞.藏文在线评论情感分析研究综述[J].智库时代,2018(35):206-208. 被引量：2
5才让叁智,多拉.贫语言资源条件下藏文分句数据集构建研究[J].高原科学研究,2022,6(4):85-94.
6才让叁智,多拉,格桑多吉,洛桑嘎登,仁增多杰.TASSM_BS:基于Bi-LSTM和Self-Attention的藏文自动分句方法[J].中文信息学报,2023,37(5):44-52.
7龙从军,刘汇丹,周毛克.基于句法树的藏语最长名词短语识别[J].中文信息学报,2019,33(2):59-66. 被引量：4

二级引证文献13

1张瑞.藏文在线评论情感分析研究综述[J].智库时代,2018(35):206-208. 被引量：2
2头旦才让,尼玛扎西.改革开放以来西藏藏文信息化发展综述[J].西藏研究,2018(5):182-187. 被引量：4
3严李强,周建朋,冯郅皓.藏文词库自扩充学习算法的设计与实现[J].高原科学研究,2019,3(3):106-112. 被引量：1
4黄成龙.2018年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2019,40(4):61-69. 被引量：1
5苗晗,车文刚,朱倩倩.一种藏文雕刻字体多样性表达方法[J].信息技术,2020,44(9):129-132.
6马爽.中国少数民族文字网络搜索引擎关键技术研究[J].无线互联科技,2020,17(13):84-86. 被引量：1
7黄成龙.2019年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2020,41(5):47-52.
8尕藏才让.不同自然语言的信息处理方法差异概述--以藏汉文本检查技术为例[J].计算机应用文摘,2022,38(3):97-100.
9周毛克,龙从军,赵小兵,李林霞.基于树库转换的藏语依存句法树库构建方法[J].中文信息学报,2022,36(7):77-85. 被引量：1
10龙从军,安波.中国少数民族语言文字信息处理的进展[J].暨南学报（哲学社会科学版）,2022,44(9):12-23. 被引量：7

1扎西本,安见才让.藏文句子的情感倾向研究[J].电脑知识与技术,2016,12(2X). 被引量：2
2王博立,史晓东,苏劲松.一种基于循环神经网络的古文断句方法[J].北京大学学报（自然科学版）,2017,53(2):255-261. 被引量：19
3贾会强.基于KNN算法的藏文文本分类关键技术研究[J].西北民族大学学报（自然科学版）,2011,32(3):24-29. 被引量：12
4利用Word 2013快速创建新公式[J].微电脑世界,2014,0(7):73-73.
5王志军.利用Word 2013快速创建新公式[J].电脑知识与技术（经验技巧）,2014(8):38-38.
6才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究[J].计算机工程与科学,2012,34(6):187-190. 被引量：10
7李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. 被引量：17
8胡茂海,谢仁龙,高万荣.薄雾模糊图像的恢复算法研究[J].红外技术,2004,26(6):76-78. 被引量：1
9才藏太,索南才让.基于锚点信息和句子长度相结合的汉藏句子对齐方法研究[J].青海师范大学民族师范学院学报,2016,27(1):91-93. 被引量：2
10李文翔,晏蒲柳,张滨,夏德麟.基于语料库的关联词识别方法[J].计算机工程与应用,2004,40(7):50-52. 被引量：5

云南大学学报（自然科学版）

2012年第6期

浏览历史

内容加载中请稍等...

统计与规则相结合的藏文句子自动断句方法被引量：7

参考文献10

二级参考文献36

共引文献74

同被引文献118

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

统计与规则相结合的藏文句子自动断句方法 被引量：7

参考文献10

二级参考文献36

共引文献74

同被引文献118

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

统计与规则相结合的藏文句子自动断句方法被引量：7