傣文自动分词系统的设计与实现被引量：2

Daiwen Word Segmentation System Design and Implementation

下载PDF

导出

摘要傣文自动分词是傣文信息处理中的基础工作,是后续进行傣文输入法开发、傣文自动机器翻译系统开发、傣文文本信息抽取等傣文信息处理的基础,受限于傣语语料库技术,傣文自然语言处理技术较为薄弱。本文首先对傣文特点进行了分析,并在此基础上构建了傣文语料库,同时将中文分词方法应用到傣文中,结合傣文自身的特点,设计了一个基于音节序列标注的傣文分词系统,经过实验,该分词系统达到了95.58%的综合评价值。 Daiwen word segmentation is the basis for Daiwen information processing work. It＇s the basic work for Daiwen input method, Daiwen machine translation system development, daiwen text information extraction and oth- er information processing words. Limited by Daiwen corpus technology, Daiwen natural language processing tech- nology is relatively weak. This paper first analyzes the characteristics of Daiwen, and on this basis, build a Daiwen corpus, then, applied Chinese word segmentation method to Daiwen segmentation, combined with its own charac- teristics, Designed an Daiwen word segmentation system based on the sequence annotation. Through experiments, the segmentation system has reached a comprehensive appraisal 95.58%.

作者高廷丽陶建华戴红亮李雅

机构地区中国科学院自动化研究所模式识别国家重点实验室教育部语言文字应用研究所

出处《中文信息学报》 CSCD 北大核心 2013年第6期187-191,共5页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(61273288 61233009 61203258 61305003 61332017 61375027) 中国-新加坡数字媒体研究院基金(CSIDM)资助项目

关键词傣文分词 CRF 绝对切分词 Daiwen segmentation CRF absolute segmentation word

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Nianwen Xue, Libin Shen. Chinese Word Segmenta- tion as LMR Tagging[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, in conjunction with ACL'03,2003: 176-179.
2梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4戴红亮.傣汉《民族区域自治法》词语统计及比较分析[J].构建多语和谐的社会语言生活,民族出版社,2009:589-597.

二级参考文献7

1黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3Sproat R., Shih C.L.. A statistical method for finding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages, 1993, 4(4): 336～249
4Sun Mao-Song, Shen Da-Yang, Tsou B K. Chinese word segmentation without using lexicon and hand-crafted training data. In: Proceedings of the 36th Annual Meeting of Association of Computational Linguistics and the 17th International Conference on Computational Linguistics, Montreal, Canada, 1998, 1265～1271
5Nie J.Y., Jin W.Y.. A hybrid approach to unknown word detection and segmentation of Chinese. In: Proceedings of International Conference on Chinese Computing, Singapore, 1994, 405～412
6Church K.W., Gale W., Hanks P., Hindle D.. Using statistics in lexical analysis. In: Zernik U. ed.. Lexical Acquisition: Exploiting On-line Resources to Build a Lexicon. Hillsdale NJ: Lawrence Erlbaum Associates, 1991, 115～164
7刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65

共引文献79

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
4刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
5陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
6陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
7杨芳,杨振山.一种消除中文匹配中交集型歧义的方法[J].计算机辅助工程,2005,14(2):36-38. 被引量：2
8张锋,樊孝忠.基于最大熵模型的交集型切分歧义消解[J].北京理工大学学报,2005,25(7):590-593. 被引量：6
9杨芳.基于电子政务主题词表的中文匹配方法[J].情报杂志,2005,24(8):14-15. 被引量：1
10熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6

同被引文献18

1导夫.基于方正书版(Founder BookMaker9.X/10.X)的西夏文字处理技术研究[J].宁夏大学学报（人文社会科学版）,2005,27(2):89-94. 被引量：4
2殷建民.中国多民族文字编码标准研究[J].中国传媒科技,2005(4):23-26. 被引量：2
3董芳,周石匀,郑文瑾.水书文字规范标准建设与信息化的研究[J].黔南民族师范学院学报,2005,25(5):59-62. 被引量：5
4刀福祥,殷建民.努力缩小“数字化鸿沟”——关于傣文数字化报纸网络研发的思考[J].中国地市报人,2009(3):36-38. 被引量：1
5嘎日迪,张主,桑杰.信息处理交换用蒙古文系列标准的制定原则、方法和技巧[J].中文信息学报,1989,3(3):63-66. 被引量：1
6洛藏.藏汉英电子词典硬件产品中藏文编码的实现方法[J].西藏科技,2009(7):74-76. 被引量：1
7洛藏.藏汉英电子词典硬件产品中藏文键盘的设计和实现方法[J].西藏大学学报（社会科学版）,2009,24(5):61-63. 被引量：2
8冯浩,王辉,王嘉梅.基于自由拆分模式的彝文输入法设计与实现[J].计算机应用,2010,30(A01):306-308. 被引量：6
9李昀姗,王嘉梅,郑晟.云南规范彝文字库设计及其字符集编码研究[J].电子科技,2011,24(5):97-101. 被引量：4
10殷建民,刀福祥,唐金宝,玉康龙.西双版纳傣文新闻网站与数字报刊技术研究[J].中文信息学报,2011,25(4):11-15. 被引量：2

引证文献2

1殷建民.傣文信息技术研究进展[J].广西科学院学报,2018,34(1):12-17.
2李小璐,柳长青.我国少数民族文信息化概述[J].电脑知识与技术,2017,13(7X):210-212.

1高枫舒.浅谈语料库语言学及其教学应用[J].科技信息,2013(10):183-183. 被引量：1
2陈保亚,宋作艳,邱立坤,陈泽浩,密雪飞.网络文本中的词汇自动识别[J].科学中国人,2003(11):52-53.
3张蓓蓓.语料库技术及其对语言教学的推动[J].教学仪器与实验,2012,28(4):62-64.
4杨玉丽,刘振鹏,杨忠华.基于实时在线智能管控系统INTEMOR的煤矿安全检测系统[J].工业控制计算机,2005,18(8):5-6. 被引量：2
5巫振新,林锦国,杨宇.专业语料库建立及其在机器翻译中的应用[J].微型电脑应用,2008,24(4):62-64. 被引量：4
6巫振新,林锦国,杨宇.专业语料库建立及其在机器翻译中的应用[J].现代计算机,2008,14(2):84-86. 被引量：2
7姜贤塔,陈根才.利用语料库技术的中文自动文摘系统[J].中文信息学报,1999,13(2):16-23. 被引量：4
8王一君.汉语傣语差比句否定形式对比浅析[J].文教资料,2013(4):20-21.
9米莉万.雪合来提,刘凯,吐尔根.依布拉音.基于维吾尔语词干词缀粒度的汉维机器翻译[J].中文信息学报,2015,29(3):201-206. 被引量：12
10胡刚,王嘉梅,李炳泽,林睿,希利补发.傣泐文-汉文互译有声电子词典[J].计算机系统应用,2016,25(7):8-16. 被引量：4

中文信息学报

2013年第6期

浏览历史

内容加载中请稍等...

傣文自动分词系统的设计与实现被引量：2

参考文献4

二级参考文献7

共引文献79

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

傣文自动分词系统的设计与实现 被引量：2

参考文献4

二级参考文献7

共引文献79

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

傣文自动分词系统的设计与实现被引量：2