缅甸语分词方法及其实现被引量：1

Burmese Segmentation Methods and Its Implementation

下载PDF

导出

摘要缅甸语与英语以及其它西方语言不同,它的词之间没有明显的边界,开发缅甸语的语音合成系统时,分词是其中的一个重要环节。我们从大约600 M的原始语料库中选取5000个完整句子,由缅语专家人工分词以后作为该文的实验数据集。本文对比了基于条件随机场(CRF)的缅语分词方法与基于正向最大匹配算法(FMM)的缅语分词方法,并用置信度、分词精度和分词速度评估分词性能。在本次实验中,基于CRF与FMM的缅语分词结果中置信度分别可达94.1%和84.3%,F-值分别可达93.8%和82.9%。表明,应用CRF方法实现缅语分词的效果更好,且该方法可满足开发缅语语音合成系统的要求。 Unlike English and other western languages, there are no delimiters to mark word boundaries in Burmese. Therefore, word segmentation is an important part in the realization of Burmese speech synthesis. Through manually word segmentation by Burmese experts, we have constructed a Burmese text database containing 5000 sentences as experimental data of this paper. The CRF-based word segmentation method is compared with the FMM-based word segmentation method. The performance of word segmentation method was evaluated with confidence, precision and speed of segmentation. In this experiment, the confidence of the Burmese word segmentation the CRF-based and FMM-based was 94.1% and 84.3%, respectively, and the F values were 93.8% and 82.9%, respectively. It shows that the CRF method can be applied to Burmese word segmentation with better effect. We believe that this method meets the requirements for the development of the Burmese speech synthesis system.

作者马昌娥杨鉴

机构地区云南大学信息学院

出处《计算机科学与应用》 2018年第11期1682-1688,共7页 Computer Science and Application

基金国家自然科学基金项目(61262068)资助.

关键词缅甸语分词条件随机场正向最大匹配算法

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献6

1符淮青.词义和构成词的语素义的关系[J].辞书研究,1981(1):98-110. 被引量：50
2陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：247
4王昊,邓三鸿,苏新宁.基于字序列标注的中文关键词抽取研究[J].现代图书情报技术,2011(12):39-45. 被引量：7
5吉志薇,冯敏萱.面向普通未登录词理解的二字词语义构词研究[J].中文信息学报,2015,29(5):63-68. 被引量：9
6徐伟,车万翔,刘挺.融合手工特征与双向LSTM结构的中文分词方法研究[J].智能计算机与应用,2019,9(1):169-172. 被引量：4

引证文献1

1戴玉玲.语素位置及语素义对构词的贡献分析——基于字位分词的理论依据[J].文教资料,2019(35):44-47. 被引量：1

二级引证文献1

1李夏青,康志峰.基于眼动实验的语素点位与带稿同传绩效贯连探析[J].外语教学,2021,42(6):96-101. 被引量：1

1陈菲菲.缅甸语声韵式副词形式研究[J].科教导刊（电子版）,2018,0(36):196-197.
2杨晓娟.大学生缅语语音学习常见偏误分析与思考——以滇西科技师范学院为例[J].明日风尚,2017,0(13):216-217.
3李康康,龙华.基于词的关联特征的中文分词方法[J].通信技术,2018,51(10):2343-2349. 被引量：6
4汪亚男,徐娟兰,宋红玲.老年肌少症现状及其影响因素调查分析[J].现代临床护理,2018,17(9):45-50. 被引量：9
5吴梦余,于卫华.步行速度在老年衰弱相关不良事件中的应用进展[J].护理学报,2018,25(17):21-24. 被引量：10
6吴佳林,唐晋韬,李莎莎,王挺.基于神经网络纠正器的领域分词方法[J].中文信息学报,2017,31(6):41-49. 被引量：1
7杨贵军,徐雪,凤丽洲,徐玉慧.基于最大匹配算法的似然导向中文分词方法[J].统计与信息论坛,2019,34(3):18-23. 被引量：17
8马新意,王剑辉.自动答疑系统中文分词模块的设计与实现[J].信息技术与信息化,2019(1):19-22.
9甘蓉.中文分词交叉型歧义消解算法[J].西华大学学报（自然科学版）,2018,37(6):32-36. 被引量：2
10袁世冲,陆峰,蓝天华,黄展宏,周欣怡.太阳能交互式智能讲解装置的设计[J].电子世界,2019(4):159-159.

计算机科学与应用

2018年第11期

浏览历史

内容加载中请稍等...

缅甸语分词方法及其实现被引量：1

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

缅甸语分词方法及其实现 被引量：1

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

缅甸语分词方法及其实现被引量：1