藏语N-gram语言模型中的平滑技术研究被引量：1

Researches on Smoothing Technology in Tibetan N-gram Language Model

下载PDF

导出

摘要文章在Linux环境下搭建Srilm建模平台,然后对语料进行分块处理,并用N-gram count和N-gram进行计数和语言模型的建立,利用几种平滑算法对其进行了困惑度的测试,最后对这几个困惑度的数值进行比较和数据分析,总结出一个适用于当前语料和语言环境下最优的平滑方法. This paper talked about theSrilm modeling platform is built in Linux environment,and then the corpus is processed in blocks.N-gram count and N-gram were utilized to count and build the language model,and several smoothing algorithms were applied to test the degree of confusion.Finally,the values of these degrees of confusion were compared and analyzed,and concluded an optimal smoothing method for the current corpus and language environment.

作者仁青吉 REN Qing-ji(Tibetan Intangible Cultural Heritage Key Laboratory,Gansu Normal University for Nationalities,Hezuo,747000,China)

机构地区甘肃民族师范学院藏区非遗重点实验室

出处《西北民族大学学报（自然科学版）》 2019年第4期26-30,共5页 Journal of Northwest Minzu University(Natural Science)

关键词藏语语言模型 N-GRAM 平滑算法困惑度 Tibetan language model N-gram Smoothing algorithms Degrees of confusion

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1邢永康,马少平.统计语言模型综述[J].计算机科学,2003,30(9):22-26. 被引量：37
2德庆卓玛.藏语语音识别研究综述[J].西藏大学学报（社会科学版）,2010,25(S1):192-195. 被引量：5

二级参考文献19

1陈立伟,赵春晖,姜海丽,杨洪利.利用线性预测残差的语音去噪方法[J].应用科技,2005,32(4):7-9. 被引量：2
2武光利,于洪志,戴玉刚.藏语语音合成系统中语音信号的频谱转换与分析[J].西北民族大学学报（自然科学版）,2005,26(3):40-43. 被引量：1
3赵未莲.基于小波变换的阈值语音信号去噪[J].重庆科技学院学报（自然科学版）,2005,7(4):73-75. 被引量：11
4Graff D. The 1998 broadcast news speech and language-model corpus. Slides from lecture at the 1997 DARPA Speech Recognition Workshop, Feb. 1997.
5Rosenfeld R. A maximum entropy approach to adaptive statistical language modeling. Computer Speech and Language, 1996, 10:187-228.
6Katz S M. Estimation of probabilities from sparse data for the language model component of speech recognizer. IEEE Transactions on Acoustics, Speech and Signal Processing, 1987, ASSP35:400-401.
7Jelinek F,Mercer R L. Interpolated estimation of Markov source parameters from sparse data. In:Proc. of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands: North-Holland, May 1980,381-397.
8Magerman D M. Natural Language Parrsing as Statistical Pattern Recognition:[PhD Thesis]. Stanford University, 1994.
9Bahl L R,Brown P F, De Souza P V, Mercer R L. A tree-based statistical language model for natural language speech recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing. 1989, 37(7): 1001-1008.
10Rosenfeld R. Adaptive Statistical Language Modeling: A Maximum Entropy Approach: [PhD thesis]. Carnegie Mellon University, 1994- CMU Technical Report CMU-CS-94-138.

共引文献40

1王思丽,祝忠明.机构知识库相关性检索机制研究与试验[J].情报科学,2020,0(2):94-101. 被引量：1
2董云耀,钱如栏.一种改进的基于隐马尔可夫的信息检索模型[J].杭州电子科技大学学报（自然科学版）,2009,29(4):46-49. 被引量：1
3荣传振,岳振军,贾永兴,王渊,杨宇.唇语识别关键技术研究进展[J].数据采集与处理,2012,27(S2):277-283. 被引量：4
4刘政怡,樊庆林,吴建国,李炜.基于输入法的通用存储结构[J].计算机工程与设计,2008,29(17):4554-4558.
5刘政怡,吴建国,李炜.基于整句输入法的状态空间模型[J].计算机工程与应用,2008,44(30):153-156. 被引量：2
6吴晓春,吴娴,李培峰,朱巧明.基于分组的次数与规则剪枝相结合的语言模型压缩方法研究[J].计算机工程与科学,2008,30(11):129-133.
7杜晓杰,张楠,魏蓉,齐丙辰.自然语言理解策略——中文语义分析及LSF随机化句法分析模型与应用[J].天津师范大学学报（自然科学版）,2008,28(4):73-76. 被引量：1
8郭涛,曲宝胜,郭勇.自然语言处理中的模型[J].电脑学习,2011(2):113-116.
9王健,哈力木拉提.买买提.印刷体维吾尔文识别后处理[J].新疆大学学报（自然科学版）,2011,28(2):248-252. 被引量：3
10王旗,马建芬.基于TBL的手写字体分段技术[J].电脑开发与应用,2011,24(6):53-55.

同被引文献17

1刘颖,赵耀龙,杨锦,邓戈,欧珠.方言地理信息系统与藏语方言信息化[J].热带地貌,2019(1):6-11. 被引量：3
2多拉,仁青卓么,冷本扎西.从语言的价值视角探讨藏语功能性虚词的分类与识别[J].中国藏学,2019,0(2):177-183. 被引量：3
3东主才让.从古藏族部落的迁徙看藏语韵尾-S的残存——以嘉绒、巴尔蒂和拉达克藏语为例[J].西藏研究,2019(1):150-157. 被引量：2
4孙媛,王丽客,郭莉莉.基于改进词向量GRU神经网络模型的藏语实体关系抽取[J].中文信息学报,2019,33(6):35-41. 被引量：5
5卓嘎,边巴旺堆.一种藏语连续语音声学特征参数提取算法研究[J].通信技术,2019,52(8):1865-1870. 被引量：2
6卓嘎,次仁尼玛.基于Matlab的藏语语音频谱仿真和分析[J].电子设计工程,2019,27(19):170-173. 被引量：2
7韦蕊.新中国70年藏语方言语音研究[J].西藏科技,2019(9):72-77. 被引量：2
8夏吾吉,华却才让.基于投射的藏语语义依存分析研究[J].计算机工程与科学,2019,41(10):1868-1873. 被引量：4
9卓嘎.基于Praat的藏语连续语音参数提取仿真和分析[J].电子技术与软件工程,2019,0(20):53-56. 被引量：1
10黄成龙.2018年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2019,40(4):61-69. 被引量：1

引证文献1

1黄成龙.2019年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2020,41(5):47-52.

1张献,贲可荣.改进的神经语言模型及其在代码提示中的应用[J].计算机科学,2019,46(11):168-175.
2张华,曹林.结合pHash和稀疏编码的素描人脸合成方法[J].计算机工程与应用,2019,55(22):187-194. 被引量：3
3侯悦文.基于sequence to sequence的神经机器翻译模型研究[J].价值工程,2019,38(33):294-296. 被引量：1
4韩普,刘亦卓,李晓艳.基于深度学习和多特征融合的中文电子病历实体识别研究[J].南京大学学报（自然科学版）,2019,55(6):942-951. 被引量：7
5王莹.改进的基于CNN的高光谱遥感图像分类办法[J].现代商贸工业,2019,40(35):204-206. 被引量：1
6张聪,易秀双,朱明浩,王兴伟.基于Spark的学术研究热点挖掘方法[J].计算机工程,2019,45(12):171-175. 被引量：1
7张治国,陈有亮,饶平平,李宁,倪静.地下工程实验教学虚拟仿真数值建模平台建设探索[J].实验室研究与探索,2019,38(11):156-160. 被引量：14
8宁天瑜,王南兰,秦侨,雷顺华,张星.基于Linux和OpenCV的视觉跟踪系统的设计[J].电子制作,2019,0(21):49-51. 被引量：1
9刘萍.高速数控机床平滑路径规划分析[J].机床与液压,2019,47(20):152-154. 被引量：1
10王悦,袁俊泉,黄忠言,温建雄.基于改进DW法的SABBR非平稳杂波抑制方法[J].雷达科学与技术,2019,17(5):526-530. 被引量：1

西北民族大学学报（自然科学版）

2019年第4期

浏览历史

内容加载中请稍等...

藏语N-gram语言模型中的平滑技术研究被引量：1

参考文献2

二级参考文献19

共引文献40

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

藏语N-gram语言模型中的平滑技术研究 被引量：1

参考文献2

二级参考文献19

共引文献40

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

藏语N-gram语言模型中的平滑技术研究被引量：1