基于HMM的维吾尔语词性标注研究被引量：1

Research on Uyghur Part-of-Speech Tagging Model Based on Hidden Markov Model

下载PDF

导出

摘要在维吾尔语与汉语的机器翻译的研究中,词性标注起到很大的作用,词性标注也是自然语言处理的基础性工作。介绍基于隐马尔可夫模型的词性标注算法和词性标注器Citar,并且将Citar标注器应用到维吾尔语上进行词性标注。为了能对维吾尔语进行词性标注,在在布朗词性标注集的基础上,定义一套适用于维吾尔语的词性标注集,采用基于隐马尔可夫模型的方法,对部分维吾尔语进行词性标注实验,经过实验表明,Citar标注器能准确对维吾尔语进行词性标注,从而表明此标注器适用于维吾尔语。 The part-of-speech tagging plays a very important role in the research on machine translation in Uyghur and Chinese. The part-of- speech tagging is the groundwork for natural language processing. Introduces the part-of-speech tagging algorithm based on HMM and the part-of-speech tools named Citar, improves Citar in order to make the part-of-speech tagging tools apply to the Uyghur. On the basis of brown part-of-speech tagging sets, defines part-of-speech tagging sets used in the Uyghur for the part-of-speech tagging of Uyghur. Uses the method based on hidden Markov model, carried out the part of speech tagging experiment. The experiment result show that Citar has a good result on the part-for-speech tagging of Uyghur and the label machine is suitable for the Uyghur.

作者李萍杨勇赛买提.艾力任鸽 LI Ping YANG Yong SAI Mai Ti. Ai Li REN Ge(College of Computer Science and Technology, Xinjiang Normal University, Urumqi 83005)

机构地区新疆师范大学计算机科学技术学院

出处《现代计算机》 2017年第5期11-14,共4页 Modern Computer

基金新疆师范大学优秀青年教师科研启动基金项目(No.XJNU201420)

关键词机器翻译词性标注隐马尔可夫模型词性标注集维吾尔语 Machine Translation Part-of-Speech Tagging HMM Part-of-Speech Tagging Sets Uyghur

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1王海波,祖漪清,力提甫.托乎提.基于功能词缀串的维吾尔语词性标注方法[J].中文信息学报,2013,27(5):179-183. 被引量：8
2洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
3刘群.统计机器翻译综述[J].中文信息学报,2003,17(4):1-12. 被引量：71
4杨攀,李淼,张建.基于短语统计翻译的汉维机器翻译系统[J].计算机应用,2009,29(7):2022-2025. 被引量：5
5李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
6李萍,朱建波,周立新,廖彬.基于快速构建模板的购物信息抽取方法[J].计算机应用,2014,34(3):733-737. 被引量：3
7玉素甫.艾白都拉,阿布都热依木.沙力.现代维语语料库的词类标注研究[J].民族语文,2005(4):63-66. 被引量：7
8陈鹏,古丽拉.阿东别克.隐马尔可夫模型在维吾尔语词性标注中的应用[J].电脑知识与技术,2006,1(4):127-128. 被引量：1
9帕提古力.依马木,买合木提.买买提,吐尔根.依布拉音,卡哈尔江.阿比的热西提.基于感知器算法的维吾尔语词性标注研究[J].中文信息学报,2014,28(5):187-191. 被引量：4

二级参考文献91

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
3艾斯卡尔.亚克甫,肖克来提,玉素甫.艾白都拉.维吾尔语词频统计子系统的体系结构[J].新疆师范大学学报（自然科学版）,2006,25(2):16-20. 被引量：3
4徐波,史晓东,刘群,宗成庆,庞薇,陈振标,杨振东,魏玮,杜金华,陈毅东,刘洋,熊德意,侯宏旭,何中军.2005统计机器翻译研讨班研究报告[J].中文信息学报,2006,20(5):1-9. 被引量：10
5俞士汶等.机器翻译译文质量自动评估系统[A]..中国中文信息学会1991年会论文集[C].,.314—319.
6BROWN P, COCKE J, PIETRA S, et al. A statistical approach to machine translation[J]. Computational Linguistics, 1990, 16(2):79 -85.
7KOEHN P, OCH F J, MARCU D. Statistical phrase-based translation[ C] // Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Hu- man Language. Morristown, N J: Association for Computational Linguistics, 2003:48 -54.
8OCH F J, NEY H. Discriminative training and maximum entropy models for statistical machine translation[ C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Morristown, NJ: Association for Computational Linguistics, 2001: 295 - 302.
9STOLKE A. Srilm - An extensible language modeling toolkit [ EB / OL]. [ 2008 - 09 - 20]. http://web, iti. upv. es/- evidal/ students/doct/sht/transp/srlim2p, pdf.
10OCH F J, NEY H, A systematic comparison of various statistical alignment models[ J]. Computational Linguistics, 2003, 29(1) : 19 - 51.

共引文献320

1唐元楠.论机器翻译的现状[J].南国博览,2019,0(4):380-380.
2贾承勋,赖华,余正涛,文永华,于志强.基于短语替换的汉越伪平行句对生成[J].中文信息学报,2021,35(8):47-55. 被引量：2
3李霞,马骏腾,覃世豪.融合图像注意力的多模态机器翻译模型[J].中文信息学报,2020(7):68-78. 被引量：4
4沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
5王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
6叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
7岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
8张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
9于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
10李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.

同被引文献3

1哈力木拉提,阿孜古丽.多字体印刷维吾尔文字符识别系统的研究与开发[J].计算机学报,2004,27(11):1480-1484. 被引量：36
2林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
3王健,哈力木拉提.买买提.印刷体维吾尔文识别后处理[J].新疆大学学报（自然科学版）,2011,28(2):248-252. 被引量：3

引证文献1

1贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.

1帕提古力.依马木,买合木提.买买提,吐尔根.依布拉音,卡哈尔江.阿比的热西提.基于感知器算法的维吾尔语词性标注研究[J].中文信息学报,2014,28(5):187-191. 被引量：4
2尼加提·纳吉米,买合木提·买买提,吐尔根·依布拉音.基于N元模型的维吾尔语词性标注实验研究[J].计算机工程与应用,2012,48(25):137-140. 被引量：2
3王海波,祖漪清,力提甫.托乎提.基于功能词缀串的维吾尔语词性标注方法[J].中文信息学报,2013,27(5):179-183. 被引量：8
4帕力旦.吐尔逊,房鼎益.融合形态特征的最大熵维吾尔语词性标注[J].西北大学学报（自然科学版）,2015,45(5):721-726. 被引量：1
5李晓,蒋同海,周喜,王磊,杨雅婷.面向复杂形态语言机器翻译的多模型融合词性标注研究[J].网络新媒体技术,2014,3(1):60-64. 被引量：1
6陈鹏,古丽拉.阿东别克.隐马尔可夫模型在维吾尔语词性标注中的应用[J].电脑知识与技术,2006,1(4):127-128. 被引量：1
7牛洪梅,加米拉.吾守尔,吐尔根.依布拉音.现代维吾尔语的词性标注校对技术研究[J].伊犁师范学院学报（自然科学版）,2007,1(1):43-46. 被引量：2
8哈里旦木.阿布都克里木,吐尔根.依布拉音,帕力旦.吐尔逊,艾山.吾买尔,阿布都热依木.热合曼,阿布都克力木.阿不力孜.基于短语结构语法的维吾尔语规则库建设[J].现代计算机,2010,16(5):30-33. 被引量：2
9阿里甫.库尔班,吾买尔江.库尔班,吐尔根.伊布拉音.信息处理维吾尔语词语分类体系及标记研究(Ⅰ)[J].新疆大学学报（自然科学版）,2009,26(4):476-481. 被引量：5

现代计算机

2017年第5期

浏览历史

内容加载中请稍等...

基于HMM的维吾尔语词性标注研究被引量：1

参考文献9

二级参考文献91

共引文献320

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于HMM的维吾尔语词性标注研究 被引量：1

参考文献9

二级参考文献91

共引文献320

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于HMM的维吾尔语词性标注研究被引量：1