统计与规则相结合的维吾尔语句子边界识别被引量：7

Sentence boundary detection of Uyghur based on rules and statistics

下载PDF

导出

摘要句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后使用最大熵模型对有歧义段落进行句子边界识别。该方法有效利用规则弥补最大熵模型因数据稀疏而误判不存在任何歧义情况的不足,使用最大熵模型有效地消除歧义,提高算法的鲁棒性,召回率达到了98.77%。 Sentence boundary is an important initial task for many natural language processing applications,such as part-of-speech tagging and parsing etc.This paper proposes an automatic sentence boundary detection method of Uyghur based on rules and statistic.Firstly,the paragraph detecting algorithm classifies the ambiguous and unambiguous paragraph.In the second step,the rule based sentence boundary detector process the unambiguous paragraphs.Finally,the maximum entropy based sentence boundary detecting model identifies the ambiguous paragraph sentences.This method improves robustness of the method by making plenty use of rule to reduce the failure of the ME model to identify the unambiguous paragraphs which can be attributed to the sparsity of the training data used and the ME model to resolve ambiguity,the recall of this method reaches 98.77%.

作者艾山.吾买尔吐尔根.依步拉音

机构地区新疆大学信息科学与工程学院

出处《计算机工程与应用》 CSCD 北大核心 2010年第14期162-165,共4页 Computer Engineering and Applications

基金国家自然科学基金No.60663006 新疆维吾尔自治区高新技术计划项目No.200712109~~

关键词维吾尔文句子边界识别规则特征选择最大熵 Uyghur sentence boundary detection rule feature extraction maximum entropy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Pahner D D,Hearst M A.Adaptive sentence boundary disambiguation[C]//Proceedings of the 1994 Conference on Applied Natural Language Processing(ANLP),Stuttgart,Germany,1994:78.
2阿比达.吾买尔,吐尔根.依布拉音.维吾尔语句子边界识别算法的设计与实现[J].新疆大学学报（自然科学版）,2008,25(3):360-363. 被引量：10
3Riley M D.Some applications of tree-based modelling to speech and language[C]//DARPA Speech and Language Technology Workshop,Cape Ced,Maasachusetts,1998:339-352.
4Reynar J C,Ratnaparkhi A.A maximum entropy approach to identifyhag sentence boundaries[C]//Proceedings of the 1997 Conference on Applied Natural Language Processing,Washington D C,1997:16-19.
5Agarwal N,Ford K H,Shneider M.Sentence boundary detection using a maxEnt classifier[EB/OL].http://nlp.stanford.edu/courses/ca224n/20OS/agarwal_hemdon_shneider_final.pdf.
6Berger A,Della Pietra S A,Della Pietra V J.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):39-71.
7黄成哲,张晓光,李向宏,王丁.英文句子边界自动识别[J].微处理机,2003,24(1):30-34. 被引量：7
8Darroch J,Ratcli D.Generlized iterative scaling for lnglinear models[J].Annals of Mathematical Statistics,1972,43(5):1470-1480.
9Tomur H.Modern Uighur grammar(in Uyghur)[M].Beijing:National Publishing House,1987.

二级参考文献10

1[4]David D. Plamer, 1995. Experiments in Multilingual Sentence Boundary Recognition; Proc. of Recent Advances In Natural Language Processing, Bulgaria,1995
2[5]Andrei Mikheev, 1994. Periods, Capitalized Words etc.Computational Linguistics, 9884 (Vo116: No. 1)
3[6]Andrei Mikheev, 1999. A Knowledge-free Method for Capitalized Word Disambiguation,Proc. of 37th Annual Meeting of the ACL, 1999
4[2]Humphrey, T. , and Zhou, F. Period Disambiguation Using a Neural Network. In IJCNN : International Joint Conference on Neural Networks ,1989 : 606
5[3]Palmer, D. D., and Hearst, M. A. 1994 Adaptive Sentence Boundary Disambiguation. UC Berkeley Computer Science Technical Report Number UCB/CSD -94-797. Also CL,1997
6[1]Riley, M. D. Some Application of Tree- Modeling to Speech and Language Indexing. In Proceedings of the DARPA Speech and Natural Language Workshop,1989:339～352.
7Palmer D D, Hearst M A. Adaptive Multilingual Sentence Boundary Disambiguation[J].Computation Linguistics, 1977,23(2),241-269.
8Mikheev A. Tagging Sentence Boundaries[M]. In Proceedings of the NAACL, Seattle, WA. 2000, 264-271.
9Mark Stevenson, Robert Gaizauskas. Experiments on Sentence Boundary Detection[M].In Proceedings of the ANLP, 2000,84-89.
10黄成哲,张晓光,李向宏,王丁.英文句子边界自动识别[J].微处理机,2003,24(1):30-34. 被引量：7

共引文献13

1贾卫忠,龚育尔.基于C/S结构的英语文章分析系统研究和实现[J].计算机与数字工程,2007,35(2):152-155. 被引量：2
2阿比达.吾买尔,吐尔根.依布拉音.维吾尔语句子边界识别算法的设计与实现[J].新疆大学学报（自然科学版）,2008,25(3):360-363. 被引量：10
3艾山.吾买尔,吐尔根.依步拉音.基于最大熵的维吾尔语句子边界识别模型[J].计算机工程,2010,36(6):24-26. 被引量：7
4张亚军,吐尔根·依布拉音,田生伟.汉语-维吾尔语句子级对齐系统分析及其实现[J].中国科技纵横,2010(6):126-126. 被引量：3
5吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：26
6才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,2011,25(6):157-161. 被引量：18
7才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究[J].计算机工程与科学,2012,34(6):187-190. 被引量：10
8赵维纳,于新,刘汇丹,李琳,王磊,吴健.现代藏语助动词结尾句子边界识别方法[J].中文信息学报,2013,27(1):115-119. 被引量：7
9张亚军,贺琛琛,香丽芸.限定领域的汉语-维吾尔语句子级对齐研究[J].软件,2014,35(3):62-64. 被引量：1
10穆妮热.穆合塔尔,艾孜尔古丽,玉素甫.艾白都拉.现代维吾尔语简单句识别研究[J].计算机光盘软件与应用,2014,17(13):211-212.

同被引文献67

1陈炜,买买提吐尔逊·阿布都拉.现代维吾尔语莎车土语调查及其语音特点分析[J].语言与翻译,2020(1):31-35. 被引量：1
2阿依古再丽·图尔贡.论现代维吾尔动词语义分析构建研究[J].中国新通信,2020,0(1):163-163. 被引量：1
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4冯志伟.基于短语结构语法的自动句法分析方法[J].当代语言学,2000,2(2):84-98. 被引量：16
5格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：10
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
7周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
8祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
9王诗文.汉、藏语句子结构对比研究[J].西南民族大学学报（人文社会科学版）,2007,28(4):50-55. 被引量：4
10陈天莹,陈蓉,潘璐璐,李红军,于中华.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-193. 被引量：25

引证文献7

1李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. 被引量：17
2才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究[J].计算机工程与科学,2012,34(6):187-190. 被引量：10
3张亚军,贺琛琛,香丽芸.限定领域的汉语-维吾尔语句子级对齐研究[J].软件,2014,35(3):62-64. 被引量：1
4艾孜海尔江,艾孜尔古丽,玉素甫.艾白都拉.现代维吾尔语句子分类系统[J].计算机与现代化,2015(3):84-87. 被引量：1
5陈鸿,金培权,岳丽华,胡玉娟,殷凤梅.基于上下文特征分类的评论长句切分方法[J].计算机工程,2015,41(9):233-237. 被引量：2
6热西旦木·吐尔洪太,吾守尔·斯拉木.维吾尔文情感分类特征建设研究[J].计算机应用研究,2019,36(12):3548-3552. 被引量：1
7买买提・许库尔,艾孜尔古丽.现代维吾尔语句子资源库构建研究[J].信息与电脑,2021,33(5):204-207.

二级引证文献25

1马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法[J].西藏大学学报（社会科学版）,2012,27(5):70-76. 被引量：8
2徐涛,加羊吉,于洪志.统计与规则相结合的藏文句子自动断句方法[J].云南大学学报（自然科学版）,2012,34(6):653-657. 被引量：7
3龙从军.藏语文本信息处理的几个关键问题[J].科研信息化技术与应用,2012,3(4):51-58. 被引量：2
4徐涛,于洪志,加羊吉.基于改进卡方统计量的藏文文本表示方法[J].计算机工程,2014,40(6):185-189. 被引量：4
5艾孜海尔江,艾孜尔古丽,玉素甫.艾白都拉.现代维吾尔语句子分类系统[J].计算机与现代化,2015(3):84-87. 被引量：1
6陈鸿,金培权,岳丽华,胡玉娟,殷凤梅.基于上下文特征分类的评论长句切分方法[J].计算机工程,2015,41(9):233-237. 被引量：2
7司莉,何依.2000年以来我国多语言语料库研究进展[J].现代情报,2016,36(6):165-170. 被引量：2
8严灿勋.二分图顶点配对模型下的英汉句子对齐研究[J].中文信息学报,2016,30(5):153-159. 被引量：3
9董亚东,李正宇,汪阳.基于模型空间的树形数据处理方法[J].计算机工程,2017,34(4):194-199. 被引量：2
10高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：6

1张亚军,吐尔根·依布拉音,田生伟.汉语-维吾尔语句子级对齐系统分析及其实现[J].中国科技纵横,2010(6):126-126. 被引量：3
2李康熙,李为山.基于转换的错误驱动与决策树算法的句子边界自动识别[J].科技通报,2012,28(10):134-136.
3李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. 被引量：17
4阿比达.吾买尔,吐尔根.依布拉音.维吾尔语句子边界识别算法的设计与实现[J].新疆大学学报（自然科学版）,2008,25(3):360-363. 被引量：10
5阿里甫.库尔班,吾买尔江.库尔班,尼加提.阿不都肉苏力.维吾尔语框架语义网及框架语义信息管理系统的设计[J].新疆大学学报（自然科学版）,2012,29(3):333-338.
6赵维纳,于新,刘汇丹,李琳,王磊,吴健.现代藏语助动词结尾句子边界识别方法[J].中文信息学报,2013,27(1):115-119. 被引量：7
7张亚军,贺琛琛,香丽芸.限定领域的汉语-维吾尔语句子级对齐研究[J].软件,2014,35(3):62-64. 被引量：1
8马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法[J].西藏大学学报（社会科学版）,2012,27(5):70-76. 被引量：8
9于中华,张容,唐常杰,左劼,张天庆.基于前后文词形特征的生物医学文献句子边界识别[J].小型微型计算机系统,2006,27(1):180-184. 被引量：1
10孟维娟.自然语言处理中的歧义[J].上海电机学院学报,2006,9(S1):16-19. 被引量：1

计算机工程与应用

2010年第14期

浏览历史

内容加载中请稍等...

统计与规则相结合的维吾尔语句子边界识别被引量：7

参考文献9

二级参考文献10

共引文献13

同被引文献67

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

统计与规则相结合的维吾尔语句子边界识别 被引量：7

参考文献9

二级参考文献10

共引文献13

同被引文献67

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

统计与规则相结合的维吾尔语句子边界识别被引量：7