基于最大熵模型的汉语句子分析被引量：16

Chinese Sentence Parsing Based on Maximum Entropy Model

下载PDF

导出

摘要文中运用浅层句法分析理论 ,把汉语句子分析划分为标注、组块、构造和检查三个过程 .并针对已有概率评价模型的特征类型少 ,不能充分利用上下文中对分析有用的信息等问题 ,提出了基于最大熵的概率评价模型来评估分析过程中每个行为的概率 .在该模型中 ,对分析有用的任何信息都可以成为模型中的一个特征 ;定义了静态模板结构的特征集和训练集 ,给出了相应的特征选择策略和基于GIS的参数估计算法 ;采取BFS算法高效搜索概率值最高的候选句法树作为最终的句法分析结果 .实验结果表明 :该模型具有较高的分析效率和准确性 . The shallow parsing theory is applied to partition Chinese sentence parsing into three procedures: TAG, CHUNK, BUILD and CHECK. To resolve the problem of lacking feature types for available probabilistic models and make the best of useful information for parsing in context, we present probabilistic model based on maximum entropy to evaluate the probability of each action in the parsing procedures. In this model, any useful information for parsing in a context could be an actual feature; the features and training events are defined; the strategy of feature selection and the algorithm of parameter estimation based on Generalized Iterative Scaling (GIS) are given; The final result of parsing is the parse tree with the largest probability searched with Breadth-first search (BFS). The model is experimentally proved satisfying in both parsing efficiency and precision.

作者徐延勇周献中井祥鹤郭忠伟

机构地区南京理工大学自动控制系

出处《电子学报》 EI CAS CSCD 北大核心 2003年第11期1608-1612,共5页 Acta Electronica Sinica

基金国家自然科学基金资助项目 (No .60 1 740 2 8)

关键词自然语言处理最大熵模型组块句法分析广度优先搜索 Algorithms Entropy Mathematical models Parameter estimation Probability Trees (mathematics)

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
2李素建,刘群,白硕.统计和规则相结合的汉语组块分析[J].计算机研究与发展,2002,39(4):385-391. 被引量：21
3徐延勇,郭忠伟,周献中.基于最大熵方法的统计语言模型[J].计算机工程与应用,2002,38(5):53-55. 被引量：4
4朱靖波,张玥杰,姚天顺.一种短语结构规则的自动获取方法[J].计算机研究与发展,1999,36(5):601-607. 被引量：3

二级参考文献39

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
2周强.一个汉语短语自动界定模型[J].软件学报,1996,7(A00):315-322. 被引量：9
3孙宏林.从标注语料库中姨纳语法规则：“V+N”序列试验分析.语言工程[M].北京:清华大学出版社,1997.157-163.
4[2]Darroch J N,Ratcliff D.Generalized iterative scaling for log-linear models[J].The Annals of Mathematical Statistics, 1972;43(5): 1470-1480
5[3]Au R Rosenfeld. Adaptive language modeling using the maximum entropy principle[C].ln:Proceedings of the Human Language Technology Workshop ,ARPA: 1993: 108-113
6[4]Rosenfeld R.A maximum entropy approach to adaptive statistical language modeling[J].Computer, Speech, and Language, 1996; 10
7[5]Jaynes E T.Notes on present status and future prospects[C].ln:Grandy W T,Schick L Heds. Maximum Entropy and Bayesian Methods,Kluwer: 1990:1-13
8姚天顺，自然语言理解.一种让机器懂得人类语言的研究，1995年，220页
9Abney, 1996b. Partial parsing via finite-state cascades. In Proceedings of the ESSLLI '96 Robust Parsing Workshop.
10Argamon, S., I. Dagon and Y. Krymolowsky. 1998. A memory-based approach to learning shallow natural language patterns. In Proceedings of COLING-ACL '98. Pp. 67-73.

共引文献58

1谌志群,张国煊.基于浅层文本分析的中文Web信息检索[J].杭州电子科技大学学报（自然科学版）,2008,28(1):48-51. 被引量：1
2刘云,俞士汶.“句管控”与中文信息处理[J].汉语学报,2004(2):56-62. 被引量：5
3罗三定,廖程锋.一种新的搜索引擎探讨[J].情报学报,2004,23(4):428-432. 被引量：2
4程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
5许云,樊孝忠,张锋.基于生成语法的英语时态判断[J].计算机工程与应用,2004,40(26):226-228. 被引量：3
6陈欣,和金生,董丽平.知识创新随机过程最大熵模型[J].中国工程科学,2004,6(12):43-46.
7曹建芳,郑家恒.基于SVM的汉语动词短语识别[J].咸阳师范学院学报,2004,19(6):32-34. 被引量：3
8孙广范,宋金平,袁琦.基于混合策略的汉英双向机器翻译系统的设计[J].中文信息学报,2006,20(B03):25-30. 被引量：2
9张运良.语义块的多元逻辑组合构成研究[J].计算机应用研究,2006,23(11):15-18.
10王蕾,杨季文.基于属性标记的专有名词自动识别研究[J].计算机技术与发展,2006,16(11):195-198.

同被引文献116

1扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
2李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：29
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
6孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
7冯志伟.基于短语结构语法的自动句法分析方法[J].当代语言学,2000,2(2):84-98. 被引量：16
8林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
9张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
10游斓,周雅倩,黄萱菁,吴立德.基于最大熵模型的QA系统置信度评分算法[J].软件学报,2005,16(8):1407-1414. 被引量：8

引证文献16

1王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：8
2余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
3戴文华,焦翠珍,徐斌.基于统计的自然语言处理模型[J].咸宁学院学报,2005,25(3):79-82. 被引量：3
4吕琳,刘玉树.最大熵和Brill方法结合识别英语BaseNPs[J].北京理工大学学报,2006,26(6):500-503. 被引量：6
5徐建军,吴玲达,司光亚,张昱,谢毓湘.战略态势叙事性表现技术研究[J].系统仿真学报,2007,19(11):2500-2502. 被引量：3
6于江德,樊孝忠,尹继豪.隐马尔可夫模型在自然语言处理中的应用[J].计算机工程与设计,2007,28(22):5514-5516. 被引量：14
7孙昂,江铭虎,贺一帆,陈林,袁保宗.基于句法分析和答案分类的中文问答系统[J].电子学报,2008,36(5):833-839. 被引量：14
8孙广路,王晓龙,刘秉权,关毅.基于词聚类特征的统计中文组块分析模型[J].电子学报,2008,36(12):2450-2453. 被引量：7
9范士喜,王晓龙,王轩,张耀允.面向真实环境的问句分析方法[J].电子学报,2010,38(5):1131-1135. 被引量：10
10王晓涓,赵春.最大熵方法在英语名词短语识别中的应用研究[J].计算机仿真,2011,28(3):414-417. 被引量：2

二级引证文献76

1张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：8
2袁里驰.Improved head-driven statistical models for natural language parsing[J].Journal of Central South University,2013,20(10):2747-2752. 被引量：1
3王昊.基于层次模式匹配的命名实体识别模型[J].现代图书情报技术,2007(5):62-68. 被引量：8
4郑彦宁,化柏林,张新民.信息检索与信息抽取差异性探析[J].图书情报工作,2007,51(10):17-20. 被引量：1
5李伟通,皮德常.基于统计学习的自然语言对话系统的设计与实现[J].微计算机应用,2008,29(7):38-46.
6吴凡.信息检索中的中文分词问题研究[J].情报杂志,2008,27(7):41-43. 被引量：4
7王志堂,蔡淋波.隐马尔可夫模型(HMM)及其应用[J].湖南科技学院学报,2009,30(4):42-44. 被引量：15
8张志昌,张宇,刘挺,李生.开放域问答技术研究进展[J].电子学报,2009,37(5):1058-1069. 被引量：17
9张娜,李辉,唐娟.问答系统中基于语义概念的问题答案形成方法研究[J].西华大学学报（自然科学版）,2009,28(4):50-53.
10朱嘉瑜,叶海燕,高鹰.基于隐马尔可夫模型的股票价格预测组合模型[J].计算机工程与设计,2009,30(21):4945-4948. 被引量：8

1方林,程景云.一种适用于自然语言句子分析的自顶向下回溯算法[J].微型计算机,1994,14(6):20-22.
2魏松.随机森林及其改进模型在浅层句法分析中的应用[J].计算机工程与应用,2008,44(9):159-161.
3敖丽敏,冯潮阳.一种上下文无关语言语法树的存储模式及其应用[J].小型微型计算机系统,2005,26(12):2245-2249.
4高中二册（下）Units 18—20重难点句子分析[J].中学英语之友（新教材高二版）,2010(5):9-11.
5王仲华,卢娇丽,付继宗.基于HMSVM模型的中文浅层句法分析[J].电脑开发与应用,2013,26(2):30-32. 被引量：1
6叶楠,郝子宇,郑方,谢向辉.BFS算法与众核处理器的适应性研究[J].计算机研究与发展,2015,52(5):1187-1197. 被引量：7
7胡志军.E块在句类中的作用及其判定策略[J].忻州师范学院学报,2002,18(1):63-64.
8李敬雨.借助句子分析,促进历史有效复习[J].中学政史地（高中文综）,2016,0(7):45-47.
9袁玲玲.英语阅读中句子分析的魂[J].中学生英语（中旬刊）,2011(9):25-27.
10李晓黎,郭炳炎.分析汉语句子的EBL模型[J].山西大学学报（自然科学版）,1995,18(3):285-289.

电子学报

2003年第11期

浏览历史

内容加载中请稍等...

基于最大熵模型的汉语句子分析被引量：16

参考文献4

二级参考文献39

共引文献58

同被引文献116

引证文献16

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

基于最大熵模型的汉语句子分析 被引量：16

参考文献4

二级参考文献39

共引文献58

同被引文献116

引证文献16

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

基于最大熵模型的汉语句子分析被引量：16