汉语概率型上下文无关语法的自动推导被引量：7

AN INFERENCE APPROACH FOR CHINESE PROBABILISTIC CONTEXT-FREE GRAMMAR

下载PDF

导出

摘要本文提出了一种汉语概率型上下文无关语法（PCFG）的自动推导方法，它在匹配分析机制上实现了无指导的EM迭代训练算法，并通过对训练语料的自动短语界定预处理以及在集成不同知识源基础上构造合适的初始规则集，保证了训练算法能迅速收敛于符合语言事实的规则概率分布状态．初步的实验结果显示出目前的算法在训练效率和训练结果可信度方面都是令人满意的． This paper proposes a new inference approach for Chinese probabilisticcontext-free grammar, which implements the EM algorithm based on the bracketmatching schemes. Two characteristics of the algorithm are as follows: 1) To pre-process the training texts with automatic constituent boundary prediction tools,which can provide stronger syntactic restriction upon training texts in lower compu-tational costs; 2) To develop an initial rule set by integrating different knowledgeresources, including a set of basic syntactic rules generated by an automatic gram-mar construction t00l and a set of special rules summarized by linguists or extractedfrom treebanks, and provide a better initialization for the learning process. There-fore, a linguistically-motivated and broad-coverage Chinese PCFG rule set can beeasily generated through this algorithm. Current experimental results prove goodlearning efficiency of this algorithm and high reliability of the generated rule set.

作者周强黄昌宁

机构地区北京智能技术与系统国家重点实验室清华大学计算机科学与技术系

出处《计算机学报》 EI CSCD 北大核心 1998年第5期385-392,共8页 Chinese Journal of Computers

基金国家自然科学重点基金中国博士后科学基金

关键词语法推导 PCFG 语料库语言学语言信息处理 Probabilistic context-free grammar, expectation-maximization algorithm, grammar inference

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
2周强，智能技术与系统国家重点实验室:技术报告TR-97001，1997年
3周强，语言工程，1997年，194页
4周强，Proc ICCC’96，1996年，75页
5周强，软件学报，1996年，7卷，增刊，315页
6周强，博士学位论文，1996年
7Shih H H，Comput Speech Lang，1995年，9卷，3期，235页

二级参考文献8

1周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：40
2周强，计算机研究与运用，1993年
3李子云，汉语句法规则，1992年
4房玉清，实用汉语语法，1992年
5吴竞存，现代汉语句法结构与分析，1992年
6范晓，汉语的短语，1991年
7团体著者，世界汉语教学，1989年，1期
8朱德熙，语法答问，1985年

共引文献34

1詹卫东.80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J].当代语言学,2000,2(2):63-73. 被引量：13
2才让加,吉太加.藏语语料库的词性分类方法研究[J].青海师范大学学报（哲学社会科学版）,2005,27(4):112-114. 被引量：5
3才让加,吉太加.基于藏语语料库的词类分类方法研究[J].西北民族大学学报（自然科学版）,2005,26(2):39-42. 被引量：5
4扎洛.语言信息处理的现代藏语词性分类方法研究[J].青海师范大学学报（自然科学版）,2006,22(1):38-41.
5饶弋宁,刘强,杜晓黎,叶蓬.支持智能搜索的自扩展知识库模型的研究和设计[J].计算机应用研究,2006,23(6):223-226. 被引量：4
6刘华.汉语信息处理中短语优势的理据及实验证明[J].语言文字应用,2007(4):129-135. 被引量：3
7程节华,段汉根.汉语短语识别方法研究[J].计算机技术与发展,2008,18(4):67-69. 被引量：1
8周强,张伟,俞士汶.汉语树库的构建[J].中文信息学报,1997,11(4):42-51. 被引量：32
9才让加.藏语语料库词语分类体系及标记集研究[J].中文信息学报,2009,23(4):107-112. 被引量：18
10周强,黄昌宁.汉语句法规则的自动构造方法研究[J].中文信息学报,1998,12(3):1-7. 被引量：3

同被引文献59

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2鲁川,林杏光.现代汉语语法的格关系[J].汉语学习,1989(5):11-15. 被引量：64
3许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
4周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
5李幸,宗成庆.引入标点处理的层次化汉语长句句法分析方法[J].中文信息学报,2006,20(4):8-15. 被引量：22
6周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
7毛奇,连乐新,周文翠,袁春风.基于标点符号分割的汉语句法分析算法[J].中文信息学报,2007,21(2):29-34. 被引量：7
8周强.一个汉语短语自动界定模型[J].软件学报,1996,7(A00):315-322. 被引量：9
9孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
10VapnikN 著张学工译.统计学习理论的本质[M].清华大学出版社,2000..

引证文献7

1尹一瓴,陈群秀.现代汉语语义知识库用于句法分析的研究[J].计算机应用,2004,24(B12):264-267. 被引量：1
2朱小娟,陈特放.词频统计中文分词技术的研究[J].仪器仪表用户,2007,14(3):78-79. 被引量：6
3王燚,李中志.基于期待类型的Chart句法分析算法[J].计算机应用,2009,29(5):1251-1253. 被引量：3
4周强,孙茂松,黄昌宁.汉语句子的组块分析体系[J].计算机学报,1999,22(11):1158-1165. 被引量：31
5金新生.句法分析与消解PCFG改进[J].电子设计工程,2012,20(4):53-56.
6牛正雨,柴佩琪.基于边界点词性特征统计的韵律短语切分[J].中文信息学报,2001,15(5):19-25. 被引量：13
7孟遥,李生,赵铁军,杨沐昀.基于统计的句法分析技术综述[J].计算机科学,2003,30(9):54-58. 被引量：7

二级引证文献61

1程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
2赵永贞,刘挺,王志伟,陈惠鹏,邵艳秋.汉语文语转换系统中停顿指数的自动标注[J].中文信息学报,2004,18(5):48-55. 被引量：6
3李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
4谭咏梅,姚天顺,陈晴,李珩,朱靖波.基于SVM+Sigmoid的汉语组块识别[J].计算机科学,2004,31(8):142-146. 被引量：3
5干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
6余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
7郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3
8李玉鑑.英汉翻译模板的标准化方案及其应用[J].中文信息学报,2006,20(B03):41-46.
9荀恩东,钱揖丽,郭庆,宋柔.应用二叉树剪枝识别韵律短语边界[J].中文信息学报,2006,20(3):1-5. 被引量：4
10林煜明,李优.基于SVM的句子组块识别[J].山东大学学报（理学版）,2006,41(3):33-36.

1谭辉,谢金凤.单词类别对概率上下文无关语法句法分析的影响[J].信息与电脑（理论版）,2010(4):172-173.
2张雪.语言学分析技术探究[J].教育,2016,0(38):35-35.
3滕舟,郭跃飞.基于EM的非监督图像多标签区域标定算法[J].计算机应用与软件,2012,29(2):5-8. 被引量：1
4金新生.句法分析与消解PCFG改进[J].电子设计工程,2012,20(4):53-56.
5兰洋.一种利用二叉树来实现逻辑表达式自动推导的算法[J].信阳师范学院学报（自然科学版）,2005,18(2):210-213. 被引量：1
6聂宏宾,侯晴宇,赵明,张伟.基于似然函数EM迭代的红外与可见光图像配准[J].光学精密工程,2011,19(3):657-663. 被引量：12
7向来生,孙威,刘希玉.基于SAS的web文本分类模型研究[J].山东师范大学学报（自然科学版）,2016,31(2):11-17.
8陈晓明,梁雄友.一种实用的PCFG多阶段全局寻优句法分析算法[J].长春理工大学学报（自然科学版）,2010,33(2):143-146.
9孙鑫.自然语言处理中语法分析研究[J].现代图书情报技术,2004(S1):44-46. 被引量：3
10孙守思,邱钧,桂志国,刘畅.重建点模型的EM迭代成像[J].中北大学学报（自然科学版）,2014,35(2):209-217. 被引量：2

计算机学报

1998年第5期

浏览历史

内容加载中请稍等...

汉语概率型上下文无关语法的自动推导被引量：7

参考文献7

二级参考文献8

共引文献34

同被引文献59

引证文献7

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

汉语概率型上下文无关语法的自动推导 被引量：7

参考文献7

二级参考文献8

共引文献34

同被引文献59

引证文献7

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

汉语概率型上下文无关语法的自动推导被引量：7