匹配树和决策树方法识别英语句子中的BaseNP 被引量：2

USING MATCHING TREE AND DECISION TREES TO IDENTIFY BaseNP IN ENGLISH SENTENCES

下载PDF

导出

摘要提出了语料库和机器学习相结合的方法识别英语句子中的简单的、非递归的名词短语 (Base NP) .在含有词性标注和 Base NP边界标注的训练语料中 ,抽取所有不同类型 Base NP短语对应的词性序列 (Base NP规则 ) ,通过规则排序和语言学知识 ,对其中正确率低且明显不符合语法的规则进行剔除 .在识别时 ,采取规则匹配树的方法进行最大长度匹配 ,通过归纳机器学习 C4.5算法引入上下文信息 ,由 C4.5算法学习出有效 (或无效 )应用 Base NP规则的条件 ,参照上下文条件 ,约束应用 Base NP规则 .实验结果表明 ,提出的方法具有很高的正确率和召回率 . A new method, which combines the corpus approach with the machine learning approach, is put forward in this paper to identify simple, non recursion noun phrases (BaseNP). Firstly, all different part of speech (POS) strings (BaseNP rules) which are corresponding to BaseNP are extracted from the training corpus tagged with POS and the boundary of each BaseNP. By means of training and based on linguistics knowledge, some BaseNP rules which have lower precision and have no linguistics sense apparently are deleted. Secondly, the remaining BaseNP rules are employed to identify BaseNP in new sentences. In the process, a heuristic algorithm of longest match, which is combined with the machine learning method of inductive decision trees to consult contexts, is applied. Experiments show that this new method results in higher precision and recall precision.

作者荀恩东李生赵铁军

机构地区哈尔滨工业大学计算机科学与工程系

出处《计算机研究与发展》 EI CSCD 北大核心 2000年第7期826-832,共7页 Journal of Computer Research and Development

基金国家自然科学基金国家"八六三"高技术研究发展计划基金

关键词 BaseNP 匹配树决策树英语句子自然语言处理 BaseNP, noun phrase, matching tree, decision tree

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1周强，博士学位论文，1996年

同被引文献12

1张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
2周强.汉语语料库的短语自动划分和标注研究[M].北京：北京大学,1996..
3李秀坤.汉字文本自动查错系统的研究与实现[M].哈尔滨：哈尔滨工业大学计算机系,1995..
4Kukich K. Techniques for Automatically Correcting Words in Text[J ]. ACM Computing Surveys 1992,24(4) :377-439.
5刘群张华平俞鸿魁等.基于层次的隐马尔可夫模型汉语词法分析.2003,15(3):31-40.
6马金山,刘挺,李生.基于n-gram及依存分析的中文自动查错方法[M].哈尔滨工业大学计算机学院信息检索研究室,2003.33-42.
7张仰森丁冰青.中文文本自动校对技术现状及展望.中文信息学报,1997,15(7):47-50.
8荀恩东，计算机研究与发展，2000年，11卷，4期，473页
9周强，学位论文，1996年
10李秀坤，学位论文，1995年

引证文献2

1潘昊,颜军.基于中文分词的文本自动校对算法[J].武汉理工大学学报,2009,31(3):18-20. 被引量：4
2吴岩,李秀坤,刘挺,王开铸.中文自动校对系统的研究与实现[J].哈尔滨工业大学学报,2001,33(1):60-64. 被引量：12

二级引证文献15

1赵艳红,费洪晓.一个基于改进的反序分词词典的中文分词算法[J].深圳职业技术学院学报,2004,3(4):28-31. 被引量：2
2张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
3罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18
4李跃民,王浩,赵生慧.有词典中文分词算法研究[J].滁州学院学报,2008,10(3):22-25. 被引量：3
5潘昊,颜军.基于中文分词的文本自动校对算法[J].武汉理工大学学报,2009,31(3):18-20. 被引量：4
6程显毅,孙萍,朱倩.基于HNC的中文文本校对系统模型的研究[J].微电子学与计算机,2009,26(10):49-52. 被引量：8
7玛依来.哈帕尔,古丽拉.阿东别克.基于N-gram的哈萨克语文本校对系统的设计与实现[J].计算机应用与软件,2012,29(4):9-12. 被引量：4
8蒋凯,刘欣亮,王平,韩飞.一种基于粗糙集的兼类词词性自动校对方法[J].软件导刊,2014,13(9):139-141. 被引量：1
9石敏,高尚.基于决策列表的中文同音词自动识别与校对[J].电子设计工程,2015,23(9):39-41. 被引量：2
10才智杰,孙茂松,才让卓玛.一种基于向量模型的藏文字拼写检查方法[J].中文信息学报,2018,32(9):47-55. 被引量：12

1乔保军,郜方方,侯秀红.基于黄金分割法的订阅间隔树区间划分算法设计[J].河南大学学报（自然科学版）,2015,45(2):207-210.
2苏开娜.视觉定位中将物体的几何模型予编译为匹配树[J].北京工业大学学报,1997,23(2):23-29.
3许满英,张永奎.基于HMM的中文BaseNp的识别[J].电脑开发与应用,2008,21(12):39-41.
4王颖,刘群,王慧强,赖积保.一种基于RDF图的本体匹配方法[J].计算机应用,2008,28(2):460-462. 被引量：5
5什么是线下场景[J].新商务周刊,2016,0(2):94-94.
6肖玮,房至一,王玮,杨宏军.一种适应负载特征的入侵检测方法[J].吉林大学学报（理学版）,2008,46(4):725-728. 被引量：1
7戚湧,胡军,李千目.面向RFID数据处理的复杂事件模式匹配方法[J].计算机科学,2013,40(1):73-76. 被引量：9
8郭永辉,杨红卫,马芳,王炳锡.基于粗糙集的基本名词短语识别[J].中文信息学报,2006,20(3):14-21. 被引量：2
9孟由,栾钟治,谢明,钱德沛.一种基于算子的可扩展复杂事件处理模型[J].软件学报,2014,25(11):2715-2730. 被引量：8
10胡乃全,朱巧明,周国栋.混合的汉语基本名词短语识别方法[J].计算机工程,2009,35(20):199-201. 被引量：7

计算机研究与发展

2000年第7期

浏览历史

内容加载中请稍等...

匹配树和决策树方法识别英语句子中的BaseNP 被引量：2

参考文献1

同被引文献12

引证文献2

二级引证文献15

相关作者

相关机构

相关主题

浏览历史