一种介词-动词模式的获取方法被引量：1

Method of Preposition-verb Pattern Acquisition

下载PDF

导出

摘要基于模式的知识获取方法研究是当前文本知识获取的重点研究之一,如何获得文本知识模式是该研究中的一个重要研究内容。提出一种新的基于介词和动词模式(称为PV模式)的获取方法。首先构造出一个候选的动词介词组合(称为PV组合),使用统计方法对其进行过滤。度量PV组合好坏有两个标准:一个是模式词的表示能力,另一个是模式词与概念词之间及多个概念词之间的相关性。依据这两个标准构造了6个数值特征,通过训练产生了3个分类器,采用交叉验证的方式估计出3个分类器的精度分别达到0.853,0.862和0.856。这些分类器为从PV组合中自动挑选PV模式提供依据。 Pattern-based knowledge acquisition is an important research area in the research of knowledge acquisition from text （KAT）. One topic of this research is how to harvest textual knowledge patterns. A novel method on acquisition of preposition-verb patterns （PV Patterns） was proposed. First, candidate preposition-verb pairs （PV pairs） were generated, and filtered by a combination of a rule-based method and statistical methods. Designed two criteria to evaluate PV patterns：coverage on instances of semantic relations and relevance among the concept words and pattern words, which lead us to construct six numeric features for PV patterns. Three classifiers were trained using these six features. The precision rates,which are estimated via cross-validation,of three classifiers are up to 0. 853,0. 862 and 0. 856, respectively. These classifiers provide a solid basis for automatically selecting PV patterns from PV pairs.

作者吴昱明曹存根

机构地区首都师范大学计算机联合研究院中国科学院计算技术研究所

出处《计算机科学》 CSCD 北大核心 2008年第11期139-143,共5页 Computer Science

基金国家自然基金(60496326 60573063 60573064和60773059) 863课题(2007AA01Z325)的资助

关键词文本知识获取文本模式获取模式分类 Knowledge acquisition from tex,Text pattern acquisition,Pattern classification

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Wang Shi,Cao Yanan, Cao Xiny, et al. Learning Concepts from Text Based on the Inner-constructive Model//Proceedings of 2nd International Conference on Knowledge Science Engineering and Management. Melbourne, Australia, 2007
2余蕾,曹存根.基于Web语料的概念获取系统的研究与实现[J].计算机科学,2007,34(2):161-165. 被引量：6
3Hearst M. Automatic acquisition of hyponyms from large text corpora//Proeeedings of the 14th Conference on Computational Linguistics. Nantes, France, 1992
4Hearst M. Automated discovery of wordnet relations///Fellbaum C, ed. WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press, 1998 : 131-151
5Riloff E. Automatically generating extraction patterns from untagged text // Proceedings of the 13rd National Conference on Artificial Intelligence. Oregon,USA, 1996
6刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18
7Tian Guogang, Cao Cungen, Liu Lie, et al. MFC: A Method of Co-referent Relation Acquisition from Large-scale Chinese Corpora//Proceedings of Third International Conference on Fuzzy Systems and Knowledge Discovery. Xi'an, China, 2006
8Surdeanu M, Turmo J, Ageno A. A Hybrid Approach for the Acquisition of Information Extraction Patterns//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics. Trento, Italy, 2006
9Nello C, John S-T, Huma L. Latent Semantic Kemels // Proceedings of the 18th International Conference on Machine Learning. MA, USA, 2001
10Ian W, Eibe F. Data Mining: Practical Machine Learning Tools and Techniques. Second Edition. Burlington, MA: Morgan Kaufmann, 2005

二级参考文献27

1张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
2罗贝,吴洁,曹存根,邵志清.从文本中获取植物知识方法的研究[J].计算机科学,2005,32(10):6-13. 被引量：13
3刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18
4郑家恒杜永萍宋礼鹏.农业病虫害词汇获取方法初探[A]..第七届全国计算语言学联合学术会议论文集(JSCL-2003)[C].北京:清华大学出版社,2003..
5Miller G.WordNet:An On-line Lexical Database.International Journal of Lexicography,1990,3(4)
6Beeferman D.Lexical discovery with an enriched semantic network.In:Proceedings of the Workshop on Applications of Word-Net in Natural Language Processing Systems,ACL/COLING,1998
7Richardson S D,Dolan W B,Vandervende L.Mindnet:acquiring and structuring semantic information from text.In:Proc.of COL-ING-ACL'98,1998.1098～1102
8Cao Cungen,Shi Qiuyan.Acquiring Chinese Historical Knowledge from Encyclopedic Texts.In:Proceedings of the International Conference for Young Computer Scientists,2001.1194～1198
9Dolan W,Vanderwende L,Richardson S D.Automatically Deriving Structured Knowledge Bases From On-Line Dictionaries.In:Proceedings of the Pacific Association for Computational Linguistics.Vancouver,British Columbia,1993.5～14
10Shinzato K,Torisawa K.Acquiring hyponymy relations from web documents.In:Proceedings of HLT-NAACL 2004.73～80

共引文献20

1余蕾,曹存根.基于Web语料的概念获取系统的研究与实现[J].计算机科学,2007,34(2):161-165. 被引量：6
2姜琳,李宇,卢汉,曹存根.地理实体概念及其位置关系的获取和验证[J].计算机科学,2007,34(12):151-156. 被引量：2
3刘磊,章森,刁麓弘,闫淑英.基于Web的种子驱动的“isa”关系的模式表示和获取[J].计算机工程与应用,2008,44(21):148-150.
4陈建超,郑启伦,李庆阳,严桂夺.基于特征词关联性的同义词集挖掘算法[J].计算机应用研究,2009,26(7):2517-2519. 被引量：10
5陈建超,郑启伦,李庆阳,严桂夺.基于词序列频率有向网的中文组合词提取算法[J].计算机应用研究,2009,26(10):3746-3749. 被引量：6
6王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
7刘兴林,陈建超,马千里.基于互联网的词汇语义知识库构建框架研究[J].计算机与现代化,2010(10):8-11. 被引量：1
8邓盼盼,常春.本体模式下网络叙词表的发展[J].情报理论与实践,2013,36(4):99-101. 被引量：3
9范庆虎,昝红英,柴玉梅,张坤丽,贾玉祥.多资源融合的下位词发现[J].计算机工程与设计,2013,34(12):4310-4315. 被引量：1
10莫媛媛,郭剑毅,余正涛,蒋年树,线岩团.基于CCRF的领域本体概念上下位关系抽取[J].计算机工程,2014,40(6):138-141. 被引量：3

同被引文献8

1冯志伟.自然语言处理中的概率语法[J].当代语言学,2005,7(2):166-178. 被引量：10
2王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
3冯志伟.用上下文无关语法来描述汉字结构[J].语言科学,2006,5(3):14-23. 被引量：9
4姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79. 被引量：78
5夏雨禾.微博互动的结构与机制——基于对新浪微博的实证研究[J].新闻与传播研究,2010,17(4):60-69. 被引量：174
6黄萱菁,张奇,吴苑斌.文本情感倾向分析[J].中文信息学报,2011,25(6):118-126. 被引量：61
7庞磊,李寿山,周国栋.基于情绪知识的中文微博情感分类方法[J].计算机工程,2012,38(13):156-158. 被引量：32
8杨明辉,郭肇德.基于扩展的BNF文法的通用语法分析算法[J].软件学报,1992,3(3):24-32. 被引量：3

引证文献1

1张露晨,张良,孙昊良,方芳,曹阳,曹存根.基于领域文法的微博舆情分析方法及其应用[J].计算机应用与软件,2016,33(8):43-49. 被引量：1

二级引证文献1

1陈智,梁娟,谢兵,傅篱.基于Python的微博发表意向预测研究[J].物联网技术,2018,8(4):56-58.

1苑金海,刘弘.基于遗传算法和K-medoids算法的产品设计文本知识获取[J].聊城大学学报（自然科学版）,2010,23(4):100-102. 被引量：1
2邹远文,吴伟林,殷国富.嵌入式系统快速开发平台的建立与应用[J].四川联合大学学报（工程科学版）,1999,3(5):139-143. 被引量：4
3张德政,阿孜古丽,刘洁卉.基于图分析的领域知识获取技术[J].北京科技大学学报,2007,29(S2):194-198. 被引量：1
4王娜娜,黄运有,唐素勤,王石,曹存根.基于OMKast的术语关系获取和验证[J].计算机应用研究,2015,32(11):3319-3323. 被引量：1
5王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
6毛文吉,陆汝钤.基于SELD描述语言的英文科技文本知识自动获取[J].计算机学报,1998,21(S1):105-111. 被引量：4
7陈娟,韩永花,雷玉霞.基于多文本知识源的历史知识修正与获取[J].计算机工程与应用,2015,51(18):135-139. 被引量：1
8刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18
9杜占坤,吴敏,李铮,邬斌浩,孙承绶.USB2.0SIE的ASIC设计与实现[J].半导体技术,2004,29(10):61-64. 被引量：2
10姜琳,李宇,卢汉,曹存根.地理实体概念及其位置关系的获取和验证[J].计算机科学,2007,34(12):151-156. 被引量：2

计算机科学

2008年第11期

浏览历史

内容加载中请稍等...

一种介词-动词模式的获取方法被引量：1

参考文献10

二级参考文献27

共引文献20

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种介词-动词模式的获取方法 被引量：1

参考文献10

二级参考文献27

共引文献20

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种介词-动词模式的获取方法被引量：1