HNC语义标注模型的构建被引量：3

Novel HNC Conceptual Tagging Model for Corpus

下载PDF

导出

摘要介绍一种基于HNC理论的、人机结合的汉语语料语义标注模型。首先分析了HNC语义标注的内容,在此基础上定义了标注的流程。因标注十分复杂,在流程的主要环节使用机器标注来帮助人工标注。具体地说,在语义块切分问题上采用最大熵模型,其正确率和召回率分别达到了83.78%和91.17%;在句类判断问题上采用基于实例的模型,其正确率达到了51.64%。运用此标注模型建设了HNC语义标注语料库,目前语料规模已达到40万字。 This paper introduced a novel conceptual tagging model for corpus which is based on the Hierarchical Network of Concepts （HNC） theory,and which benefits from manual work and automatic machine. Firstly, the contents of tagging were given, and the process of tagging was defined. For the complexity of the process, some machine tagging ways were used to help manual work. A maximum entropy model was adopted to deal with the problem of semantic chunks segmentation, and the test precision and recall are 83.78 % and 91.17 %. An example based model was adopted to deal with the problem of sentence category parsing, and the test precision is 51.64 %. Relying on the model,a HNC corpus was constructed,which currently reaches 400,000 characters.

作者谢法奎张全

机构地区中国科学院研究生院中国科学院声学研究所

出处《计算机科学》 CSCD 北大核心 2009年第5期238-240,268,共4页 Computer Science

基金国家973项目"自然语言理解的交互引擎研究"(2004CB318104) 中国科学院声学研究所"所长择优基金"(GS13SJJ04)资助

关键词概念层次网络语料库最大熵模型 HNC, Corpus, Maximum entropy model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Berger A L,Pietra S A D,Pietra V J D.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22 (1):1-36
2Darroch J N,Rateliff D.Generalized iterafive scaling for loglinear models[J'].The Annals of Mathematical Statistics,1972,43(5):1470-1480
3黄曾阳.HNC理论概要[J].中文信息学报,1997,11(4):11-20. 被引量：55
4李素建,刘群,杨志峰.基于最大熵模型的组块分析[J].计算机学报,2003,26(12):1722-1727. 被引量：58
5周雅倩,郭以昆,黄萱菁,吴立德.基于最大熵方法的中英文基本名词短语识别[J].计算机研究与发展,2003,40(3):440-446. 被引量：61
6张运良,张全.基于HNC理论的语义相关度计算方法[J].计算机工程与应用,2005,41(34):1-3. 被引量：18

二级参考文献41

1张万有.义素分析略说[J].语言教学与研究,2001(1):61-65. 被引量：17
2[1]Erik F, Tjong Kim Sang,Buchholz S. Introduction to the CoNLL-2000 Shared Task: Chunking. In: Proceedings of CoNLL2000 and LLL-2000, Lisbon, Portugal, 2000. 127～132
3[2]Steven A. Parsing by Chunks. In: Berwick, Abney, Tenny eds. Principle-Based Parsing: Kluwer Academic Publishers,1991. 257～278
4[5]Ratnaparkhi A. A maximum entropy model for part-of-speech tagging. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1996
5[6]Ratnaparkhi A. A simple introduction to maximum entropy models for natural language processing. Institute for Research in Cognitive Science, University of Pennsylvania : Technical Report 9708, 1997
6[7]Berger A, Pietra S D, Pietra V D. A maximum entropy approach to natural language processing. Computational Linguistics, 1996,22(1):39～71
7[8]Skut, Wojciech, Thorsten Brants. A maximum entropy partial parser for unrestricted text. In:Proceedings of the 6th Workshop on Very Large Corpora, Montreal, Canada, 1998. 143～151
8[10]Abney S. Part-of-speech tagging and partial parsing. In:Church K, Young S, Bloothooft G eds. Corpus-Based Methods in Language and Speech, An ELSNET volume, Dordrecht:Kluwer Academic Publishers, 1996. 119～136
9[11]Church K W. A stochastic parts program and noun phrase parser for unrestricted text. In:Proceedings of the 2nd Conference on Applied Natural Language Processing, Texas, USA, 1988.136～143
10[12]Ramshaw L A, Marcus M P. Text chunking using transformation-based learning. In: Proceedings of ACL Third Workshop on Very Large Corpora, Cambridge, USA, 1995. 82～94

共引文献173

1李颖,丁华东,许世蒙,罗九林,黄曾阳.概念层次网络中对偶性设计[J].装甲兵工程学院学报,2002,16(1):68-72. 被引量：1
2李颖,丁华东,罗九林.机器翻译中语义块汉英变换处理[J].装甲兵工程学院学报,2002,16(3):5-9. 被引量：2
3李颖,田永昌.基于HNC的命题逻辑推理方法[J].装甲兵工程学院学报,2013,27(2):70-74.
4陆俭明,郭锐.汉语语法研究所面临的挑战[J].世界汉语教学,1998,12(4):3-21. 被引量：95
5刘志文,郝惠宁,肖友芙,黄曾阳.自然语言语句的HNC表示[J].语言文字应用,1998(2):91-94. 被引量：6
6梁子琳,丁润伟,刘宏.基于句类模型的人机对话系统语句库设计[J].华中科技大学学报（自然科学版）,2011,39(S2):316-319.
7李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
8郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
9张珏成.机器自然语言理解研究性质的探讨[J].上海工程技术大学学报,2004,18(3):247-250.
10陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2

同被引文献43

1余丹.关于查全率和查准率的新认识[J].西南民族大学学报（人文社会科学版）,2009,30(2):283-285. 被引量：15
2黄昌宁.关于处理大规模真实文本的谈话[J].语言文字应用,1993(2):1-10. 被引量：25
3黄智生.语义技术与智能交通系统[J].道路交通与安全,2014(1):36-40. 被引量：1
4朱群雄,刘光.CBR技术在Multi-Agent故障诊断中的应用[J].计算机工程与应用,2004,40(21):111-113. 被引量：6
5马亮,陈群秀,蔡莲红.一种改进的自适应文本信息过滤模型[J].计算机研究与发展,2005,42(1):79-84. 被引量：18
6王珏,袁小红,石纯一,郝继刚.关于知识表示的讨论[J].计算机学报,1995,18(3):212-224. 被引量：54
7汤廷孝,刘勇,黄翔,廖文和.CBR系统中的实例修改研究[J].机械科学与技术,2006,25(4):390-393. 被引量：8
8李玲娟,王汝传.基于规则的IDS中的CBR研究[J].计算机科学,2006,33(5):117-120. 被引量：3
9刘贵全,曾宇斌.基于最大熵模型的汉语依存分析[J].计算机工程,2006,32(11):216-218. 被引量：2
10杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：240

引证文献3

1柳玉,贲可荣.案例推理的故障诊断技术研究综述[J].计算机科学与探索,2011,5(10):865-879. 被引量：14
2唐守利,徐宝祥.基于本体的云服务语义标注演进研究[J].情报理论与实践,2015,38(4):130-135.
3吴一凡,薛醒思,柯学,詹先银,刘伟,张清端,何子皓,吴秉恒.基于领域本体的股票资讯新闻自动语义标注技术[J].宝鸡文理学院学报（自然科学版）,2019,39(4):66-72. 被引量：1

二级引证文献15

1陈锐,李黔,尹虎.案例推理技术在钻井风险预测中的应用[J].断块油气田,2013,20(2):225-227. 被引量：2
2吴联忠.基于案例推理的危险化学品事故警戒范围研究[J].武警学院学报,2014,30(4):8-12. 被引量：1
3李保刚.基于CBR的航空导弹故障智能诊断模型[J].兵工自动化,2015,34(3):13-17. 被引量：1
4赵鹏,蔡忠春,李晓明.某型飞机环控系统故障诊断系统设计[J].航空维修与工程,2015(4):50-53. 被引量：3
5文天柱,许爱强,孙伟超.基于可拓案例推理的故障诊断方法[J].北京航空航天大学学报,2015,41(11):2124-2130. 被引量：4
6吴彩华,刘畅,张秀峰,于虎.案例推理方法在雷达情报组网系统故障诊断中的应用[J].空军预警学院学报,2016,30(1):26-29.
7章筠.风力发电机组振动故障诊断案例推理系统[J].装备机械,2018(2):13-16. 被引量：2
8门菲.基于案例推理技术的井漏风险识别方法[J].承德石油高等专科学校学报,2019,21(1):22-25. 被引量：1
9蔡德咏,徐弘源,陈福红,刘福军.装备BIT和故障案例融合诊断方法研究[J].计算机测量与控制,2018,26(4):9-10. 被引量：1
10耿志强,景邵星,白菊,王仲凯,朱群雄,韩永明.基于MWSPCA-CBR的智能预警方法研究及其在石化工业中的应用[J].化工学报,2019,70(2):572-580. 被引量：5

1谢法奎,张全.基于最大熵模型的语义块切分[J].计算机工程与应用,2009,45(26):118-120. 被引量：1
2熊亮.基于概念树的文本自动分类系统的研究与实现[J].计算机工程与应用,2005,41(30):6-9. 被引量：2
3丁泽亚,张全.利用概念知识的文本分类[J].应用科学学报,2013,31(2):197-203. 被引量：3
4王轩,李巍,王晓龙,赵淑香.大标记集汉语字(词)Markov 语言模型的建立[J].哈尔滨工业大学学报,1997,29(5):23-27. 被引量：3
5陈渝,秦开大,田亮.基于PowerDesigner的信息系统数据模型建设[J].昆明理工大学学报（理工版）,2004,29(1):45-47. 被引量：10
6俞如富.数据建模的设计研究[J].信息与电脑,2016,28(5):30-31. 被引量：3
7肖明忠,廖全萍,陈笑蓉.自然语言理解新思路─HNC[J].贵州大学学报（自然科学版）,2000,17(2):135-138. 被引量：4
8林杏光.计算机理解语言研究的新突破——《NHC(概念层次网络)理论》述评[J].科技导报,1999,17(1):62-64. 被引量：1
9吴佐衍,王宇.基于HNC理论和依存句法的句子相似度计算[J].计算机工程与应用,2014,50(3):97-102. 被引量：13
10韦向峰,张全,熊亮.一种基于语义分析的汉语语音识别纠错方法[J].计算机科学,2006,33(10):152-155. 被引量：2

计算机科学

2009年第5期

浏览历史

内容加载中请稍等...

HNC语义标注模型的构建被引量：3

参考文献6

二级参考文献41

共引文献173

同被引文献43

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

HNC语义标注模型的构建 被引量：3

参考文献6

二级参考文献41

共引文献173

同被引文献43

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

HNC语义标注模型的构建被引量：3