一种基于混合判定模型的复合概念抽取方法被引量：3

A Method of Compound Concept Extraction Based on Hybrid Judgment Model

下载PDF

导出

摘要从大规模领域语料库中抽取领域概念,现有方法不能有效识别复合概念.本文提出一种基于混合判定模型的复合概念抽取方法,首先对文本进行分词处理,为每个词条添加词条标签,并对词条集进行噪音词消除和同义词合并处理,然后统计词条的加权词频,根据词条标签值计算位置亲和度和位置匹配度,判定和筛选可组合成复合概念的原子词条,最后通过设置不同复合深度值,实现多重复合概念抽取.采用不同规模语料库进行抽取实验,实验结果表明本文方法具有更高的召回率和准确率. The existing methods could not identify compound concept effectively from large-scale domain corpus.This paper proposes a method of compound concept extraction based on a hybrid model.Firstly,we make segmentation processing for corpus texts and add entry label for each term.We secondly remove noise words and merge synonyms for the entry set.Then we count the weighted term frequency,the location affinity degree,the location matching degree,and make a stepwise estimation to identify composite concept with atomic terms.Ultimately we realize the extraction of multiple-compound concept via giving different compound depth.On the foundation of the extraction method,we carried out the experiments with different corpora for compound concept extraction.The results indicated the method has higher recall and precision.

作者欧阳柳波邹北骥刘丽杰

机构地区中南大学信息科学与工程学院湖南大学软件学院

出处《电子学报》 EI CAS CSCD 北大核心 2013年第3期488-495,共8页 Acta Electronica Sinica

关键词语料库领域概念复合概念加权词频词条标签位置亲和度复合深度 corpus domain concept compound concept weighted term frequency entry label location affinity compound depth

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：275
2叶育鑫,欧阳丹彤.混合语义约简和选择估值优化SPARQL[J].电子学报,2010,38(5):1205-1210. 被引量：5
3邱田,李鹏飞,林品.一个基于概念语义近似度的Web服务匹配算法[J].电子学报,2009,37(2):429-432. 被引量：23
4李曼,王大治,杜小勇,王珊.基于领域本体的Web服务动态组合[J].计算机学报,2005,28(4):644-650. 被引量：141
5陈刚,陆汝钤,金芝.基于领域知识重用的虚拟领域本体构造[J].软件学报,2003,14(3):350-355. 被引量：112
6Huaping Zhang, Honglmi Yu, Deyi Xiong, Qun Liu. HHMM- based chinese lexical analyzer ICTCLAS [A]. Proceedings of the Second SIGHAN Workshop on Chinese Language Process- ing [ C]. Morristown, NJ USA: Association for Computational Linguistics,2003,184 - 187.
7崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
8Fuchun Peng, Fangfang Feng, Andrew McCallum. Chinese seg- mentation and new word detection using conditional random fields E A~. Proceedings of the 20th International Conference on Computational Linguistics [C]. Morristown, NJ USA: Associa- tion for Computational Linguistics, 21304.562 - 568.
9Xu Sun, Yaozhong Zhang, Takuya Matsuzaki, Yoshimasa Tsu- ruoka, Jun' ichi Tsujii. A discriminative latent variable chinese segmenter with hybrid word/character information [ A]. Pro-ceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics [C] .Mordstown,NJ USA:Asso- ciation for Computational Linguistics, 2009.56 - 64.
10Ruiqiang Zhang, Keiji Yasuda, Eh'chiro Sumita. Chinese word segmentation and statistical machine translation [ J ]. ACM Transactions on Speech and Language Processing (TSLP), 2008,5(2) : 1 - 19.

二级参考文献125

1李景山,廖华明,侯紫峰,徐志伟.普及计算中基于接口语义描述的动态服务组合方法[J].计算机研究与发展,2004,41(7):1124-1134. 被引量：20
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3汪锦岭,金蓓弘,李京.一种高效的RDF图模式匹配算法[J].计算机研究与发展,2005,42(10):1763-1770. 被引量：13
4罗贝,吴洁,曹存根,邵志清.从文本中获取植物知识方法的研究[J].计算机科学,2005,32(10):6-13. 被引量：13
5刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18
6余蕾,曹存根.基于Web语料的概念获取系统的研究与实现[J].计算机科学,2007,34(2):161-165. 被引量：6
7L Clement, A Hately, C von Riegen, T Rogers. UDDI Version 3. 0. 2 [ EB/OL]. http://uddi. org/pubs/uddi-v3. 0. 2- 20041019. htm, 2004.
8T Bray, J Paoli, C M. Sperberg-McQueen, E Maler, F Yergeau. Extensible Markup Language(XML) 1.0(Fourth Edition) [ EB/ OL]. http://www. w3. org/TR/2006/REC-xml-20060816/, 2006.
9D Martin, M Burstein, J Hobbs, O Lassila, D McDermott, S Mcllraith, S Narayanan, M Paolucci, B Parsia, T Payne, E Sirin, N Sfinivasan, K Sycara. OWL-S: Semantic Markup for Web Services [ EB/OL ]. http://www. w3. org/Submission/ 2004/SUBM- OWL- S-20041122/, 2004.
10D L McGuinness, F van Harmelen. OWL Web Ontology Language Overview[ EB/OL ]. http://www. w3. org/TR/2004/ REC- owl- features- 20040210/, 2004.

共引文献570

1张逸,李渴,邵振国,罗海荣.基于标准文件的电能质量领域本体构建方法[J].电力系统自动化,2020,44(17):102-111. 被引量：6
2赵峰,闫斌.基于领域本体的Web服务合成的研究与应用[J].中国电力教育,2007(z2):221-223.
3龚嘉,彭鑫,赵文耘.基于领域语义的分层Web服务组装方法[J].计算机工程与科学,2006,28(z2):157-159.
4高俊杰,邓贵仕.基于本体的范例推理系统研究综述[J].计算机应用研究,2009,26(2):406-410. 被引量：10
5黄香君,郑庆华.基于Ontology的电子税务集成方法[J].宁夏大学学报（自然科学版）,2004,25(2):147-150.
6孙永新,闫大顺,李晟.语义Web的初步逻辑研究[J].软件导刊,2010,9(5):29-31.
7谢学斌,黄俊玲.E—Learning的现状及在教育中如何促进它的发展[J].考试周刊,2007(11).
8陈海燕,刘建勋,胡蓉.可信Web服务合成研究综述[J].吉首大学学报（自然科学版）,2011,32(1):30-36. 被引量：3
9徐方斌,刘仁义,张丰,杜震洪,曾志,卢英萍.一种使用语义和遗传进化思想的CAD和GIS数据转换方法[J].浙江大学学报（理学版）,2012,39(5):587-592. 被引量：3
10王永建,邱爽.生物信息数据库服务自动生成系统[J].计算机研究与发展,2012,49(S2):200-203.

同被引文献30

1郭雨梅,景勇,郭晓亮,张璐.开放科学形势下科技期刊知识服务平台运营模式探析[J].编辑学报,2023,35(3):273-278. 被引量：14
2张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
3贾秀玲,文敦伟.一种本体学习中分类关系提取方法的研究[J].计算机技术与发展,2007,17(10):31-33. 被引量：11
4张新,党延忠.基于规则与统计的本体概念自动获取方法研究[J].情报学报,2007,26(6):813-820. 被引量：10
5Sun Xu, Zhang Yaozhong, Matsuzaki T, et al. A discriminative latent variable chinese segmenter with hybrid word/character information[C] //Proc of Annual Conference of the North American Chapter of the Association for Computational Linguistics. Morristown, NJ:Association for Computational Linguistics, 2009:56-64.
6Peng Fuchun, Feng Fangfang, McCallum A. Chinese segmentation and new word detection using conditional random fields[C] //Proc of the 20th International Conference on Computational Linguistics. Morristown, NJ:Association for Computational Linguistics, 2004:562-568.
7Zhang Ruiqiang, Yasuda K, Sumita E. Chinese word segmentation and statistical machine translation[J] . ACM Trans on Speech and Language Processing, 2008, 5(2):1- 19.
8VELARDI P, MISSIKOFF M, BASILI R. Identification of relevant terms to support the construction of domain ontologies[C]//Proceedings of workshop on Human Language Technologies.ACL workshop on HLT,Toulouse:ACM,2001:1-8.
9NAVIGLI R, VELARDI P. Learning domain ontologies from document warehouses and dedicated web sites[J]. Computational Linguistics, 2004,30(2): 151-179.
10王大亮,涂序彦,郑雪峰,佟子健.多策略融合的搭配抽取方法[J].清华大学学报（自然科学版）,2008,48(4):608-612. 被引量：6

引证文献3

1欧阳柳波,周伟光.基于位置标签与词性结合的组合词抽取方法[J].计算机应用研究,2016,33(4):1062-1065. 被引量：3
2秦杰,曹雷,彭辉,赖俊.基于综合值修正的领域概念筛选算法[J].解放军理工大学学报（自然科学版）,2016,17(3):203-208.
3常宗强,刘蔚,侯春梅,叶喜艳,张静辉,陶华,庞瑜.科技期刊热词评估指标构建及知识服务[J].中国科技期刊研究,2024,35(4):461-465.

二级引证文献3

1陈梅婕,谢振平,陈晓琪,许鹏.专利新词发现的双向聚合度特征提取新方法[J].计算机应用,2020,40(3):631-637. 被引量：6
2郭理,张恒旭,王嘉岐,秦怀斌.基于Trie树的词语左右熵和互信息新词发现算法[J].现代电子技术,2020,43(6):65-69. 被引量：12
3申兆媛,巢翌,李晓龙,张伟.针对特定领域的新词发现方法研究[J].计算机仿真,2022,39(6):269-273. 被引量：1

1于彤,杨硕,贾李蓉,刘静,高博,张竹绿,于琦,李敬华.基于OWL的中医证候知识建模方法研究[J].中国数字医学,2014,9(10):76-78. 被引量：5
2张纯青,陈超,邵正荣,俞能海.基于加权词频的信息检索相似度评价模型[J].计算机仿真,2008,25(1):134-137. 被引量：2
3欧阳柳波,周伟光.基于位置标签与词性结合的组合词抽取方法[J].计算机应用研究,2016,33(4):1062-1065. 被引量：3
4欧阳柳波,兰小飞,伍振兴.一种基于文本的领域本体进化需求自动生成模型[J].计算机系统应用,2010,19(6):144-147. 被引量：1
5陈璐,赵衍,尚珊珊.基于加权词频的I-Match算法改进及其应用分析--以电商网站为例[J].上海管理科学,2016,38(1):51-54.
6王晓升,罗英丽.基于VERICUT的多重复合循环加工程序仿真[J].机械工程师,2015(2):139-140.
7谈文蓉,冯山,刘莉.语义分析在汉语相似性文献检测中的应用研究[J].四川师范大学学报（自然科学版）,2010,33(4):554-558. 被引量：1
8文必龙,史春波,关翔瑞.一种数据元语义描述方法[J].哈尔滨商业大学学报（自然科学版）,2010,26(1):64-67. 被引量：5
9吴月萍,陈玉泉.基于Web的概念属性抽取的研究[J].中国管理信息化,2009,12(10):98-101. 被引量：7
10李小兵,杨一平,刘曙光,郭域峰.面向主题的概念检索研究[J].计算机工程与应用,2005,41(34):168-171. 被引量：4

电子学报

2013年第3期

浏览历史

内容加载中请稍等...

一种基于混合判定模型的复合概念抽取方法被引量：3

参考文献12

二级参考文献125

共引文献570

同被引文献30

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于混合判定模型的复合概念抽取方法 被引量：3

参考文献12

二级参考文献125

共引文献570

同被引文献30

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于混合判定模型的复合概念抽取方法被引量：3