面向中文网络百科的属性和属性值抽取被引量：12

Attribute and Attribute Value Extracted from Chinese Online Encyclopedia

下载PDF

导出

摘要针对面向中文网络百科条目文章的属性和属性值抽取,提出一种无监督方法。此方法将属性值看做命名实体,利用频繁模式挖掘和关联分析,从文本中抽取类别属性;采用自扩展方法为属性建立触发词表;基于属性触发词和属性值实体标注挖掘属性值抽取模式,利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验,结果表明所提方法行之有效。 An unsupervised approach is proposed to extract attribute and attribute value from Chinese online encyclopedia entry articles. Attribute values are viewed as named entities and class attributes are extracted based on frequent patterns mining and association analysis. A bootstrapping method is used to find attribute trigger words for each attribute. Attribute value extraction patterns are generated automatically from sentences which contain attribute trigger words and named entity tags of attribute value. Hierarchy clustering algorithm is applied to obtain reliable patterns. Experimental dataset are collected from HudongBaike. The experiment results show that the method is feasible and effective.

作者贾真杨宇飞何大可刘胜久尹红风

机构地区西南交通大学信息科学与技术学院

出处《北京大学学报（自然科学版）》 EI CAS CSCD 北大核心 2014年第1期41-47,共7页 Acta Scientiarum Naturalium Universitatis Pekinensis

基金国家自然科学基金(61170111 61202043 61262058) 中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题(20110102) 中央高校基本科研业务费专项基金(SWJTU11ZT08)资助

关键词知识获取属性抽取非结构化文本模式挖掘 knowledge acquisition attribute extraction unstructured text pattern mining

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献29

1Suchanek F,Kasneci G,Weikum G. Yago:a core of semantic knowledge unifying WordNet and Wikipedia // Proc of WWW 2007[J].New York:ACM,2007.697-706.
2Auer S,Bizer C,Lehmann G. DBpedia:a nucleus for a Web of open data[A].{H}Berlin:Springer-Verlag,2007.722-735.
3Wu Fei,Weld D. Autonomously Semantifying Wikipedia[A].New York:ACM,2007.41-50.
4Wu Fei,Weld D. Automatically refining the Wikipedia Infobox Ontology[A].New York:ACM,2008.635-644.
5赵军,刘康,周光有,蔡黎.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110. 被引量：61
6Tokunaga K,Kazama J,Torisawa K. Automatic discovery of attribute words from web documents //Proc of IJCNLP 2005[J].{H}Berlin:Springer-Verlag,2005.106-118.
7Pa(s)ca M. Organizing and searching the world wide web offacts-step two:Harnessing the wisdom of the crowds[A].New York:ACM,2007.101-110.
8Pa(s)ca M,Durme B. Weakly-supervised acquisition of open-domain classes and class attributes from web documents and query logs[A].Stroudsburg:ACL,2008.19-27.
9Kopliku A,Sauvagnat K,Boughanem M. Retrieving attributes using web tables[A].New York:ACM,2011.13-17.
10Sanchez D. A methodology to learn ontological attributes from the web[J].{H}Data & Knowledge Engineering,2010,(69):573-597.

二级参考文献141

1叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
2储泽祥.小句是汉语语法基本的动态单位[J].汉语学报,2004(2):48-55. 被引量：29
3王源.中国化学文献检索系统的建库方针和今后发展[J].现代图书情报技术,1987(1):9-12. 被引量：2
4邢福义.小句中枢说[J].中国语文,1995(6):420-428. 被引量：156
5车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
6余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
7耿骞,耿崇.利用词语共现进行Ontology的概念获取[J].现代图书情报技术,2006(2):43-45. 被引量：10
8李向阳,戴江山,张亚非.一种Web信息抽取规则的优化方法[J].兰州理工大学学报,2006,32(1):90-93. 被引量：3
9耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
10李幸,宗成庆.引入标点处理的层次化汉语长句句法分析方法[J].中文信息学报,2006,20(4):8-15. 被引量：22

共引文献335

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
3姜丽婷,古丽拉·阿东别克,马雅静.基于混合卷积网络的短文本实体消歧[J].中文信息学报,2021,35(11):101-108. 被引量：2
4马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1
5李红亮,杨燕,尹红风,贾真.基于规则的百科人物属性抽取[J].集成技术,2013,2(3):1-4. 被引量：3
6伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
7陆勇,侯汉清.用于信息检索的同义词自动识别及其进展[J].南京农业大学学报（社会科学版）,2004,4(3):87-93. 被引量：24
8片玉君.《汉语主题词表》的新进展及其对中文自动标引的影响[J].现代图书情报技术,1994(3):22-25.
9王兰成,李超.改进的中文同义词相似匹配方法[J].中国图书馆学报,2005,31(3):61-64. 被引量：6
10陆长旭.后控词表的编制方法[J].中国图书馆学报,1994,20(6):18-21.

同被引文献185

1刘瑜,袁一泓,张毅.基于认知的模糊地理要素建模--以中关村为例[J].遥感学报,2008,12(2):370-377. 被引量：12
2李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：274
3顾芳,曹存根.知识工程中的本体研究现状与存在问题[J].计算机科学,2004,31(10):1-10. 被引量：26
4梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
5姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
6乐小虬,杨崇俊,刘冬林.空间命名实体的识别[J].计算机工程,2005,31(20):49-50. 被引量：7
7乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报（信息科学版）,2005,30(12):1100-1103. 被引量：27
8姚文琳,王存刚,任丽婕,仇利克,郜振霞.基于核心概念集的多语言Ontology[J].计算机应用研究,2006,23(4):28-31. 被引量：2
9周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
10张晗,路振宇,崔雷.利用关联规则对医学文本数据库进行知识抽取的尝试——以四种抗肿瘤药为例[J].现代图书情报技术,2006(9):49-52. 被引量：5

引证文献12

1余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134. 被引量：41
2李晓静,林海伦,贾岩涛,王元卓,程学旗.融合页面结构与内容的在线百科实体标注方法[J].计算机科学与探索,2015,9(10):1238-1246. 被引量：2
3刘剑,许洪波,易绵竹,程学旗.面向知识级应用的多维语义本体构建[J].山东大学学报（理学版）,2015,50(9):13-20.
4刘剑,许洪波,唐慧丰,贾岩涛,程学旗.面向中文网络百科的语义知识库构建[J].系统仿真学报,2016,28(3):542-548. 被引量：5
5蒋锴,钱夔,郑玄.基于知识图谱的军事信息搜索技术架构[J].指挥信息系统与技术,2016,7(1):47-52. 被引量：25
6贺惠新,刘丽娟.主动学习的科技文献研究对象标引体系研究[J].现代图书情报技术,2016(3):67-73. 被引量：1
7王汀,冀付军,徐天晟.一种面向中文网络百科非结构化信息的知识获取方法[J].图书情报工作,2016,60(13):126-133. 被引量：6
8康睿智,郝文宁,程恺,占栋辉.面向军事装备实体的属性抽取[J].计算机应用研究,2016,33(12):3721-3724. 被引量：5
9吴胜,刘茂福,胡慧君,张志清,顾进广.中文文本中实体数值型关系无监督抽取方法[J].武汉大学学报（理学版）,2016,62(6):552-560. 被引量：6
10王姬卜,陆锋,吴升,余丽.基于自动回标的地理实体关系语料库构建方法[J].地球信息科学学报,2018,20(7):871-879. 被引量：12

二级引证文献102

1周俊,郑彭元,袁立存,戈为溪,梁静.基于改进CASREL的水稻施肥知识图谱信息抽取研究[J].农业机械学报,2022,53(11):314-322. 被引量：5
2王学锋,杨若鹏,贾明亮.基于循环神经网络的作战文书实体关系抽取[J].智能安全,2022,1(1):29-35.
3裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：15
4蒋智.地理信息科学方法论研究进展[J].赤峰学院学报（自然科学版）,2015,31(20):51-52.
5吴志峰,柴彦威,党安荣,龚建华,高松,乐阳,李栋,柳林,刘行健,刘瑜,龙瀛,陆锋,秦承志,王慧,王鹏,王伟,甄峰.地理学碰上“大数据”:热反应与冷思考[J].地理研究,2015,34(12):2207-2221. 被引量：84
6钟翔,高勇,邬伦.基于链接分析的网页文本核心地名提取方法[J].地球信息科学学报,2016,18(4):435-442. 被引量：3
7智烈慧,李仁杰,傅学庆,郭风华.众包旅游文本热度地名的共现挖掘[J].测绘科学,2016,41(8):144-151. 被引量：4
8余丽,陆锋,刘希亮,程诗奋,张雪英.稀疏地理实体关系的关键词提取方法[J].地球信息科学学报,2016,18(11):1465-1475. 被引量：9
9吴镇城,吴升,卢毅敏.基于Web新闻的案(事)件时空信息解析方法[J].福州大学学报（自然科学版）,2017,45(1):127-132.
10陆锋,余丽,仇培元.论地理知识图谱[J].地球信息科学学报,2017,19(6):723-734. 被引量：67

1刘倩,伍大勇,刘悦,程学旗,庞琳.结合全局特征的命名实体属性值抽取[J].计算机研究与发展,2016,53(4):941-948. 被引量：5
2陆晓华,张宇,钱进.基于图数据库的电影知识图谱应用研究[J].现代计算机,2016,22(5):76-83. 被引量：7
3周玉新.命名实体识别研究发展综述[J].科技风,2016(16):99-99. 被引量：1
4祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12
5刘剑,许洪波,唐慧丰,贾岩涛,程学旗.面向中文网络百科的语义知识库构建[J].系统仿真学报,2016,28(3):542-548. 被引量：5
6贾真,何大可,杨燕,杨宇飞,冶忠林.基于弱监督学习的中文网络百科关系抽取[J].智能系统学报,2015,10(1):113-119. 被引量：7
7程洪涛.基于XML的非结构化文本数据转换研究与实现[J].现代计算机,2013,19(6):51-54. 被引量：3
8谢子超.非结构化文本的自动分类检索平台的研究与实现[J].软件,2015,36(11):112-114. 被引量：10
9宋文杰,周俊生,曲维光.基于词典信息和网络百科的下位词获取[J].数据采集与处理,2014,29(5):821-827. 被引量：1
10李毅,胡金凤,王正友.一种面向中文依赖语法的观点挖掘模型[J].河北省科学院学报,2014,31(2):11-17.

北京大学学报（自然科学版）

2014年第1期

浏览历史

内容加载中请稍等...

面向中文网络百科的属性和属性值抽取被引量：12

参考文献29

二级参考文献141

共引文献335

同被引文献185

引证文献12

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

面向中文网络百科的属性和属性值抽取 被引量：12

参考文献29

二级参考文献141

共引文献335

同被引文献185

引证文献12

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

面向中文网络百科的属性和属性值抽取被引量：12