基于CRF的网页动态关系抽取研究被引量：2

CRF based dynamic relations extraction from web

下载PDF

导出

摘要提出了基于条件随机场(conditional random fields,CRF)的网页动态关系抽取算法.给出了动态关系的定义,建立了动态关系的表示模型,并用一个六维结构来表达动态关系.与传统关系抽取中基于规则或者基于分类的解决方法不同,本文认为可以将动态关系识别问题转化为一个标注问题,并提出了基于CRF的句子层面的关系标注和抽取方法.在本算法中,首先将一个句子通过语义角色标注(semantic role labeling,SRL)系统进行成分识别,然后将语义角色标注结果以及词的POS类型、词组的命名实体类型等作为CRF的训练特征,对句子成分进行标注.最后测试了大量的真实新闻网页,实验结果表明了本文提出算法的实用性和有效性. New methods for extracting dynamic relations from web resources such as news pages were proposed.A relation was defined as dynamic if its instances changed over time.An example was the employment relation between people and companies.The nature of dynamic relations required the extraction methods to capture the temporal context of the relation.While most previous work on this topic has been domain-specific,a domain-independent,general approach was proposed using a conditional random fields（CRF）based technique.Experiment results show the practicality and precision of the proposed approach by experiments with news pages from the web.

作者张奇金培权岳丽华

机构地区中国科学技术大学计算机科学学院

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2010年第11期1197-1202,共6页 JUSTC

基金国家重点实验室开放课题(2009006) 国家自然科学基金(60776801 70803001) 北京市"现代信息科学与网络技术"重点实验室暨铁道部"铁路信息科学与工程"开放实验室开放基金(XDXX1005)资助

关键词条件随机场关系抽取语义角色标准 conditional random fields relation extraction semantic role labeling

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP311.12 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
2黄健斌,姬红兵,孙鹤立.基于混合跳链条件随机场的异构Web记录集成方法[J].软件学报,2008,19(8):2149-2158. 被引量：8
3胡文博,都云程,吕学强,施水才.基于多层条件随机场的中文命名实体识别[J].计算机工程与应用,2009,45(1):163-165. 被引量：25

二级参考文献31

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
3周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
4沈达阳孙茂松黄昌宁.中文地名的自动识别[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995..
5Borthwick A,Sterlin J,Agiehtein E,et al.NYU:description of the MENE named entity system as used mUC-7[C]//Proceedings of the 7th Message Understanding Conference(MUC-7).Washington D C,1998:145-150.
6Viola P,Narasimhand M.Leaming to extract information from semistructured text using a discriminative context free grammar[C]// Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2005:330-337.
7Black W J,Rinaldi F,Mowatt D.FACILE:Description of the NE System used for MUC-7[C]//Proceedings of the MUC-7,Washington D C,1998:115-120.
8McCallum A,Freitag D,Pereira F.Maximum entropy Markov models for information extraction and segmentation[C]//Proc of 17th ICML.Stanford,California,USA:Morgan Kaufmann,2000:591-598.
9Wang Houfeng,Shi Wuguang.A simple rule-based approach to organization name recognition in chinese text[A].Proc of 5th CICLing[C].LNCS 3406,Heidelberg,German:Springer-Verlag,2005.769-772.
10Hongkui Yu,Huaping Zhang,Quan Liu.Recognition of Chinese organization name based role tagging[A].Proc of Advances in Computation of Oriental Languages[C].Beijing:Tsinghua University Press,2003.79-87.

共引文献136

1步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
2车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
3常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007,21(2):83-88. 被引量：16
4周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25
5韦向峰,张全,吴晨,袁毅.中文问答系统中机构名的处理[J].计算机工程与应用,2008,44(7):196-198. 被引量：2
6李军,王丁,王鑫.基于模板匹配的中文机构名识别[J].信息技术,2008,32(6):97-99. 被引量：4
7荆涛,左万利,孙吉贵,车海燕.中文网页语义标注：由句子到RDF表示[J].计算机研究与发展,2008,45(7):1221-1231. 被引量：31
8黄健斌,姬红兵,孙鹤立.基于混合跳链条件随机场的异构Web记录集成方法[J].软件学报,2008,19(8):2149-2158. 被引量：8
9章成志,苏新宁.基于条件随机场的自动标引模型研究[J].中国图书馆学报,2008,34(5):89-94. 被引量：23
10王东波,陈小荷,年洪东.基于条件随机场的有标记联合结构自动识别[J].中文信息学报,2008,22(6):3-7. 被引量：9

同被引文献26

1黄毅,王庆林,刘禹.一种基于条件随机场的领域术语上下位关系获取方法[J].中南大学学报（自然科学版）,2013,44(S2):355-359. 被引量：5
2安新颖,冷伏海.基于非相关文献的知识发现原理研究[J].情报学报,2006,25(1):87-93. 被引量：36
3张素香,李蕾,秦颖,钟义信.基于Boot Strapping的中文实体关系自动生成[J].微电子学与计算机,2006,23(12):15-18. 被引量：3
4化柏林.基于NLP的知识抽取系统架构研究[J].现代图书情报技术,2007(10):38-41. 被引量：16
5胡宝顺,王大玲,于戈,马婷.基于句法结构特征分析及分类技术的答案提取算法[J].计算机学报,2008,31(4):662-676. 被引量：24
6牟晋娟,包宏.中文实体关系抽取研究[J].计算机工程与设计,2009,30(15):3587-3590. 被引量：7
7张海粟,马大明,邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究,2011,28(8):2807-2811. 被引量：26
8王风娥,谭红叶,钱揖丽.基于最大熵的句内时间关系识别[J].计算机工程,2012,38(4):37-39. 被引量：12
9张苇如,孙乐,韩先培.基于维基百科和模式聚类的实体关系抽取方法[J].中文信息学报,2012,26(2):75-81. 被引量：23
10杨宇飞,戴齐,贾真,尹红风.基于弱监督的属性关系抽取方法[J].计算机应用,2014,34(1):64-68. 被引量：10

引证文献2

1高俊平,张晖,赵旭剑,杨春明,李波.面向维基百科的领域知识演化关系抽取[J].计算机学报,2016,39(10):2088-2101. 被引量：19
2李煜甫,黄蔚,胡国超.弱监督军事实体关系识别[J].电子设计工程,2018,26(1):74-78. 被引量：3

二级引证文献22

1王学锋,杨若鹏,贾明亮.基于循环神经网络的作战文书实体关系抽取[J].智能安全,2022,1(1):29-35.
2张华华,汪文义.“互联网+”测评:自适应学习之路[J].江西师范大学学报（自然科学版）,2016,40(5):441-455. 被引量：22
3张琴,郭红梅,张智雄.融合词嵌入表示特征的实体关系抽取方法研究[J].数据分析与知识发现,2017,1(9):8-15. 被引量：8
4金晨,谢振平,任立园,刘渊.基于时空域联合建模的领域知识演化脉络分析[J].智能系统学报,2017,12(5):735-744. 被引量：2
5王祎珺,高俊平.基于PageRank的领域知识图谱核心概念识别方法研究[J].数字技术与应用,2018,36(3):56-57. 被引量：2
6麻友,岳昆,张子辰,王笑一,郭建斌.基于知识图谱和LDA模型的社会媒体数据抽取[J].华东师范大学学报（自然科学版）,2018(5):183-194. 被引量：6
7代江波,毛建华,刘学锋,张鸿洋.基于特征向量与SVO扩展的企业生态关系抽取[J].计算机技术与发展,2018,28(10):139-144. 被引量：5
8杨小彦,张晖,赵旭剑.基于特征词的领域知识起源研究[J].电脑与信息技术,2018,26(2):5-8.
9阳小华,张硕望,欧阳纯萍.中文关系抽取技术研究[J].南华大学学报（自然科学版）,2018,32(1):66-72. 被引量：2
10孙艳,刘肖健,赵宇.团队创新中的异步协作行为及其对产出的影响[J].计算机集成制造系统,2018,24(12):3120-3128. 被引量：1

1林明钦.AJAX动态无刷新技术在企业网中的应用[J].中国新技术新产品,2008(14):8-8. 被引量：1
2罗剑,王轶骏,薛质.数据挖掘在恶意网页动态检测中的应用研究[J].计算机应用与软件,2013,30(5):1-3.
3廖年旺.使用Flash制作动态按钮[J].信息技术教育,2001(1):57-57.
4张中红.如何实现网页动态缩略图幻灯[J].电脑编程技巧与维护,2011(9):91-92.
5李汇滨,杨雄勇.基于用户认知的产品特征关联设计研究[J].消费导刊,2008,0(6):169-169. 被引量：1
6於肇鹏,刘昕辉.几种网页动态效果设计方法的比较[J].辽宁师专学报（自然科学版）,2012,14(1):40-42.
7张丹,周俏丽,张桂平.引入层次成分分析的依存句法分析[J].沈阳航空航天大学学报,2017,34(1):76-82. 被引量：1
8敬国东.网页动态目录树的设计与实现[J].电脑编程技巧与维护,2013(8):81-82. 被引量：2
9王亚辉.用户搜索意图视角下的Web网页动态泛化研究[J].信息通信,2014,27(12):108-109. 被引量：1
10徐望明,方康玲.基于异质局部特征的图像稀疏表示[J].电视技术,2013,37(19):237-240. 被引量：1

中国科学技术大学学报

2010年第11期

浏览历史

内容加载中请稍等...

基于CRF的网页动态关系抽取研究被引量：2

参考文献3

二级参考文献31

共引文献136

同被引文献26

引证文献2

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于CRF的网页动态关系抽取研究 被引量：2

参考文献3

二级参考文献31

共引文献136

同被引文献26

引证文献2

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于CRF的网页动态关系抽取研究被引量：2