基于概率模型的Web信息抽取被引量：4

Web Information Extraction Based on Probabilistic Model

导出

摘要针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取.首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的特征;第二,引入布尔模型和多规则属性来更好地表示Web对象结构与语义的特征;第三,利用TH-CRFs来进行Web对象的信息提取,从而找出相关的招聘信息并优化模型训练的效率.通过实验并与现有的Web信息抽取模型对比,结果表明,基于TH-CRFs的Web信息抽取的准确率已有效改善,同时抽取的时间复杂度也得到降低. According to the structure and the content features of web pages,a model named tree-structured hierarchical conditional random fields（TH-CRFs） is proposed.Firstly,a multi-feature vector space model is proposed to represent the features of the web pages from the facets of the page structure and the content.Secondly,the Boolean model and multi-rules are introduced to denote the features for a better representation of the web objects.Thirdly,an optimal web objects information extraction based on the TH-CRFs is performed to find out the recruitment knowledge and optimize the efficiency of the training.Finally,the proposed model is compared with the existing approaches for web objects information extraction.The experimental results show that the accuracy of the TH-CRFs for the web objects information extraction is significantly improved,and the time complexity is decreased.

作者王静刘志镜

机构地区西安电子科技大学计算机学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2010年第6期847-855,共9页 Pattern Recognition and Artificial Intelligence

基金国家科技支撑计划项目资助(No.2007BAH08B02)

关键词 WEB对象条件随机场(CRFs) 信息抽取(IE) Web Object Conditional Random Fields（CRFs） Information Extraction（IE）

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1Cui Hang,Kan M Y,Chua T S.Soft Pattern Matching Models for Definitional Question Answering.ACM Trans on Information Systems,2007,25(2):1-30.
2Nyberg E,Mitamura T,Callan J,et al.The JAVELIN Question-Answering System at TREC 2003:A Multi-Strategy Approach with Dynamic Planning // Proc of the 12th Text Retrieval Conference.Edinburgh,UK,2003,Ⅻ:93-108.
3Mooney R J,Bunescu R.Mining Knowledge from Text Using Information Extraction.ACM SIGKDD Explorations Newsletter,2005,7(1):3-10.
4Kobayashi N,Iida R,Inui K,et al.Opinion Mining on the Web by Extracting Subject-Attribute-Value Relations // Proc of the AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs.California,USA,2006:470-481.
5Chen Jinlin,Zhong Ping,Cook T.Detecting Web Content Function Using Generalized Hidden Markov Model // Proc of the 5th International Conference on Machine Learning and Applications.Orlando,USA,2006:279-284.
6Freitag D,McCallum A.Information Extraction with HMM Structures Learned by Stochastic Optimization // Proc of the 17th National Conference on Artificial Intelligence.Austin,USA,2000:584-589.
7Chieu H L,Ng H T.A Maximum Entropy Approach to Information Extraction from Semi-Structured and Free Text // Proc of the 18th National Conference on Artificial Intelligence.Edmonton,Canada,2002:786-791.
8Finn A.A Multi-Level Boundary Classification Approach to Information Extraction // Proc of the 15th European Conference on Machine Learning.Pisa,Italy,2004:111-122.
9Zhang Zhu.Weakly-Supervised Relation Classification for Information Extraction // Proc of the 13th ACM International Conference on Information and Knowledge Management.Washington,USA,2004:581-588.
10Wallach H M.Conditional Random Fields:An Introduction.Technical Report,MS-CIS-04-21,Philadelphia,USA:University of Philadelphia.Department of Computer and Information Science,2004.

同被引文献97

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
3范静波.高等教育生源质量与教育质量对个人收入的影响——兼论教育的生产与信号功能[J].教育科学,2013,29(3):71-75. 被引量：10
4贺美英,郭樑,钱锡康.对高校校友资源的再认识[J].清华大学教育研究,2004,25(6):78-82. 被引量：157
5何明,冯博琴,马兆丰,傅向华.一种基于遗传算法的Rough集多知识抽取方法[J].小型微型计算机系统,2005,26(4):651-654. 被引量：2
6李阳,翟军,陈燕.基于工作流的高校科研项目的立项管理[J].信息技术,2006,30(2):11-13. 被引量：7
7丁智斌,袁方,董贺伟.数据挖掘在高校学生学习成绩分析中的应用[J].计算机工程与设计,2006,27(4):590-592. 被引量：44
8彭文辉,杨宗凯,黄克斌.网络学习行为分析及其模型研究[J].中国电化教育,2006(10):31-35. 被引量：145
9唐文勇,阳春华,龙军.基于.net平台的科技奖励评审平台的开发[J].计算机技术与发展,2007,17(8):205-207. 被引量：4
10葛道凯,张少刚,魏顺平著.教育数据挖掘:方法与应用[M].北京:教育科学出版社,2012.

引证文献4

1白晓雷,黄广君,段建辉.一种基于BP神经网络的关键词抽取方法[J].合肥工业大学学报（自然科学版）,2014,37(7):808-811. 被引量：4
2李嘉,徐前,王梓,陈钊.基于语义的林产品贸易Web信息抽取算法[J].计算机工程与应用,2014,50(19):199-204. 被引量：1
3于涵,张会波,林思伽.黑龙江省农垦总局科技进步奖评审系统的设计与实现[J].现代化农业,2015(11):57-59.
4文益民,易新河,李忧喜,文博奚.高校人才培养全过程与信息技术深度融合中的数据挖掘[J].高教论坛,2016(4):18-24. 被引量：7

二级引证文献12

1秦铭谦,梁英伟,张闻语.高职混合式教学模式的现状分析与思考[J].江西电力职业技术学院学报,2018,31(9):137-139. 被引量：10
2卢建中,程浩.改进GA优化BP神经网络的短时交通流预测[J].合肥工业大学学报（自然科学版）,2015,38(1):127-131. 被引量：36
3郭建波,谢飞.基于多特征的关键词抽取算法[J].合肥工业大学学报（自然科学版）,2015,38(9):1215-1219. 被引量：7
4刘小红.休闲服企业询单顾客的关键词频率及其波动[J].西安工程大学学报,2016,30(4):433-439. 被引量：1
5王万良,潘蒙.基于多特征的视频关联文本关键词提取方法[J].浙江工业大学学报,2017,45(1):14-18. 被引量：5
6刘建成,吴保国,陈栋.基于网络爬虫的森林经营知识采集系统研建[J].浙江农林大学学报,2017,34(4):743-750. 被引量：5
7孙新杰,李伟.大数据背景下的大学计算机基础课程教学模式研究[J].数码世界,2018,0(4):107-108. 被引量：4
8冯秀清,司杰.数据挖掘在高校人才优化配置方面的应用[J].科技与创新,2018(14):158-159. 被引量：1
9王会丽,蒲清平,赵楠,朱丽萍.基于数据挖掘技术研究大学生中西方文化价值观[J].中国信息技术教育,2017(10):97-100.
10文博奚.以学生为中心实现在线教育的高质量发展研究[J].湖南工业职业技术学院学报,2021,21(5):120-122. 被引量：3

1娄越,王志成,李鑫.基于多特征融合的弱小目标检测方法研究(英文)[J].红外与激光工程,2007,36(3):395-397. 被引量：4
2廖莉莉,沈国华,黄志球,阚双龙.一种基于有向无环图的本体内聚度度量方法[J].计算机工程与科学,2015,37(7):1297-1303.
3郑河荣,褚一平,潘翔.基于时空注意模型的视频分割算法[J].中国图象图形学报,2010,15(5):729-735. 被引量：3
4李剑,王波,郭永辉,王炳锡.英汉机器翻译中基于模式的译文生成[J].微计算机信息,2005,21(10X):158-159. 被引量：2
5杨建武.基于SGML/XML的Internet信息发布[J].计算机工程与应用,2000,36(11):5-7. 被引量：3
6戴浩,方思行.利用XML和JDOM实现ATMS[J].微计算机信息,2006,22(03X):220-222. 被引量：2
7姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,古力米热.依玛木,艾斯卡尔.艾木都拉.结合分层条件随机场与标点符号的维吾尔语韵律边界预测[J].计算机工程,2015,41(11):299-302. 被引量：4
8李琳,龙从军,江荻.藏语句法功能组块的边界识别[J].中文信息学报,2013,27(6):165-168. 被引量：10
9付飞,沈立炜,董瑞志,赵文耘.基于特征分解模式的软件产品线参考设计方法[J].计算机应用与软件,2012,29(3):9-12.
10谢铉洋,谢荣传.使用XML的一阶谓词逻辑归结原理[J].微机发展,2002,12(6):47-52.

模式识别与人工智能

2010年第6期

浏览历史

内容加载中请稍等...

基于概率模型的Web信息抽取被引量：4

参考文献20

同被引文献97

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于概率模型的Web信息抽取 被引量：4

参考文献20

同被引文献97

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于概率模型的Web信息抽取被引量：4