结合主动学习的多记录网页属性抽取方法被引量：1

A Multi-record Webpage Attribute Extraction Method Combining Active Learning

下载PDF

导出

摘要属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好. The attribute extraction process can be separated into two phases, alignment and annotation. In the existing alignment methods, different semantic attributes are mistakenly aligned into the same group. Furthermore, to improve the accuracy of semantic annotation, time-consuming manual annotation is oftenintroduced to construct training set. To solve this problem, a multi-record webpage attribute extraction method combining active learning is presented. As for the problem of wrong attribute alignment, shallow semantic is integrated into the alignment approach to relieve the influence of same tags with different semantics. In the semantic annotation phase, textual, visual and global features are extracted for semantic classification and an active learning based SVM classifier is applied to extract structural data. Moreover, a new sample selection strategy is proposed by introducing the global sample information, and more informative samples with lower confidences are selected to be labeled. The experimental results on BBS and microblog datasets confirm the superiority the proposed method.

作者魏晶晶廖祥文陈巧灵马飞翔陈国龙

机构地区福州大学物理与信息工程学院福建江夏学院电子信息科学学院福州大学数学与计算机科学学院福州大学福建省网络计算与智能信息处理重点实验室

出处《模式识别与人工智能》 EI CSCD 北大核心 2016年第8期673-681,共9页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金青年基金项目(No.61300105) 教育部博士点基金联合项目(No.2012351410010) 福建省科技重大专项项目(No.2013H6012) 福州市科技计划项目(No.2013-PT-45 2012-G-113)资助~~

关键词属性抽取语义分类主动学习 Attribute Extraction Semantic Classification Active Learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1陈巧灵,廖祥文,魏晶晶,陈国龙.基于DOM树层次特征的多记录网页抽取[J].模式识别与人工智能,2015,28(2):125-131. 被引量：7

二级参考文献15

1中国互联网络信息中心.第32次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyi/hlwxzbg/hlwtjbg/20130717_40664.htm,2014-02-04.
2Pretzsch S, Muthmann K, Schil A. FODEX-Towards Generic Data Extraction from Web Forums//Proc of the 26th International Con- ference on Advanced Information Networking and Applications. Fukuoka, Japan, 2012 : 821-826.
3Liu W, Yan H L, Xiao J G. Automatically Extracting User Reviews from Forum Sites. Computers and Mathematics with Applications,2011, 62(7) : 2779-2792.
4Liu J, Song X Y, Jiang J T, et al. An Unsupervised Method for Au- thor Extraction from Web Pages Containing User-Generated Content //Proe of the 21st ACM International Conference on Information and Knowledge Management. Maui, USA, 2012:2387-2390.
5Song X Y, Liu J, Cao Y B, et al. Automatic Extraction of Web Da- ta Records Containing User-Generated Content // Proe of the 19th ACM International Conference on Information and Knowledge Man- agement. Toronto, Canada, 2010:39-48.
6Yang J M, Cai R, Wang Y D, et al. Incorporating Site-Level Knowledge to Extract Structured Data from Web Forums// Proe of the 18th International Conference on World Wide Web. Madrid, Spain, 2009:181-190.
7Van der Meer ,1, Frasinear F. Automatic Review Identification on the Web Using Pattern Recognition. Software: Practice and Experi- ence, 2013, 43(12): 1415-1436.
8Yin X X, Tan W Z, Li X, et al. Automatic Extraction of Clickable Structured Web Contents for Name Entity Queries// Proc of the 19th International Conference on World Wide Web. Raleigh, USA, 2010:991-1000.
9Hong J L, Tan E X, Fanzi F. Data Extraction for Search Engine Using Safe Matching// Proc of the 24th Australasian Joint Confer- ence on Artificial Intelligence. Perth, Australia, 2011 : 759-768.
10Zhao H K, Meng W Y, Wu Z H, et al. Fully Automatic Wrapper Generation for Search Engines // Proc of the 14th International Conference on World Wide Web. Chiba, Japan, 2005:66-75.

共引文献6

1贺杰.基于Webdriver爬虫技术的研究[J].科技广场,2016(10):27-31. 被引量：1
2张玉明,张远远.基于大数据的小微企业统计信息采集策略[J].统计与决策,2017,33(14):178-181. 被引量：4
3李健,马延周.支持DOM模板可视化配置的网页抽取方法[J].现代计算机,2018,24(7):56-60. 被引量：4
4杨大为,王诗念,包立岩,要虹吏,刘畅.基于文本及HTML标签密度的网页正文提取[J].沈阳理工大学学报,2022,41(4):14-19. 被引量：1
5吴克介.煤矿安全Web数据采集技术研究及应用[J].能源与环保,2024,46(10):14-20.
6李志义,沈之锐.基于重复模式识别的网页信息抽取研究[J].情报科学,2019,37(3):88-92. 被引量：6

同被引文献14

1万静,涂喆,冯晓.基于条件随机场的医药领域症状信息抽取[J].北京化工大学学报（自然科学版）,2016,43(1):98-103. 被引量：11
2叶菁菁,李琳,钟珞.基于标签的微博关键词抽取排序方法[J].计算机应用,2016,36(2):563-567. 被引量：1
3甘丽新,万常选,刘德喜,钟青,江腾蛟.基于句法语义特征的中文实体关系抽取[J].计算机研究与发展,2016,53(2):284-302. 被引量：75
4杜思奇,李红莲,吕学强.基于汉语组块分析的情感标签抽取[J].情报理论与实践,2016,39(5):125-129. 被引量：4
5余丽,陆锋,刘希亮.开放式地理实体关系抽取的Bootstrapping方法[J].测绘学报,2016,45(5):616-622. 被引量：26
6谢晓广,门雅范.网络化考试组卷算法及QTI标准应用研究[J].现代电子技术,2016,39(13):112-115. 被引量：1
7李飞,李国林,谢鑫.一种改进的基于二阶统计量的盲源抽取算法[J].弹箭与制导学报,2016,36(2):139-142. 被引量：1
8赵明,杜亚茹,杜会芳,张家军,王红说,陈瑛.植物领域知识图谱构建中本体非分类关系提取方法[J].农业机械学报,2016,47(9):278-284. 被引量：19
9杨秀芳,马江飞,高瑞鹏.连续波雷达生命信息检测和提取技术[J].西安理工大学学报,2016,32(3):283-289. 被引量：6
10张元鸣,陈苗,陆佳炜,徐俊,肖刚.非结构化表格文档数据抽取与组织模型研究[J].浙江工业大学学报,2016,44(5):487-494. 被引量：12

引证文献1

1邱桂华,李贤阳,肖宝,阳建中.一种基于智能组卷的试题库随机分段抽题算法[J].北部湾大学学报,2020,35(11):31-35. 被引量：4

二级引证文献4

1赵崇阳.基于遗传算法的学生在线竞赛系统研究[J].自动化与仪器仪表,2022(4):146-150. 被引量：3
2党雪真,胡春田.基于SSH框架的人机交互沉浸式远程教学系统设计[J].自动化与仪器仪表,2023(5):221-225.
3张素红,陈淑妮,刘震.高等数学试题程序化生成方法的研究[J].科技资讯,2023,21(11):236-239.
4郐滨,赵倩.基于改进遗传算法的远程教学系统设计[J].自动化与仪器仪表,2023(8):200-204. 被引量：2

1冯岳.FrontPage 2000网页制作(4)——跨出网页制作的第四步之表格的使用[J].少年电世界,2002(12):79-82.
2吕德新,张桂平,蔡东风,朱江涛.基于SVM的疑问句问点语义角色标注[J].沈阳航空工业学院学报,2006,23(1):44-46. 被引量：4
3彭文波,秦玮.个人网站DIY全接触之实用篇网页特效的制作[J].信息技术教育,2003(9):86-87.
4刘嘉,童格明,李明,臧凤奎.基于本体的UML类图语义推理[J].计算机应用与软件,2011,28(4):212-214. 被引量：5
5王天江,孔华武.一种基于定性推理的网页分类方法[J].计算机工程与应用,2007,43(9):176-177. 被引量：1
6阮宏玮,刘铁钢,李华,王小雨.主成分分析法的网页篡改检测[J].中国科技论文,2012,7(7):544-547. 被引量：2
7马虹.企业少花钱快推广[J].视窗世界,2005(8):49-50.
8jfids.添加自己的“一键上网”功能[J].计算机应用文摘,2006,22(8):86-86.
9魏文.Frontpage2002的两个另类功能[J].电脑知识与技术（过刊）,2003(16):87-89.
10网页制作配色法[J].大众电脑,2002(8):107-107.

模式识别与人工智能

2016年第8期

浏览历史

内容加载中请稍等...

结合主动学习的多记录网页属性抽取方法被引量：1

参考文献1

二级参考文献15

共引文献6

同被引文献14

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

结合主动学习的多记录网页属性抽取方法 被引量：1

参考文献1

二级参考文献15

共引文献6

同被引文献14

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

结合主动学习的多记录网页属性抽取方法被引量：1