基于网页坐标系的主题信息块判定研究

Exploring the Identifying Key Information with Coordinate System in Webpage

下载PDF

导出

摘要在网页坐标系中运用VIPS(Vision-based page segmentation)理论,对网页中信息块的重要性进行判定.该方法利用网页创建过程中的设计习惯和人类浏览信息过程中的视觉焦点判定,按九宫格划分页面区域分布并在此基础上识别主题信息,论文最后选取新闻类型网站网页,按不同页面分割比例检测了网页信息块空间层次和主题信息块提取间的关系. Applying the theory of VIPS in the coordinate system of Webpage,the way of identifying key information in Webpage is developed.The method focuses on judging the visual focus of people in designing or browsing the Webpage,for identifying key information within distributing nine-square grid.At last,with several dissection ratios,News websites are discussed that spatial level of information block and extracting key information block are linked in web pages.

作者张力

机构地区浙江师范大学信息化办公室

出处《湛江师范学院学报》 2014年第6期106-113,共8页 Journal of Zhanjiang Normal College

关键词网页九宫格 VIPS 关键信息识别信息去噪 webpage nine-square grid VIPS identifying key information eliminate noise

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
2陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
3吴伟,刘友华.基于DOM的Web信息自动抽取[J].现代图书情报技术,2004(2):68-71. 被引量：4
4封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
5王家琦,陶卿,王珏.Kernel Projection Algorithm for Large—Scale SVM Problems[J].Journal of Computer Science & Technology,2002,17(5):556-564. 被引量：5

二级参考文献56

1MYLLYMAKI J. Effective Web data extraction with standard XML technologies [ J ]. Computer Network,2002,39 ( 5 ) :635- 644.
2HORS A L, HEGARET P L, WOOD L, et al. Document object model (DOM) level 2 core specification, World Wide Web Consortium (W3C) [ EB/OL]. (2000-11-13) [2008-08-01 ]. http://www.w3. org/TR/2000/REC-DOM-Level-2 -Core.
3CRESCENZI V, MECCA G, MERIALDO P. RoadRunner: automatic data extraction from data-intensive Web sites[ C ]//Proc of ACM SIGMOD International Conference on Management of Data. New York: ACM Press,2002:624.
4ARASU A, GARCIA-MOLINA H. Extracting structured data from Web pages [ R ]. Palo Alto, California : Stanford University,2002.
5AHONEN-MYKA H. Discovery of frequent word sequences in text, template detection via data mining and its applications[ R ]. Helsinki: University of Helsinki,2002.
6BEIL F, ESTER M, XU X. Frequent term-based text clustering[ C ]// Proc of International Conference on Knowledge Discovery and Data Mining. New York : ACM Press ,2002:436-442.
7MA Ling, GOHARIAN N, CHOWDHURY A,et al. Extracting unstructured data from template generated Web documents[ C]//Proc of the 12th Internatianal Conference on Information and Knowledge Management. 2003:512-515.
8GUPTA S, KAISER G, NEISTADT D, et al. DOM-based content extarction of HTML documents[ C ]//Proc of the 12th Word Wide Web Conference. 2003 : 207 - 214.
9ZHAI Yan-hong, LIU Bing. Structured data extraction from the Web based on partial tree alignment[ J]. IEEE Trans on Knowledge and Data Engineering,2006,18 ( 12 ) : 1614-1628.
10JAIN A K, MURTY M N, FLYNN P J. Data clustering: a review [ J ]. ACM Computing Surveys, 1999,31 ( 3 ) :264-323.

共引文献123

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
6王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
7孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
8李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
9张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
10LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量：2

1章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
2安全[J].网管员世界,2011(21):10-10.
3高乐,张健,田贤忠.基于视觉的Web页面分块算法的改进与实现[J].计算机系统应用,2009,18(4):65-69. 被引量：11
4王孟頔,邰泳.基于VIPS的职位信息抽取技术研究[J].软件导刊,2015,14(9):22-24. 被引量：1
5李文昊,彭红超,童名文,石俊杰.基于视觉特征的网页最优分割算法[J].计算机科学,2015,42(11):284-287. 被引量：3
6吴晓红,高志新,王杨刚,郭磊.网站群信息共享探析与实现[J].计算机应用,2013,33(A02):125-127. 被引量：11
7李卫东,唐国华.基于网页分块思想的PageRank算法研究与优化[J].科技经济市场,2011(5):7-9.
8吴晓红,高志新,王杨刚,郎宝平,郭磊.网站群信息共享探析与实现[J].国土资源信息化,2013(3):29-33. 被引量：2
9张昕,鄂海红,宋美娜,杨俊.基于视觉特征的就业信息页面抽取方法[J].软件,2014,35(9):16-20. 被引量：2
10胡瑞,郭星,黄永聪.基于视觉特征的主题型网页信息抽取[J].赤峰学院学报（自然科学版）,2016,32(6):23-25.

湛江师范学院学报

2014年第6期

浏览历史

内容加载中请稍等...

基于网页坐标系的主题信息块判定研究

参考文献5

二级参考文献56

共引文献123

相关作者

相关机构

相关主题

浏览历史