基于网页分块和链接特征的卷期目录链接提取方法被引量：1

Extracting Links for Volumns＇ Issue and Table of Contents Based on Web Page Segmentation and Link Features

下载PDF

导出

摘要针对传统的信息抽取方法在提取卷期目录链接时精度不高的问题，本文提出一种基于网页分块和链接特征的卷期目录链接提取方法。首先，以网页标签树的布局标签为最小粒度，提出一种原子网页分块算法，将网页分割为若干个相互独立、互不包含的内容块；其次，根据内容块的子树结构，提出一种原子内容块聚类算法，通过合并相似内容块对网页进行语义块划分；最后，提出一种卷期目录链接块的识别算法，通过融合链接文本相似度和基于Bayes的语义分析方法识别出卷期目录链接区域，从而实现链接的提取。实验结果表明，本文提出的方法能够有效提取卷期Et录链接。 Traditional information extraction methods have low precision when extracting links from issuses＇ table of contents. With this problem in mind, in this paper we propose an approach to extract links from issuses＇ table of contents based on Web page segmentation and link features. We first present an atomic page segmentation algorithm based on page tag tre~, which splits the page into several independent and mutual non-inclusion content blocks. Then we propose an atomic content block clustering algorithm according to the sub-tree structure of the content blocks, which divides web page into semantic blocks by merging several blocks with similar content structures. Finally, we present a link blocks identification algorithm, which combines the similarity of link texts and Bayes-based semantic analysis method to identify link area from issuses＇ table of contents in order to extract the links. Experimental results show that the proposed method can effectively extract links from issuses＇ table of contents.

作者于洪涛王冬青张付志

机构地区燕山大学信息科学与工程学院

出处《情报学报》 CSSCI 北大核心 2012年第7期686-693,共8页 Journal of the China Society for Scientific and Technical Information

基金教育部科技发展中心网络时代的科技论文快速共享专项研究资助课题（20101333110013,2011109）河北省自然科学基金资助项目（F2011203219）.

关键词网页分块链接块卷期目录链接提取 page segmentation, link blocks, issues＇ table of contents, link extraction

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Cai D, Yu S, Wen J R, et al. VIPS: Improving Pseudo- Relevance Feedback in Web Information Retrieval Using Web Page Segmentation [ C ]//Proceeding of The 12th International Conference on World Wide Web,2003.
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3Abel O, Li Longzhuang, Liu Yonghuai. Visual Segmen- tation-Based Data Record Extraction from Web Documents [ C ]//Proceedings of IEEE International Conference on Information Reuse and Integration, 2007: 502-507.
4侯明燕,杨天奇.基于网页分割的Web信息提取算法[J].微型机与应用,2011,30(5):54-56. 被引量：2
5陈翰生,曾剑平,张世永.一种基于位置信息的Web页面分割方法[J].计算机应用与软件,2009,26(7):155-159. 被引量：3
6Kovacevic M, Diligenti M, Coil M, et al. Recognition of Common Areas in a Web Page Using Visual Information : a possible application in a page classification [ C ]//In Proceedings of the 2002 IEEE International Conference on Data Mining (ICDM2002) Maebashi City. Japan. 2002 : 250-257.
7王芳,于浩,谭红叶,赵铁军.基于链接分块的相关链接提取方法[J].计算机工程与应用,2006,42(31):110-113. 被引量：2
8Bille P. A survey on tree edit distance and relatedproblems [ J ]. Theoretical Computer Science, 2005,337 (1-3) :217-239.
9Liu B, Grossman RL, Zhai Y pages [ C ]//Proc. Of the Discovery and Data Mining ACM Press ,2003:601-606. Mining data records in Web Int' 1 Conf on Knowledge ( KDD 2003 ). Washington :.

二级参考文献37

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3朱精南,赵明生.网页版面中区域几何信息的确定[J].计算机工程,2004,30(10):45-48. 被引量：4
4于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
5高波.嵌入式浏览器开发.http://jserv.sayya.org/netbit/.
6Cobra HTML Parser.http://lobobrowser.org/cobra.jsp.
7HTML 4.01 Specification.http://www.w3.org/TR/REC-html40/.
8Vadrevu S,Gelgi F.Information Extraction from Web Pages Using Presentation Regularities and Domain Knowledge.World Wide Web,2007,10:157.
9Arasu A,Garcia-Molina H.Extracting Structured Data from Web Pages.International Conference on Management of Data,Proceedings of the 2003 ACM SIGMOD international conference on Management of data,2003.
10Deng Cai,Shipeng Yu,Ji-Rong Wen,et al.VIPS:a Vision-based Page Segmentation Algorithm.http://research.microsoft.com/～jrwen/jrwen_files/publications/VIPS_Technical%20Report.PDF 2003.

共引文献57

1孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
2郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
3贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
4吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
5吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
6郑俭,许家成,冯素梅,叶帮利.对因特网特殊教育资源的整合与多方式传播[J].中国特殊教育,2006(8):46-49. 被引量：4
7邵斐,孙济庆.一种适用于动态网页的网络蜘蛛爬行策略研究[J].情报杂志,2007,26(5):28-30. 被引量：5
8黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
9张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
10李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15

同被引文献4

1聂卉,张津华.分块布局下的主题型网页的内容抽取[J].情报学报,2012,31(1):31-39. 被引量：3
2黄仁,王良伟.基于主题相关概念和网页分块的主题爬虫研究[J].计算机应用研究,2013,30(8):2377-2380. 被引量：9
3熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15
4孙学波,张大伟.一种基于分隔条的网页分块算法[J].计算机应用与软件,2014,31(7):286-289. 被引量：2

引证文献1

1龙科,李伟强,卢来.基于网页分块的科技信息采集系统的设计与实现[J].电脑迷,2017(3):179-180.

1刘阳,张化祥.基于拟合特征分布的垃圾网页检测方法[J].计算机工程与设计,2013,34(8):2651-2655.
2方明科,缪淮扣.一种用于模型验证的Web应用模型抽取方法[J].应用科学学报,2009,27(1):90-96. 被引量：1
3黎建辉,兰金松,沈志宏,滕常延,周园春.面向科学数据的PageRank排序算法[J].计算机科学与探索,2013,7(6):494-504. 被引量：3
4江林升.利用网络爬虫自动检测网站链接状况[J].电脑编程技巧与维护,2013(20):113-114.
5苏杭,严建援.一种新的Web链接提取模型[J].清华大学学报（自然科学版）,2006,46(z1):975-982. 被引量：4
6曹永东.利用符号链接完成数据同步操作[J].电脑时空,2014,0(8):57-57.
7欧德宁,马军.基于内含链接特征分析的垃圾邮件过滤技术[J].郑州大学学报（理学版）,2009,41(2):63-67.
8凭有水印图片,能找类似无水印图片[J].网友世界,2011(15):46-46.
9“域名”和“http：／／＋域名”的区别何在？[J].电击高手,2004(6):92-92.
10坚如磐石.复活吧!死去的网页[J].计算机应用文摘,2007(11X):25-25.

情报学报

2012年第7期

浏览历史

内容加载中请稍等...

基于网页分块和链接特征的卷期目录链接提取方法被引量：1

参考文献9

二级参考文献37

共引文献57

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网页分块和链接特征的卷期目录链接提取方法 被引量：1

参考文献9

二级参考文献37

共引文献57

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网页分块和链接特征的卷期目录链接提取方法被引量：1