数字图书馆Web学术资源信息的分块采集研究

Research of Page Segmentation for Digital Library Based on Web Academic Resource Crawling

下载PDF

导出

摘要在数字图书馆Web学术信息资源的优化采集中，有效结合网页空间特征、内容特征和标签信息对网页进行分块，研究对分块结果进行识别和合并，然后输出网页的主题文本和相关链接块集合，最后通过实验分析该方法能够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web主题信息采集的质量。 Web academic resource crawling on digital library is an important research area. The effective integration of web space characteristics, content characteristics and label information on the web pages block are researched. The identification and the merger of results on Page Segmentation are studied. The subject of the final text page and related links block collection are output. It is fact that more accurate analysis of the topic pages and improve the quality of Web information collection subject.

作者王兰成朱建华

机构地区南京政治学院上海校区军事信息管理系

出处《中国科技资源导刊》 2012年第6期76-80,共5页 China Science & Technology Resources Review

关键词数字图书馆 Web学术资源自动采集信息系统 digital library, web academic resource, automation crawling, information system

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1张先祥.中国互联网行业发展综述[A]四川成都,2006415-417.
2Menczer F. Complementing Search Engines with On-line Web Mining Agents[J].Decision Support Systems,2003,(02):195–212.
3Gupta S,Kaiser G,Neistadt D. DOM Based Con-tent Extraction of HTML Documents[A].Budapest,Hungary,2003.
4Chen Y,Xie X,Ma W Y. Adapting Web Pages for Small-screen Devices[J].IEEE Internet Computing,2005,(01):50-56.
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6徐薇.Web信息采集中页面分块技术的研究[J].武汉科技学院学报,2007,20(5):43-45. 被引量：2

二级参考文献15

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
3EMBLEY DW,JIANG YS,NG YK.Record-Boundary Discovery in Web Documents[A].SIGMOD'99 Proceedings[C].1999.
4EMBLEY DW,LI X.Record Location and Reconfiguration in Unstructured Multiple-Record Web Documents[A].WebDB'00 Proceedings[C].2000.
5LIM SJ,NG YK.Extracting Structures of HTML Documents Using a High-Level Stack Machine[M].Information Networking in Asia,Gordon and Breach Science Publishers,Newark,New Jersey,2001.
6LIM SJ,NG YK,YANG XC.Integrating HTML Tables Using Semantic Hierarchies And Meta-Data Sets[A].International Database Engineering and Applications Symposium(IDEAS'02)[C].Edmonton,Canada,2002.
7LIM SJ,NG YK.A Heuristic Approach for Converting HTML Documents to XML Documents[A].Proceedings of the Sixth International Conference on Rules and Objects in Databases(DOOD 2000)[C].London,England,2000.1182-1196.
8LIN SH,HO JM.Discovering Informative Content Blocks from Web Documents[A].KDD 2002[C].2002.588-593.
9YU SP,CAI D,WEN JR,et al.Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation[EB/OL].http://research.microsoft.com/research/pubs/view.aspx?type=Technical%20Report&id=632,2002-12.
10WEN JR,SONG RH,CAI D,et al.Microsoft Research Asia at The Web Track of TREC 2003[A].The Twelfth Text Retrieval Conference(TREC'12)[C].2003.

共引文献55

1孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
2郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
3贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
4吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
5吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
6郑俭,许家成,冯素梅,叶帮利.对因特网特殊教育资源的整合与多方式传播[J].中国特殊教育,2006(8):46-49. 被引量：4
7邵斐,孙济庆.一种适用于动态网页的网络蜘蛛爬行策略研究[J].情报杂志,2007,26(5):28-30. 被引量：5
8黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
9张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
10李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15

1黄振晗.基于文档特征的Web主题文本提取[J].现代计算机,2009,15(8):26-30.
2金菁.提取帮助文档中的主题文本[J].软件世界,1999(1):96-97.
3郭辉,蔡庆生.Web主题信息监控系统设计与实现[J].计算机应用,2003,23(8):41-43. 被引量：1
4刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量：1
5杨俊,李志蜀.基于DOM的WEB主题信息抽取[J].四川大学学报（自然科学版）,2008,45(5):1077-1080. 被引量：11
6徐小茹.Photoshop CS输出网页透明背景图像的方法及优化[J].电脑知识与技术,2009,5(7X):6062-6063.
7王通,李伟华,顾英.开放存取学术信息资源的分布与获取[J].科技创新导报,2010,7(3):225-226. 被引量：4
8李艳生,汪自云.基于遗传算法的Web主题库成长技术研究[J].湖北师范学院学报（自然科学版）,2010,30(4):38-42. 被引量：1
9吴方龙.Web主题网页内容安全监管研究[J].科技与生活,2010(7):20-22.
10Sun统一信息服务架构[J].信息网络安全,2004(11):92-92.

中国科技资源导刊

2012年第6期

浏览历史

内容加载中请稍等...

数字图书馆Web学术资源信息的分块采集研究

参考文献6

二级参考文献15

共引文献55

相关作者

相关机构

相关主题

浏览历史