基于网页布局相似度的Web论坛数据抽取被引量：9

Data Extraction from Web Forums Based on Similarity of Page Layout

下载PDF

导出

摘要 Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。 Web forums contain a wealth of information resources. Making full use of these information resources re- lies on web forums data extraction technology. This paper solves the problems of what data should be extracted and how to extract from web forums by the proposed method based on the similarity of page layout. The method can ef- fectively avoid the disadvantages of current methods at low degree of automation or low accuracy. The method firstly recognizes the topic block by making full use of the special layout of the web forum pages, then extract data using rules from the topic block. Experimental results show that this method performs well in adjustability, precision and recall.

作者王允李弼程林琛

机构地区信息工程大学信息工程学院

出处《中文信息学报》 CSCD 北大核心 2010年第2期68-75,共8页 Journal of Chinese Information Processing

基金国家863计划资助项目(2007AA01Z439) 信息工程大学学位论文创新基金资助项目(BSLWCX200802)

关键词计算机应用中文信息处理 WEB论坛数据抽取相似度 computer application Chinese information processing Web forum data extraction similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1J. Zhang, M. S. Ackerman, and L. Adamic. Expertise networks in online communities: structure and algorithms[C]//Proc. 16th WWW, Banff, Canada May 2007. 2007:221-230.
2I. Muslea, S. Minton, C. Knoblock. A Hierarchical Approach to Wrapper Induction [C]//Third International Conference on Autonomous Agents, (Agents' 99), Seattle, May 1999.
3S. Soderland. Learning Information Extraction Rules for Semistructured and Free Text[J]. Machine Learning, 1999.
4Liu B. , Grossman R. , Zhai Y. Mining Data Records in Web Pages [C]//KDD 2003 : 601-606.
5Z. Yanhong and L. Bing, Web Data Extraction Based on Partial Tree Alignment[C]//Proceedings of the ACM, 2005: 76-85.
6Liu, B. and Zhai, Y. , NET - A System for Extracting Web Data from Flat and Nested Data Records[C]// WISE 2005, 2005: 487-495.
7Justin Park and Denilson Barbosa. Adaptive Record Extraction From Web Pages[C]//WWW 2007.
8Gusfield, D. Algorithms on strings, tree, and sequence[M]. Cambridge. 1997.
9韩先培,刘康,赵军.基于布局特征与语言特征的网页主要内容块发现[J].中文信息学报,2008,22(1):15-21. 被引量：8
10瞿有利,于浩,徐国伟,西野文人.Web页面信息块的自动分割[J].中文信息学报,2004,18(1):6-13. 被引量：10

二级参考文献16

1[1]Line Eikvil, Information Extraction from World Wide Web- A Survey[M], Report No. 945, Norwegian Computing Center, ISBN 82-539-0429-0, July, 1999.
2[2]Chia-Hui Chang, Shao-Chen Lui , IEPAD: Information Extraction Based on Pattern Discovery [C], Proceedings of the Tenth International World Wide Web Conference, Hong Kong , May 2001. http:// www10.org/ cdrom/ papers/223/.
3[3]Embley D.W., Jiang Y.S., Ng Y.K., Record-Boundary Discovery in Web Documents[C], Proceedings of SIGMOD, Philadelphia, USA, 1999.
4[4]Morrison, D.R. Journal of ACM [J], 15:514-534.
5[5]E. Ukkonen. On-line construction of suffix-tree[J], algorithmica,14:249-60,1995.
6Rupesh R.Mehta,Harish Karnick,and Pabitra Mitra.Semantic Structure Analysis of Web Documents.Digital Document Processing[M],Springer 2007.
7Deng Cai,Shipeng Yu,Ji-Rong Wen and WeiYing Ma.VIPS:A Vision based Page Segmentation Algorithm[R].MSR-TR-2003-79.2003.
8Lan Yi,Bing Liu,Xiaoli Li.Eliminating Noisy Information in Web Pages for Data Mining[A].The Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].2003.
9Ziv Bar-Yossef,Sridhar Rajagopalan.Template Detection via Data Mining and its Applications[A].The eleventh international world wide web conference[C].2002.
10Suhit Gupta,Gail Kaiser,David Neistadt,Peter Grimm.DOM-based Content Extraction of HTML Documents[A].The Twelfth International World Wide Web Conference[C].2003.

共引文献17

1靳从.基于有向图的版面逻辑顺序确定方法研究[J].微计算机信息,2008,24(12):292-293. 被引量：1
2贾娟,陈堃銶,周东浩.图文互斥版面中文字阅读顺序的确定[J].中文信息学报,2005,19(5):67-75. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2
6李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15
7肖建鹏,张来顺,任星,宋晓光.基于后缀树的Web论坛信息抽取[J].计算机工程与设计,2008,29(7):1675-1677. 被引量：3
8张文东,李伟.基于结构与内容的Web主要信息提取方法研究[J].计算机工程与设计,2008,29(24):6210-6212.
9王爽,熊德兰,赵会洋.基于论坛主题的网页褒贬倾向性识别[J].计算机技术与发展,2009,19(9):111-114.
10郭坤银,邢永康.基于Web标准的页面分块算法研究[J].微处理机,2009,30(6):58-61. 被引量：2

同被引文献104

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
6以科技手段辅助网络舆情突发事件的监测分析——方正智思舆情辅助决策支持系统[J].信息化建设,2005(10):50-52. 被引量：16
7谢海光,陈中润.互联网内容及舆情深度分析模式[J].中国青年政治学院学报,2006,25(3):95-100. 被引量：114
8贺志,黄厚宽,田盛丰.一种优化相关规则的发现方法[J].计算机学报,2006,29(6):906-913. 被引量：12
9高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
10黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32

引证文献9

1李国华,昝红英.基于相似度的网页标题抽取方法[J].中文信息学报,2011,25(2):32-37. 被引量：6
2陈焱.网络舆情话题的数据立方体模型分析[J].图书情报工作,2011,55(24):75-79.
3邵俊.基于视觉热区的网页内容抽取方法[J].计算机应用与软件,2012,29(6):199-201. 被引量：1
4伍杰华,倪振声,陈有青.一种基于逆序匹配重复模式的主题信息提取方法[J].计算机应用与软件,2013,30(4):88-91.
5陈艳秋,李海波.一种基于本体的关联规则挖掘方法[J].黑龙江大学自然科学学报,2014,31(6):825-830. 被引量：2
6陈巧灵,廖祥文,魏晶晶,陈国龙.基于DOM树层次特征的多记录网页抽取[J].模式识别与人工智能,2015,28(2):125-131. 被引量：6
7任胜兵,王志健,王宇.Web页面自动化设计中布局挖掘和样式匹配算法[J].计算机工程与应用,2018,54(3):227-232. 被引量：2
8彭圳生,巩青歌,高志强,段妍羽,曾子贤.基于密度及文本特征的新闻标题抽取算法[J].中文信息学报,2018,32(10):78-86. 被引量：6
9陈刚,李弼程,郭志刚,林琛.网络舆情监测预警系统模型与关键技术[J].信息工程大学学报,2019,20(1):116-121. 被引量：4

二级引证文献27

1刘建华,张智雄,谢靖,邹益民.基于规则的网络文本资源标题快速自动识别方法[J].现代图书情报技术,2011(6):27-31. 被引量：5
2陈媛媛,聂规划,刘平峰,欧阳由.Web文档本体模型与实例析取算法研究[J].情报杂志,2014,33(4):144-147.
3张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
4李湘东,霍亚勇,张娇.基于LDA主题模型的图书网页书目信息提取研究[J].情报科学,2016,34(1):34-37. 被引量：7
5向菁菁,耿光刚,李晓东.一种新闻网页关键信息的提取算法[J].计算机应用,2016,36(8):2082-2086. 被引量：6
6魏晶晶,廖祥文,陈巧灵,马飞翔,陈国龙.结合主动学习的多记录网页属性抽取方法[J].模式识别与人工智能,2016,29(8):673-681. 被引量：1
7贺杰.基于Webdriver爬虫技术的研究[J].科技广场,2016(10):27-31. 被引量：1
8张玉明,张远远.基于大数据的小微企业统计信息采集策略[J].统计与决策,2017,33(14):178-181. 被引量：4
9李健,马延周.支持DOM模板可视化配置的网页抽取方法[J].现代计算机,2018,24(7):56-60. 被引量：4
10彭圳生,巩青歌,高志强,段妍羽,曾子贤.基于密度及文本特征的新闻标题抽取算法[J].中文信息学报,2018,32(10):78-86. 被引量：6

1刘剑,吕国瑛,孙迦.基于语义识别的不良倾向性信息过滤系统的设计与实现[J].信息网络安全,2012(10):13-16. 被引量：5
2韩普,王泽.基于重复模式的论坛信息抽取研究[J].南京师范大学学报（工程技术版）,2010,10(3):74-77. 被引量：4
3梁意文,李欢,汤远闲.BBS站点的建设和管理初论[J].微型机与应用,2000,19(5):55-57. 被引量：3
4梁意文,李欢,汤远闲.BBS站点的建设和管理[J].微计算机应用,2000,21(3):149-152.
5李鹏,左圆圆,张葵.如何在 Internet 上使用 BBS[J].电子科技导报,1998(10):33-36.
6细沙.Linux下BBS站点的安装和管理之一[J].开放系统世界,2002(3):53-58.
7方媛,李海军.Web舆情监测系统设计中BBS站点数据的采集与分析[J].自动化与仪器仪表,2013(5):195-196.
8孙东明.电力系统自动化维护中的数据初探[J].黑龙江科技信息,2016(16):127-127.
9巩垒,王海洋,黄富洁.基于对象和ECA规则的工作流模型[J].计算机应用,2003,23(10):48-50. 被引量：3
10袁开银.基于MapReduce工作流优化器的研究[J].计算机应用与软件,2015,32(10):54-58.

中文信息学报

2010年第2期

浏览历史

内容加载中请稍等...

基于网页布局相似度的Web论坛数据抽取被引量：9

参考文献11

二级参考文献16

共引文献17

同被引文献104

引证文献9

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于网页布局相似度的Web论坛数据抽取 被引量：9

参考文献11

二级参考文献16

共引文献17

同被引文献104

引证文献9

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于网页布局相似度的Web论坛数据抽取被引量：9