基于CURE算法的网页分块及正文块提取研究被引量：1

An approach based on CURE algorithm of Web page segmentation and information extraction

下载PDF

导出

摘要研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 This paper discusses an approach based on CURE algorithm of Web pages segmentation and text extraction rules. The main idea is to add attributes to nodes of a standardization DOM tree to convert it into the extended DOM tree with the infor- mation node offset. Subsequently, we use the CURE algorithm to cluster information nodes. And each result of the cluster represent different block of the page. Finally, we extracts three nmin features of the text block and construct information weights formula which can distinguish text blocks.

作者王超徐杰锋

机构地区中国石油大学(华东)计算机与通信工程学院计算机科学与技术系

出处《微型机与应用》 2012年第12期11-14,共4页 Microcomputer & Its Applications

关键词 WEB信息抽取聚类算法页面分块正文块提取 Web information extraction clustering algorithm page block text block extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
2刘华.网页信息抽取及建库系统C#实现[J].计算机工程,2006,32(16):49-51. 被引量：5

二级参考文献25

1张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量：49
2[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
3[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
4[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
5[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)
6[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001
7[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999
8[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997
9[3]Sager N.Natural Language Information Processing. Reading,Massachusetts:Addison Wesley, 1981
10[4]Dejong G.An Overview of the FRUMP System[C].In:LEHNERT W,RINGLE M h eds. Strategies for Natural Language Processing,Lawrence Erlbaum, 1982:149～176

共引文献181

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
4岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
5张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
6李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
7宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
8李海涛.纯文本文档处理技术的研究与应用[J].现代图书情报技术,2004(10):33-35. 被引量：2
9马彦波,张蕾.一种创建事件模式的新方法[J].微机发展,2005,15(1):20-23. 被引量：2
10陈科,贾焰,杨树强,王永恒.汉语短文话题提取系统中SDTF*PDF算法的研究[J].计算机应用,2005,25(1):14-16. 被引量：1

同被引文献2

1于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
2李霞,蒋盛益.基于DOM树及行文本统计去噪的网页文本抽取技术[J].山东大学学报（理学版）,2012,47(3):38-42. 被引量：4

引证文献1

1韦佳佳.基于HTML5语义化标签的Web文本提取技术[J].贵阳学院学报（自然科学版）,2017,12(3):25-28. 被引量：3

二级引证文献3

1黄珍,蔡亮.基于矩阵分析的语义化web智能检索平台设计与研究[J].九江学院学报（自然科学版）,2018,33(4):66-71. 被引量：1
2陈梅,苏晨,赵静雅.从网页制作的发展浅析语义化[J].电脑知识与技术,2019,15(10):236-237.
3张胜男,吴嘉惟,牛连强,杨坤.移动网页模块化样式模板匹配方法[J].计算机科学与应用,2020,10(6):1234-1242.

1刘亚清,陈荣.基于隐马尔可夫模型的Web信息抽取[J].计算机工程,2009,35(18):25-27. 被引量：6
2马静,马英红.基于相邻节点聚类的社团划分算法[J].山东师范大学学报（自然科学版）,2011,26(1):10-12.
3安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010,29(3):38-41. 被引量：13
4郭坤银,邢永康.基于Web标准的页面分块算法研究[J].微处理机,2009,30(6):58-61. 被引量：2
5蒋建中,丁宝琼,吴琼,邱文武.基于页面分块的网页排序算法:BHITS[J].计算机工程,2010,36(11):64-66. 被引量：2
6路松峰,王丹丹.面向移动设备的WEB页面分块算法[J].小型微型计算机系统,2007,28(9):1672-1677. 被引量：1
7刘必广.基于扩展DOM树的XML SCHEMA文档转换为数据库模式算法[J].武夷学院学报,2011,30(2):56-60.
8李姜.基于DOM的评论发现及抽取模型研究[J].计算机工程与设计,2007,28(9):2150-2153. 被引量：5
9李慧,沈洁,张舒,顾天竺,吴颜,陈晓红.基于页面分块与信息熵的评论发现及抽取[J].计算机应用研究,2007,24(2):269-271. 被引量：4
10李文军,林宏生,周晓聪,郑尧展.基于节点聚类的可伸缩多应用无线传感器网络模拟[J].通信学报,2008,29(11):213-219.

微型机与应用

2012年第12期

浏览历史

内容加载中请稍等...

基于CURE算法的网页分块及正文块提取研究被引量：1

参考文献2

二级参考文献25

共引文献181

同被引文献2

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于CURE算法的网页分块及正文块提取研究 被引量：1

参考文献2

二级参考文献25

共引文献181

同被引文献2

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于CURE算法的网页分块及正文块提取研究被引量：1