基于FFT的网页正文提取算法研究与实现被引量：15

Research and implementation of FFT-based extraction algorithm of webpage content main body

下载PDF

导出

摘要主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特征,将问题转化为——给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。实验结果表明,此种方法能比较准确的对"正文式"网页的有效信息进行提取。 This paper studies the extraction algorithm of the effective information of ＂Content-Dominated＂ Web pages.This kind of Web pages contains the major content information of the Web sites.It includes a long paragraph of content main body,and format information in the beginning and the ending （e.g.navigation information,interaction information,JavaScript and so on）.This paper analyzes the structural characteristics of this kind of Web page,and transformed the problem as ：given an HTML source file of a ＂Content-Dominated＂ Webpage,to find the best range of the content main body.Presents an FFT-based extraction algorithm of webpage content main body.By applying window-segmentation,statistics theory and FFT,this method calculates the weight of every possible range;and thereby selects the best one as solution.The experimental result proves that this algorithm can efficiently extract the effective information of ＂Content-Dominated＂ Web pages.

作者李蕾王劲林白鹤胡晶晶

机构地区中国科学院声学研究所DSP中心

出处《计算机工程与应用》 CSCD 北大核心 2007年第30期148-151,共4页 Computer Engineering and Applications

基金国家发改委CNGI示范工程资助项目(No.CNGI-04-15-2A)

关键词中文信息处理 WEB页面信息提取页面结构 FFT 区域分割 Chinese information processing Web page information extraction Web page structure Fast Fourier Transformation （FTT） page segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5瞿有利,于浩,徐国伟,西野文人.Web页面信息块的自动分割[J].中文信息学报,2004,18(1):6-13. 被引量：10
6Cai Deng,Yu Shi-peng,Wen Ji-rong,et al,Extracting content structure for Web pages based on visual representation [C]// APWeb, 2003 : 406-417.

二级参考文献42

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2吴扬扬,陈锻生.识别和抽取Web列表中的关系信息[J].计算机科学,2004,31(6):86-88. 被引量：3
3唐翔弘,汪林林,文展.基于Web的数据采集[J].计算机科学,2004,31(8):74-76. 被引量：2
4[1]Line Eikvil, Information Extraction from World Wide Web- A Survey[M], Report No. 945, Norwegian Computing Center, ISBN 82-539-0429-0, July, 1999.
5[2]Chia-Hui Chang, Shao-Chen Lui , IEPAD: Information Extraction Based on Pattern Discovery [C], Proceedings of the Tenth International World Wide Web Conference, Hong Kong , May 2001. http:// www10.org/ cdrom/ papers/223/.
6[3]Embley D.W., Jiang Y.S., Ng Y.K., Record-Boundary Discovery in Web Documents[C], Proceedings of SIGMOD, Philadelphia, USA, 1999.
7[4]Morrison, D.R. Journal of ACM [J], 15:514-534.
8[5]E. Ukkonen. On-line construction of suffix-tree[J], algorithmica,14:249-60,1995.
9O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220
10Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620

共引文献155

1靳从.基于有向图的版面逻辑顺序确定方法研究[J].微计算机信息,2008,24(12):292-293. 被引量：1
2赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
6贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
7胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
8贾娟,陈堃銶,周东浩.图文互斥版面中文字阅读顺序的确定[J].中文信息学报,2005,19(5):67-75. 被引量：1
9张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
10吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4

同被引文献115

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
3王婷,吴振新,高凡.国际网络信息资源保存的合作机制分析[J].图书馆建设,2009(3):6-9. 被引量：16
4李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
5黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
6张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
7赵俊玲.澳大利亚网络信息保存项目PANDORA及其启示[J].情报理论与实践,2004,27(5):552-554. 被引量：21
8王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
9于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
10崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12

引证文献15

1孙晓辉,刘建,王劲林,陈晓.基于CSS的网页分割算法[J].微计算机应用,2008,29(9):46-51. 被引量：4
2熊惠荟,欧阳君.基于模板法的网页英语试卷自动抽取技术的研究[J].计算机与数字工程,2009,37(4):50-52. 被引量：1
3张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
4白鹤,王劲林,赵志强.基于元搜索技术的主题新闻门户系统[J].计算机系统应用,2009,18(11):142-145. 被引量：2
5沈劲枝,寇文波,田晨耕.基于特征定位边界预测的Web档案正文采集[J].现代图书情报技术,2009(12):52-56. 被引量：5
6熊子奇,张晖,林茂松.基于相似度的中文网页正文提取算法[J].西南科技大学学报,2010,25(1):80-84. 被引量：3
7常红要,朱征宇.网页正文提取中与正文无关的图像清除技术[J].计算机技术与发展,2010,20(7):17-20. 被引量：1
8常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量：15
9夏华林,张仰森.基于规则与统计的Web突发事件新闻多层次分类[J].计算机应用,2012,32(2):392-394. 被引量：8
10段晓丽,王宇,谷静,刘玮楠.基于正文特征及网页结构的主题网页信息抽取[J].计算机工程与应用,2012,48(30):151-156. 被引量：10

二级引证文献63

1张军.CSS Sprites在Web开发中的应用[J].考试周刊,2010(31):150-151. 被引量：1
2刘淳安,赵天绪,黄梅娟.基于差分进化算法的智能组卷方法[J].计算机与数字工程,2011,39(1):1-3. 被引量：6
3蒋明原,孔令德.基于Lucene的藏文信息采集及检索系统研究[J].电脑开发与应用,2011,24(2):34-37. 被引量：3
4马费成,赵红斌,万燕玲,杨东晨,赖洁.基于关联数据的网络信息资源集成[J].情报杂志,2011,30(2):167-170. 被引量：45
5夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报（自然科学版）,2011,29(1):133-137. 被引量：2
6夏天.Web数据的深度定向采集[J].山东大学学报（理学版）,2011,46(5):34-38. 被引量：1
7蔡李,单艳,薛化建,苏国平.维吾尔文网页正文抽取系统的研究与实现[J].计算机工程与设计,2012,33(2):551-555. 被引量：3
8宋健豪,赵刚.基于启发式规则优化的网页元素提取方法[J].信息安全与技术,2012,3(6):66-69. 被引量：2
9胡晟.基于网络爬虫的Web挖掘应用[J].软件,2012,33(7):145-147. 被引量：8
10段晓丽,王宇,谷静,刘玮楠.基于正文特征及网页结构的主题网页信息抽取[J].计算机工程与应用,2012,48(30):151-156. 被引量：10

1黄光芳.正则表达式在远程网页下载中的应用[J].计算机与信息技术,2007(3):72-74. 被引量：2
2栗勇兵,韩平,董启雄.网页信息自动提取的设计与实现[J].计算机光盘软件与应用,2012,15(18):187-188. 被引量：1
3袁辽东.Flash动画任我下[J].网络与信息,2004,18(5):87-87.
4陈晓军.调高安全级别轻松复制网页[J].电脑爱好者,2011(13):22-22.
5陈晓军.修改设置让你轻松复制网页文字或图片[J].电脑爱好者,2012(2):57-57.
6代建华.FrontPage 98中的Theme制作技术[J].计算机时代,1999(11):16-17.
7陈欣,卓力.面向敏感网页识别的网页内容获取方案的设计与实现[J].测控技术,2009,28(5):24-27. 被引量：3
8王书茂,祝青园,王卓君,郑永军.基于校园网的电机转子试验台远程测控系统[J].中国农业大学学报,2007,12(3):89-92. 被引量：2
9李晔,陈晓,王劲林.一种支持移动终端浏览网页的5C处理方法[J].计算机工程与应用,2008,44(14):34-38. 被引量：2

计算机工程与应用

2007年第30期

浏览历史

内容加载中请稍等...

基于FFT的网页正文提取算法研究与实现被引量：15

参考文献6

二级参考文献42

共引文献155

同被引文献115

引证文献15

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于FFT的网页正文提取算法研究与实现 被引量：15

参考文献6

二级参考文献42

共引文献155

同被引文献115

引证文献15

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于FFT的网页正文提取算法研究与实现被引量：15