期刊文献+

基于FFT的网页正文提取算法研究与实现 被引量:15

Research and implementation of FFT-based extraction algorithm of webpage content main body
下载PDF
导出
摘要 主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特征,将问题转化为——给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。实验结果表明,此种方法能比较准确的对"正文式"网页的有效信息进行提取。 This paper studies the extraction algorithm of the effective information of "Content-Dominated" Web pages.This kind of Web pages contains the major content information of the Web sites.It includes a long paragraph of content main body,and format information in the beginning and the ending (e.g.navigation information,interaction information,JavaScript and so on).This paper analyzes the structural characteristics of this kind of Web page,and transformed the problem as :given an HTML source file of a "Content-Dominated" Webpage,to find the best range of the content main body.Presents an FFT-based extraction algorithm of webpage content main body.By applying window-segmentation,statistics theory and FFT,this method calculates the weight of every possible range;and thereby selects the best one as solution.The experimental result proves that this algorithm can efficiently extract the effective information of "Content-Dominated" Web pages.
出处 《计算机工程与应用》 CSCD 北大核心 2007年第30期148-151,共4页 Computer Engineering and Applications
基金 国家发改委CNGI示范工程资助项目(No.CNGI-04-15-2A)
关键词 中文信息处理 WEB页面 信息提取 页面结构 FFT 区域分割 Chinese information processing Web page information extraction Web page structure Fast Fourier Transformation (FTT) page segmentation
  • 相关文献

参考文献6

二级参考文献42

  • 1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量:24
  • 2吴扬扬,陈锻生.识别和抽取Web列表中的关系信息[J].计算机科学,2004,31(6):86-88. 被引量:3
  • 3唐翔弘,汪林林,文展.基于Web的数据采集[J].计算机科学,2004,31(8):74-76. 被引量:2
  • 4[1]Line Eikvil, Information Extraction from World Wide Web- A Survey[M], Report No. 945, Norwegian Computing Center, ISBN 82-539-0429-0, July, 1999.
  • 5[2]Chia-Hui Chang, Shao-Chen Lui , IEPAD: Information Extraction Based on Pattern Discovery [C], Proceedings of the Tenth International World Wide Web Conference, Hong Kong , May 2001. http:// www10.org/ cdrom/ papers/223/.
  • 6[3]Embley D.W., Jiang Y.S., Ng Y.K., Record-Boundary Discovery in Web Documents[C], Proceedings of SIGMOD, Philadelphia, USA, 1999.
  • 7[4]Morrison, D.R. Journal of ACM [J], 15:514-534.
  • 8[5]E. Ukkonen. On-line construction of suffix-tree[J], algorithmica,14:249-60,1995.
  • 9O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213~220
  • 10Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620

共引文献155

同被引文献115

引证文献15

二级引证文献63

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部