期刊文献+

网页区域分割与识别技术 被引量:4

Segmentation and Identification of Web Page's Areas
下载PDF
导出
摘要 结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,从而准确得到具有网页各区域的内容。实验结果表明,此方法对各种复杂结构的网页区域分割与识别较为理想。 Combining the Web page's internal features and external structural layout, mapping table is suggested to tansform the view of Web page. The approach gets every area exactly, through Web page's segmentation and the identification based on the structure and revelatory rules. Experimental results show that this method of complex structure Web page's segmentation and identification extraction is ideal.
出处 《现代计算机》 2006年第6期48-50,60,共4页 Modern Computer
基金 山东省自然科学基金资助项目(y2005G21)
关键词 映射表 启发式规则 HTML 区域分割 区域识别 Mapping Table Revelatory Rules HTML Page Segmentation Area Identification
  • 相关文献

参考文献9

二级参考文献48

  • 1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量:24
  • 2吴扬扬,陈锻生.识别和抽取Web列表中的关系信息[J].计算机科学,2004,31(6):86-88. 被引量:3
  • 3唐翔弘,汪林林,文展.基于Web的数据采集[J].计算机科学,2004,31(8):74-76. 被引量:2
  • 4[1]Line Eikvil, Information Extraction from World Wide Web- A Survey[M], Report No. 945, Norwegian Computing Center, ISBN 82-539-0429-0, July, 1999.
  • 5[2]Chia-Hui Chang, Shao-Chen Lui , IEPAD: Information Extraction Based on Pattern Discovery [C], Proceedings of the Tenth International World Wide Web Conference, Hong Kong , May 2001. http:// www10.org/ cdrom/ papers/223/.
  • 6[3]Embley D.W., Jiang Y.S., Ng Y.K., Record-Boundary Discovery in Web Documents[C], Proceedings of SIGMOD, Philadelphia, USA, 1999.
  • 7[4]Morrison, D.R. Journal of ACM [J], 15:514-534.
  • 8[5]E. Ukkonen. On-line construction of suffix-tree[J], algorithmica,14:249-60,1995.
  • 9[1]HTM L4.0 Spccification. W3C Recommendation, 1998-04-24
  • 10[2]Document Object Model(DOM) Level 2 HTML Specification(Version 1.0).W3C Working Draft,2000-11-13

共引文献173

同被引文献36

引证文献4

二级引证文献22

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部