期刊文献+

基于结构与内容的网页主题信息提取研究 被引量:15

Structure and content-based extraction of topical information from Web pages
下载PDF
导出
摘要 结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想. Combining the Web page's internal features and external structural layout, mapping table is suggested to tansform the view of Web page. The approach gets highly semantic cohesiveness of the topical contents of the Web page exactly, based on the structure and revelatory rules for Web page' s segmentation and identification and the use of the vector space model for Web content analysis. Experimental results show that this method is more ideal for the topical information extraction of complexstructure Web pages.
出处 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期41-44,共4页 Journal of Shandong University(Natural Science)
基金 山东省自然科学基金资助项目(Y2005G21)
关键词 映射表 启发式规则 HTML 区域分割 向量空间模型 mapping table revelatory rules HTML page segmentation VSM
  • 相关文献

参考文献7

二级参考文献48

  • 1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量:24
  • 2吴扬扬,陈锻生.识别和抽取Web列表中的关系信息[J].计算机科学,2004,31(6):86-88. 被引量:3
  • 3唐翔弘,汪林林,文展.基于Web的数据采集[J].计算机科学,2004,31(8):74-76. 被引量:2
  • 4[1]Line Eikvil, Information Extraction from World Wide Web- A Survey[M], Report No. 945, Norwegian Computing Center, ISBN 82-539-0429-0, July, 1999.
  • 5[2]Chia-Hui Chang, Shao-Chen Lui , IEPAD: Information Extraction Based on Pattern Discovery [C], Proceedings of the Tenth International World Wide Web Conference, Hong Kong , May 2001. http:// www10.org/ cdrom/ papers/223/.
  • 6[3]Embley D.W., Jiang Y.S., Ng Y.K., Record-Boundary Discovery in Web Documents[C], Proceedings of SIGMOD, Philadelphia, USA, 1999.
  • 7[4]Morrison, D.R. Journal of ACM [J], 15:514-534.
  • 8[5]E. Ukkonen. On-line construction of suffix-tree[J], algorithmica,14:249-60,1995.
  • 9[1]HTM L4.0 Spccification. W3C Recommendation, 1998-04-24
  • 10[2]Document Object Model(DOM) Level 2 HTML Specification(Version 1.0).W3C Working Draft,2000-11-13

共引文献173

同被引文献85

引证文献15

二级引证文献24

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部