-
题名主题爬行中的隧道穿越技术
被引量:11
- 1
-
-
作者
彭涛
孟宇
左万利
王英
胡亮
-
机构
吉林大学计算机科学与技术学院
符号计算与知识工程教育部重点实验室(吉林大学)
北京科技大学土木与环境工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第4期628-637,共10页
-
基金
国家自然科学基金项目(60903098
60973040)
+3 种基金
吉林省科技发展计划基金项目(20070533)
教育部高等学校博士学科点专项科研基金项目(200801830021)
吉林大学基本科研业务费交叉学科与创新项目(200810025)
符号计算与知识工程教育部重点实验室资助项目(93K-17)~~
-
文摘
由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web页面分割成数量不多的内容块分别处理来避免由于网页整体主题不相关给该块所带来的影响.对于黑色隧道的穿越,将隧道中主题不相关网页根据其父亲页面的主题相关性赋予一个深度值,然后根据其深度值的大小进行取舍,来达到扩展主题爬行区域的目的.实验结果显示,这两种方法都达到了预期效果,所以方法是有效、稳健和实用的.
-
关键词
主题爬行
灰色隧道穿越
黑色隧道穿越
网页分块
TARGET
LENGTH
-
Keywords
focused Web crawling
grey tunneling
black tunneling
Web page segmentation
target length
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-