-
题名智能专题化信息搜集Crawler
被引量:4
- 1
-
-
作者
钱榕
徐新华
郑莹
杨炳儒
-
机构
北京科技大学信息工程学院
北京科技大学管庄校区信息工程系
济南大学人事处
-
出处
《计算机工程》
CAS
CSCD
北大核心
2006年第3期57-59,共3页
-
基金
国家自然科学基金重点资助项目(69835001)
国家科技成果重点推广计划基金资助项目(2003EC000001)
-
文摘
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。
-
关键词
专题化爬行
WEB挖掘
神经网络
加强学习
-
Keywords
Topic-specific crawler
Web mining
Neural network
Reinforcement learning
-
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
-