-
题名基于TF-IDF改进算法的聚焦主题网络爬虫
被引量:16
- 1
-
-
作者
王景中
邱铜相
-
机构
北方工业大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2015年第10期2901-2904,2919,共5页
-
基金
国家自然科学基金资助项目(61371142)
北京市创新团队建设提升计划项目(ID HT20130502)
-
文摘
针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。
-
关键词
网络爬虫
语义分析
搜索引擎
TF-IDF
主题爬虫
文档相似度
-
Keywords
Web spider
semantic analysis
search engine
Term Frequency-Inverse Document Frequency (TF-IDF)
title spider
document correlation degree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-