摘要
本文主要提出通过基于Shark-Search算法结合百度AI自然语言处理中的文本相似性实现主题爬虫,舍弃不相关链接。本引擎使用Scrapy作为爬虫框架、Elasticsearch数据库用于数据检索、Django用于后台开发、MySQL用于存储关系数据结构。本引擎可以实现权威信息检索,用户可以利用其快速检索到想要信息,响应速度也能够满足大部分用户需求。通过这个搜索引擎可以解决用户日常使用时搜索结果存在的大量的烦琐信息,对部分警惕性较差的用户具有误导、欺骗作用,为用户牙齿健康保驾护航。
出处
《科技视界》
2022年第33期192-195,共4页
Science & Technology Vision