期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向图书主题的爬虫算法研究 被引量:6
1
作者 张莉婧 曾庆涛 +2 位作者 李业丽 孙华艳 字云飞 《计算机科学》 CSCD 北大核心 2017年第B11期460-463,469,共5页
针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法。该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主... 针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法。该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主题相关度算法。通过实验对新算法、基于关键词的VSM算法以及基于ODP的VSM算法进行了对比分析,结果表明新算法在图书主题爬虫中更具有优势。 展开更多
关键词 主题爬虫 开放式分类目录系统 向量空间模型 语义扩展度
下载PDF
一种基于本体语义的灾害主题爬虫策略 被引量:4
2
作者 马雷雷 李宏伟 +2 位作者 连世伟 梁汝鹏 陈虎 《计算机工程》 CAS CSCD 北大核心 2016年第11期50-56,共7页
为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权... 为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。 展开更多
关键词 主题爬虫 本体 语义相似度 向量空间模型 相关度计算 锚文本
下载PDF
基于语义的聚焦爬虫算法研究 被引量:9
3
作者 孙红光 藏润强 +2 位作者 姬传德 杨凤芹 冯国忠 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2018年第2期51-57,共7页
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型... 针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%. 展开更多
关键词 聚焦爬虫 LDA 主题模型 向量空间模型(vsm) 语义相似度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部