期刊文献+
共找到56篇文章
< 1 2 3 >
每页显示 20 50 100
基于实体关系网络的微博文本摘要 被引量:1
1
作者 薛竹君 杨树强 束阳雪 《计算机科学》 CSCD 北大核心 2016年第9期77-81,共5页
在解析微博文本语法的基础上,结合实体关系的定义和形式化表示,提出了采用关系网络有向图模型的方法来反映文本之间的结构关系,较好地表达了文本的语义信息,弥补了词频特征刻画的不足之处。利用改进后的TPR(Topic-PAGERANK)测算各节点... 在解析微博文本语法的基础上,结合实体关系的定义和形式化表示,提出了采用关系网络有向图模型的方法来反映文本之间的结构关系,较好地表达了文本的语义信息,弥补了词频特征刻画的不足之处。利用改进后的TPR(Topic-PAGERANK)测算各节点对应的度来表现关系元组的重要程度,按序输出关系元组对应的原博文语义字段作为摘要。最后,通过实验证明了基于关系网络的文本自动文摘方法抽取出的摘要涵盖信息更全面,冗余更少。 展开更多
关键词 实体关系 短文本 文本表示 语法分析 topic-pagerank
下载PDF
基于PageRank与Bagging的主题爬虫研究 被引量:11
2
作者 张翔 周明全 +1 位作者 李智杰 董丽丽 《计算机工程与设计》 CSCD 北大核心 2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进... 为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。 展开更多
关键词 主题爬虫 搜索策略 主题相关性 PAGERANK BAGGING
下载PDF
基于主题相似度模型的TS-PageRank算法 被引量:23
3
作者 黄德才 戚华春 钱能 《小型微型计算机系统》 CSCD 北大核心 2007年第3期510-514,共5页
PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRan... PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRank算法框架.只要选择不同的相似度计算模型,就可以得到不同的TS-PageRank算法,形成一个网页排序算法簇.理论分析和数值仿真实验表明,该算法在不需要额外文本信息,也不增加算法时空复杂度的情况下,就能极大地减少主题漂移现象,从而提高查询效率和质量. 展开更多
关键词 链接分析 主题相似度 PAGERANK算法
下载PDF
PageRank算法研究综述 被引量:47
4
作者 李稚楹 杨武 谢治军 《计算机科学》 CSCD 北大核心 2011年第B10期185-188,共4页
网页排序是搜索引擎的关键技术之一。介绍了著名的PageRank算法,针对其存在主题漂移、偏重旧网页等不足,分析了各种改进算法的基本思想和技术特点,希望为以后的研究工作提供基础性支持。
关键词 PAGERANK 主题漂移 偏重旧网页
下载PDF
微博中基于多关系网络的话题层次影响力分析 被引量:21
5
作者 丁兆云 周斌 +1 位作者 贾焰 张鲁民 《计算机研究与发展》 EI CSCD 北大核心 2013年第10期2155-2175,共21页
微博服务每天产生大量涉及多个话题的信息,不同用户参与话题的讨论、传播等表现出不同的影响力.为了全面度量微博中用户在话题层次上的影响力,综合考虑4种网络关系:转发关系、回复关系、复制关系、阅读关系.针对复制关系和阅读关系的不... 微博服务每天产生大量涉及多个话题的信息,不同用户参与话题的讨论、传播等表现出不同的影响力.为了全面度量微博中用户在话题层次上的影响力,综合考虑4种网络关系:转发关系、回复关系、复制关系、阅读关系.针对复制关系和阅读关系的不确定性,给出了网络内部转移概率计算方法;针对多关系网络,提出了基于多关系网络的随机游走模型MultiRank,分别考虑了网络内部的转移概率和不同网络之间的跳转概率.最后将影响力个体根据其影响力属性分为"多话题层次影响力个体"和"单话题层次影响力个体".真实的Twitter数据集上验证了MultiRank的有效性,实验结果表明MultiRank优于TwitterRank和其他影响力个体发现方法,同时实验结果也表明多话题层次影响力个体数目相对所有影响力个体仅占少部分,但影响效果却明显高于单话题层次影响力个体. 展开更多
关键词 话题影响力个体 社会网络 PAGERANK 多关系网络 微博
下载PDF
改进的PageRank在Web信息搜集中的应用 被引量:12
6
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 Web信息搜集
下载PDF
基于Nutch的农业垂直搜索引擎研究 被引量:10
7
作者 王晓琴 李书琴 +1 位作者 景旭 王蒙 《计算机工程与设计》 CSCD 北大核心 2014年第6期2239-2243,共5页
针对传统搜索引擎检索返回结果数量庞大、专业性差、查准率低等问题,在分析研究Nutch开源搜索引擎工作原理的基础上,采用基于词库的正向最大匹配分词算法实现中文分词、基于关键词的向量空间模型实现主题相关性判别、基于PageRank排序... 针对传统搜索引擎检索返回结果数量庞大、专业性差、查准率低等问题,在分析研究Nutch开源搜索引擎工作原理的基础上,采用基于词库的正向最大匹配分词算法实现中文分词、基于关键词的向量空间模型实现主题相关性判别、基于PageRank排序算法改进结果排序等对Nutch进行二次开发,并将农业领域本体应用于搜索引擎的信息采集及过滤、信息检索以及相关词推荐等各个阶段,设计并实现了基于Nutch的农业垂直搜索引擎。实验结果表明,基于Nutch的农业垂直搜索引擎可以提高用户检索的查准率,满足用户检索的专业性需求。 展开更多
关键词 垂直搜索引擎 主题相关性判别 PAGERANK算法 本体 相关词推荐
下载PDF
面向专用信息获取的用户定制主题网络爬虫技术研究 被引量:18
8
作者 薛丽敏 吴琦 李骏 《信息网络安全》 CSCD 2017年第2期12-21,共10页
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,... 进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。 展开更多
关键词 大数据 主题网络爬虫 PAGERANK算法 行为分析 用户定制
下载PDF
Web结构挖掘 被引量:20
9
作者 杨炳儒 李岩 +1 位作者 陈新中 王霞 《计算机工程》 CAS CSCD 北大核心 2003年第20期28-30,共3页
概述了Web结构挖掘的有关概念和相关应用,详细分析和比较了基于超链接结构分析的网页排序的最权威算法,提出了有关Web结构挖掘技术的几个新的研究方向,供感兴趣的同行参考。
关键词 WEB结构挖掘 PAGERANK HITS SALSA 超链接 网页排序
下载PDF
Topic PageRank——一种基于主题的搜索引擎 被引量:8
10
作者 姜鑫维 赵岳松 《计算机技术与发展》 2007年第5期238-241,共4页
通过研究传统的超链分析算法PageRank及其改进算法Hilltop和TSPR的不足,提出了一种新的改进的方法Topic PageRank。这种算法是对每一个页面进行页面分类,然后根据分类的结果分别对每一个主题进行页面等级计算,因此,每一个页面对不同的... 通过研究传统的超链分析算法PageRank及其改进算法Hilltop和TSPR的不足,提出了一种新的改进的方法Topic PageRank。这种算法是对每一个页面进行页面分类,然后根据分类的结果分别对每一个主题进行页面等级计算,因此,每一个页面对不同的主题将呈现出不同的页面等级得分,能更加准确地反映出页面的重要性。 展开更多
关键词 PAGERANK Hilltop TSPR TOPIC PageRank页面分类
下载PDF
基于主题特征和时间因子的改进PageRank算法 被引量:21
11
作者 段淮川 胡平 《计算机工程与设计》 CSCD 北大核心 2010年第4期866-868,共3页
经典PageRank算法单纯地考虑到对网页的链接结构进行分析,而不能考虑到网页在搜索主题方面的相关性和权威性,以及用户对新旧网页的依赖程度的不同。针对经典PageRank算法存在的上述缺陷,综合网页的主题特征和时间特征两个因素,提出了一... 经典PageRank算法单纯地考虑到对网页的链接结构进行分析,而不能考虑到网页在搜索主题方面的相关性和权威性,以及用户对新旧网页的依赖程度的不同。针对经典PageRank算法存在的上述缺陷,综合网页的主题特征和时间特征两个因素,提出了一种改进的PageRank算法WTPR(weighted topic PageRank)。该算法通过网页链接分析和内容分析来解决网页的权威程度和相关程度,通过时间因子实现PageRank值随时间的变动而浮动。仿真结果表明,改进后的算法与PageRank算法相比获得了更好的效果。 展开更多
关键词 主题特征 时间因子 PAGERANK 相关性分析 链接
下载PDF
在线评论信息挖掘分析的数据来源可靠性研究 被引量:6
12
作者 李金海 何有世 《软科学》 CSSCI 北大核心 2015年第4期94-99,共6页
通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TC-PageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网... 通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TC-PageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网页与产品主题的相似度以及网页的链接增幅对网页权威性的影响,运用改进的HITS算法,确定在线评论分析数据来源的权威网页集;而基于MapReduce的矩阵分块运算,降低了算法时空的复杂度。并通过仿真实验验证了该方法的可行性与准确性。 展开更多
关键词 在线评论 PAGERANK 主题漂移 链接增幅
下载PDF
用户差别化和主题敏感的PageRank算法 被引量:2
13
作者 马海波 杨楠 于新兴 《大连交通大学学报》 CAS 2013年第4期116-120,共5页
为了通过相同的查询词,可以返回满足不同用户需求的搜索结果,使搜索结果的排序因人而不同,将用户进行差别化对待,依据不同用户的不同兴趣爱好、个性的特点、不同的需求等,借助改进后的主题敏感的PageRank算法,调整网页排序的结果.用户... 为了通过相同的查询词,可以返回满足不同用户需求的搜索结果,使搜索结果的排序因人而不同,将用户进行差别化对待,依据不同用户的不同兴趣爱好、个性的特点、不同的需求等,借助改进后的主题敏感的PageRank算法,调整网页排序的结果.用户差别化和主题敏感的PageRank算法在一定程度上解决了PageRank算法存在的主题漂移问题,并且针对主题敏感的PageRank算法进行改进,使其具有主题扩展性、减少算法的在线计算时间,在查询过程中提供更快的响应速度.最终用户差别化和主题敏感的PageRank算法可以提高用户对网页排序算法和搜索引擎响应速度的满意程度,并且提高网页排序的准确程度. 展开更多
关键词 PAGERANK 主题敏感 网页排序 用户需求
下载PDF
基于锚文本相似度的PageRank改进算法 被引量:14
14
作者 王钟斐 王彪 《计算机工程》 CAS CSCD 北大核心 2010年第24期258-260,共3页
分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRan... 分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRank算法提高了搜索结果的查准率,有利于减少主题漂移现象。 展开更多
关键词 PAGERANK算法 锚文本 相似度 主题漂移
下载PDF
基于用户反馈与主题关联度的网页排序算法改进 被引量:6
15
作者 王冲 曹姗姗 《计算机应用》 CSCD 北大核心 2014年第12期3502-3506,共5页
针对传统PageRank算法存在主题漂移、忽略用户兴趣及偏向旧网页的问题,提出一种基于用户反馈与主题关联度的网页排序改进算法。该算法为了更好满足用户的检索需求,利用用户对链接的点击量、链接结构及网页浏览时间来构成用户反馈因子,... 针对传统PageRank算法存在主题漂移、忽略用户兴趣及偏向旧网页的问题,提出一种基于用户反馈与主题关联度的网页排序改进算法。该算法为了更好满足用户的检索需求,利用用户对链接的点击量、链接结构及网页浏览时间来构成用户反馈因子,同时结合网页内容的主题关联度因子,共同对网页PR值进行适当修正与合理分配。为了改善网页排序的效果,算法通过添加时间相关因子,对新网页作出一定补偿,使得新网页一定程度上浮,旧网页下沉。实验结果表明,所提算法在相同实验环境下,相对于传统PageRank算法,提升了用户搜索满意度平均值约2.1%,达到了优化网页排序效果的预期研究目标。 展开更多
关键词 PAGERANK算法 用户反馈 主题关联度 链接结构
下载PDF
基于时间特性的微博热门话题检测算法研究 被引量:6
16
作者 闫光辉 赵红运 +1 位作者 任亚缙 陈勇 《计算机应用研究》 CSCD 北大核心 2014年第1期43-46,共4页
以用户兴趣理论和用户之间的关注行为为基础,结合时间因素在微博热门话题检测中的重要作用,研究了如何有效获取微博中最新、最有价值的话题问题,基于PageRank经典算法提出了一种带时间参数的热门话题检测算法(TimePageRank)。算法首先... 以用户兴趣理论和用户之间的关注行为为基础,结合时间因素在微博热门话题检测中的重要作用,研究了如何有效获取微博中最新、最有价值的话题问题,基于PageRank经典算法提出了一种带时间参数的热门话题检测算法(TimePageRank)。算法首先使用投票机制抽取出用户感兴趣的话题并记录话题的生成时间;然后用权值计算公式计算每个话题的权值;最后使用TimePageRank算法对这些话题进行排名,从而检测出微博中的热门话题。真实数据集上的实验结果验证了该方法的高效性。 展开更多
关键词 微博 热门话题 时间因素 TimePageRank算法 用户兴趣 PAGERANK算法
下载PDF
PageRank算法中主题漂移的研究 被引量:13
17
作者 高琪 张永平 《微计算机信息》 2010年第9期117-119,89,共4页
pagerank算法仅根据网页的pagerank值对搜索结果进行排序,一个网页的pagerank值越高,其位置越靠前,这使得pagerank算法无法区分搜索结果中与主题相关的权威网页和与主题无关的权威网页。也正因此在使用pagerank算法时往往会发生主题漂... pagerank算法仅根据网页的pagerank值对搜索结果进行排序,一个网页的pagerank值越高,其位置越靠前,这使得pagerank算法无法区分搜索结果中与主题相关的权威网页和与主题无关的权威网页。也正因此在使用pagerank算法时往往会发生主题漂移现象。产生这一问题的原因有两个,一是pagerank对网页权值平均分配,二是pagerank与查询主题的无关性。本文从这二方面入手,采用tf-idf算法计算主题的相关权重,提出了与查询主题相关的query-basedpagerank算法,有效地解决了原算法中的主题漂移问题。 展开更多
关键词 PAGERANK 主题漂移 主题敏感 页面排序 搜索引擎
下载PDF
基于链接和内容的BLCT主题爬行算法研究 被引量:1
18
作者 王宏艳 《计算机应用研究》 CSCD 北大核心 2011年第2期495-497,528,共4页
为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究。首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测量网页的链接相似度;其次,从单个网页考虑,利用每个网页的url、title和正文,给出基于内容的相似度的计算方... 为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究。首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测量网页的链接相似度;其次,从单个网页考虑,利用每个网页的url、title和正文,给出基于内容的相似度的计算方法;最后结合内容相似度和链接相似度,提出了一种基于链接和内容的BLCT主题爬行算法。实验结果表明,该算法在平均收获率和目标召回率上有显著提高,爬行的网页主题相关性也提高了。 展开更多
关键词 垂直搜索引擎 PAGERANK算法 主题爬行 链接相似度 内容相似度
下载PDF
基于用户兴趣与主题相关的PageRank算法改进研究 被引量:14
19
作者 王冲 纪仙慧 《计算机科学》 CSCD 北大核心 2016年第3期275-278,312,共5页
针对传统的PageRank算法存在主题漂移、忽略用户兴趣等不足,提出一种基于用户兴趣与主题相关的PageRank改进算法——ITPR。为了更好地提高用户搜索质量,利用网页浏览时间与页面篇幅共同构建用户兴趣度因子,用线性拟合月点击量的方法预... 针对传统的PageRank算法存在主题漂移、忽略用户兴趣等不足,提出一种基于用户兴趣与主题相关的PageRank改进算法——ITPR。为了更好地提高用户搜索质量,利用网页浏览时间与页面篇幅共同构建用户兴趣度因子,用线性拟合月点击量的方法预测用户兴趣度的升降,同时结合网页内容引入主题相关度因子,共同对网页PR值进行适当的修正,使其分配更为合理。仿真实验结果表明,在相同的实验环境下,改进的PageRank算法提升了网页排序质量、查准率以及用户搜索满意度。 展开更多
关键词 PAGERANK 用户兴趣 线性拟合 兴趣度预测 主题相关度
下载PDF
基于页面分块模型的PageRank算法研究 被引量:4
20
作者 白似雪 刘华斌 《南昌大学学报(工科版)》 CAS 2008年第2期179-183,共5页
提出了一个基于页面分块重要性模型的PageRank改进算法。该算法考虑同一页面内属于不同分块的出链接有着不同的重要性,故对不同分块的出链接赋予相应的权重,从而更合理、更公正、更有效地计算页面的PageRank值。与以往的PageRank算法及... 提出了一个基于页面分块重要性模型的PageRank改进算法。该算法考虑同一页面内属于不同分块的出链接有着不同的重要性,故对不同分块的出链接赋予相应的权重,从而更合理、更公正、更有效地计算页面的PageRank值。与以往的PageRank算法及其改进算法相比,该算法以基于视觉特征的页面分块算法为核心,更好地反映了网页的特性,符合了用户的使用习惯,具有良好的效果。 展开更多
关键词 PAGERANK 页面分块重要性模型 链接分析 主题漂移 支持向量机
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部