期刊文献+
共找到59篇文章
< 1 2 3 >
每页显示 20 50 100
基于词嵌入的科研主题排序研究
1
作者 何东彬 陶莎 +1 位作者 任延昭 朱艳红 《北方工业大学学报》 2024年第1期136-149,共14页
为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实... 为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义。针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中。实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法。 展开更多
关键词 主题模型 潜在狄利克雷分配(LDA) 主题排序 科研主题 词嵌入
下载PDF
用户差别化和主题敏感的PageRank算法 被引量:2
2
作者 马海波 杨楠 于新兴 《大连交通大学学报》 CAS 2013年第4期116-120,共5页
为了通过相同的查询词,可以返回满足不同用户需求的搜索结果,使搜索结果的排序因人而不同,将用户进行差别化对待,依据不同用户的不同兴趣爱好、个性的特点、不同的需求等,借助改进后的主题敏感的PageRank算法,调整网页排序的结果.用户... 为了通过相同的查询词,可以返回满足不同用户需求的搜索结果,使搜索结果的排序因人而不同,将用户进行差别化对待,依据不同用户的不同兴趣爱好、个性的特点、不同的需求等,借助改进后的主题敏感的PageRank算法,调整网页排序的结果.用户差别化和主题敏感的PageRank算法在一定程度上解决了PageRank算法存在的主题漂移问题,并且针对主题敏感的PageRank算法进行改进,使其具有主题扩展性、减少算法的在线计算时间,在查询过程中提供更快的响应速度.最终用户差别化和主题敏感的PageRank算法可以提高用户对网页排序算法和搜索引擎响应速度的满意程度,并且提高网页排序的准确程度. 展开更多
关键词 PAGErank 主题敏感 网页排序 用户需求
下载PDF
PageRank算法中主题漂移的研究 被引量:13
3
作者 高琪 张永平 《微计算机信息》 2010年第9期117-119,89,共4页
pagerank算法仅根据网页的pagerank值对搜索结果进行排序,一个网页的pagerank值越高,其位置越靠前,这使得pagerank算法无法区分搜索结果中与主题相关的权威网页和与主题无关的权威网页。也正因此在使用pagerank算法时往往会发生主题漂... pagerank算法仅根据网页的pagerank值对搜索结果进行排序,一个网页的pagerank值越高,其位置越靠前,这使得pagerank算法无法区分搜索结果中与主题相关的权威网页和与主题无关的权威网页。也正因此在使用pagerank算法时往往会发生主题漂移现象。产生这一问题的原因有两个,一是pagerank对网页权值平均分配,二是pagerank与查询主题的无关性。本文从这二方面入手,采用tf-idf算法计算主题的相关权重,提出了与查询主题相关的query-basedpagerank算法,有效地解决了原算法中的主题漂移问题。 展开更多
关键词 PAGErank 主题漂移 主题敏感 页面排序 搜索引擎
下载PDF
一种改进的基于云计算的PageRank算法 被引量:1
4
作者 张恺 《佛山科学技术学院学报(自然科学版)》 CAS 2015年第2期66-70,共5页
PageRank算法是最为经典的Web结构挖掘算法,但是其存在主题漂移的问题,使得搜索结果中存在大量与查询主题无关的网页。在分析Page Rank算法的基础上,提出利用欧式距离计算主题相似度并融入传统的PageRank算法中,形成一个改进的网页排序... PageRank算法是最为经典的Web结构挖掘算法,但是其存在主题漂移的问题,使得搜索结果中存在大量与查询主题无关的网页。在分析Page Rank算法的基础上,提出利用欧式距离计算主题相似度并融入传统的PageRank算法中,形成一个改进的网页排序算法,并把此算法应用到云计算环境中,研究MapReduce编程模型上的PageRank算法流程。 展开更多
关键词 PAGErank算法 主题相似度 MAPREDUCE
下载PDF
基于PageRank和Node2vec的研究热点与集群发现——以国际深度学习研究领域为例 被引量:10
5
作者 霍朝光 魏瑞斌 张斌 《情报杂志》 CSSCI 北大核心 2020年第8期174-179,153,共7页
[目的/意义]为有效挖掘领域研究热点与集群,规避单纯基于频次统计的热点排序方法所存在的弊端,以及基于高频关键词共词网络集群发现方法所带来的偏差。[方法/过程]提出利用无向加权PagaRank算法进行研究热点排序,综合考量关键词之间共... [目的/意义]为有效挖掘领域研究热点与集群,规避单纯基于频次统计的热点排序方法所存在的弊端,以及基于高频关键词共词网络集群发现方法所带来的偏差。[方法/过程]提出利用无向加权PagaRank算法进行研究热点排序,综合考量关键词之间共现的数量和质量,同时强调全部关键词共词网络的重要性,综合Node2vec表示学习和t-SNE聚类算法对全部关键词进行集群发现,以国际深度学习领域研究文献为例,分别进行热点排序和集群发现。[结果/结论]研究表明PageRank算法不仅能够区分频次统计算法无法区分的排名,而且从整体网络结构衡量研究热点,综合考量共现的数量和质量,使排序结果更为准确;整合Node2vec和t-SNE算法进行研究集群发现,可有效改善单纯利用高频关键词进行集群发现的不足,避免在有限的关联密切的高频关键词之间强制分门别类;综合热点和集群发现方法,可在凸显热点的基础上描述集群细节,有效揭示集群脉络。 展开更多
关键词 深度学习 热点排序 集群发现 Node2vec PAGErank
下载PDF
基于改进PageRank算法的微博用户影响力排序研究 被引量:3
6
作者 丁温雪 徐家兴 朱颢东 《湖北民族学院学报(自然科学版)》 CAS 2016年第3期256-260,共5页
针对传统的PageRank算法中存在主题漂移和偏重旧网页的弊端,提出了一种基于改进PageRank算法的微博用户影响力排序方法——TSPR算法.该算法将时间因素作为横向标度,采用TF-IDF方法计算网页间的相似度,并具体分析某个时间段用户搜索主题... 针对传统的PageRank算法中存在主题漂移和偏重旧网页的弊端,提出了一种基于改进PageRank算法的微博用户影响力排序方法——TSPR算法.该算法将时间因素作为横向标度,采用TF-IDF方法计算网页间的相似度,并具体分析某个时间段用户搜索主题相似度的变化.通过计算网页PR值的大小,从而对微博用户影响力进行排序.仿真实验结果表明,该算法改善了微博用户影响力排序效果,与此同时,提高了搜索质量和准确率. 展开更多
关键词 PAGErank算法 时间因子 主题相似度 用户影响力排序
下载PDF
基于改进PageRank算法的管道专业搜索引擎系统设计与实现
7
作者 王兵 许少华 张兴旺 《大庆石油学院学报》 CAS 北大核心 2007年第1期79-81,87,共4页
针对管道科技工作人员进行大量专业化信息检索的业务需要,在系统分析和研究专业搜索引擎实现技术的基础上,采用多线程编程技术,设计开发基于PageRank改进算法的管道专业搜索引擎系统.根据管道信息业务流程,设计了系统的组成架构,探讨超... 针对管道科技工作人员进行大量专业化信息检索的业务需要,在系统分析和研究专业搜索引擎实现技术的基础上,采用多线程编程技术,设计开发基于PageRank改进算法的管道专业搜索引擎系统.根据管道信息业务流程,设计了系统的组成架构,探讨超链分析、搜索策略、网页评级排序等关键技术.管道专业搜索引擎系统采用VC++6.0开发,其原型系统在实际应用中表现出良好的适应性. 展开更多
关键词 管道 专业搜索引擎 超链分析 搜索策略 网页评级
下载PDF
基于多特征和Ranking SVM的微博新闻自动摘要研究 被引量:2
8
作者 李孟爽 昝红英 贾会贞 《郑州大学学报(理学版)》 CAS 北大核心 2017年第2期43-47,共5页
提出了面向微博应用的新闻文本自动摘要研究方法.利用互信息对新闻文本中词语和句子之间的语义特征进行计算,根据其关联度对句子进行主题划分,赋予主题句较高的权重,同时从文本中抽取多种组合特征,利用Ranking SVM对句子进行排序,从而... 提出了面向微博应用的新闻文本自动摘要研究方法.利用互信息对新闻文本中词语和句子之间的语义特征进行计算,根据其关联度对句子进行主题划分,赋予主题句较高的权重,同时从文本中抽取多种组合特征,利用Ranking SVM对句子进行排序,从而得到自动摘要.在NLP&CC2015面向微博中文新闻自动摘要评测数据集上进行对比实验,取得了良好效果,证明该方法的有效性. 展开更多
关键词 互信息 语义特征 主题句 新闻文本自动摘要
下载PDF
Topic Detection for Post Bar Based on LDA Model
9
作者 Muzhen Sun Haonan Zheng 《国际计算机前沿大会会议论文集》 2018年第2期13-13,共1页
关键词 topic detection HOT topic rankING LDA modelBaidu POST BAR Ideological education
下载PDF
基于话题模型的专家发现方法 被引量:6
10
作者 刘健 李绮 +1 位作者 刘宝宏 张云 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第2期127-131,共5页
专家发现是实体检索的一个重要方面。经典的专家发现模型建立在专家与词项的条件独立性假设基础上。在实际应用中该假设通常不成立,使得专家发现的效果不够理想。本文提出了一种基于话题模型的专家发现方法,该方法无需依赖候选专家与词... 专家发现是实体检索的一个重要方面。经典的专家发现模型建立在专家与词项的条件独立性假设基础上。在实际应用中该假设通常不成立,使得专家发现的效果不够理想。本文提出了一种基于话题模型的专家发现方法,该方法无需依赖候选专家与词项的条件独立性假设,且其可操作性比经典模型更强。同时,使用了一种排序截断技术,该技术极大地降低了模型的计算复杂度。使用CERC(CSIRO Enterprise Research Collection)数据集对模型的性能进行评估。实验结果表明,基于话题模型的专家发现方法在各个评价指标上均优于经典的专家发现模型,能够有效地提高专家发现的效能。 展开更多
关键词 实体检索 专家发现 基于话题的模型 排序截断
下载PDF
基于LDA模型的微博话题发现技术研究 被引量:10
11
作者 李凤岭 朱保平 《计算机应用与软件》 CSCD 北大核心 2014年第10期24-26,66,共4页
微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图... 微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图,并通过PageRank算法将话题进行排名。实验结果表明,排名后返回给用户的话题的准确性明显高于未排名的结果。 展开更多
关键词 微博 话题 排名 LDA模型
下载PDF
基于主题模型的微博重要话题发现与排序方法 被引量:12
12
作者 姜晓伟 王建民 丁贵广 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期179-185,共7页
近年来,以Twitter和新浪微博为代表的微博客正在世界范围内流行起来.根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法.首先,在互联网上收集并格式化出现了感兴趣的词的微博.对于这些微博中的所有词汇,综... 近年来,以Twitter和新浪微博为代表的微博客正在世界范围内流行起来.根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法.首先,在互联网上收集并格式化出现了感兴趣的词的微博.对于这些微博中的所有词汇,综合考虑影响力、突发性和相关性3个要素对其重要性进行评估.其次,对词的重要性做出估量后,以含有同一关键词的微博的集合为输入文档训练LDA模型.然后通过对主题关键词的概率分布的推导,实现词的聚类和主题的挖掘.这一方法可以克服微博的长度限制所带来的数据稀缺性问题.最后,通过真实数据集上的实验表明了该方法的有效性. 展开更多
关键词 微博客 关键词排序 主题发现 LDA 主题模型 文本挖掘
下载PDF
一种基于主题相关度的网页排序算法 被引量:3
13
作者 吴炜 梁昆 +2 位作者 李瑞轩 辜希武 卢正鼎 《微电子学与计算机》 CSCD 北大核心 2008年第9期221-224,共4页
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上... 针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率. 展开更多
关键词 网页排序 主题相关度 链接分析 向量空间模型
下载PDF
基于量子自组织神经网络的Deep Web分类方法研究 被引量:3
14
作者 张亮 陆余良 房珊瑶 《计算机科学》 CSCD 北大核心 2011年第6期205-210,共6页
针对Deep Web数据源主题分类问题,首先研究了不同位置的特征项对Deep Web接口领域分类的影响,提出一种基于分级权重的特征选择方法RankFW;然后提出一种依赖领域知识的量子自组织特征映射神经网络模型DR-QSOFM及其分类算法,该模型在训练... 针对Deep Web数据源主题分类问题,首先研究了不同位置的特征项对Deep Web接口领域分类的影响,提出一种基于分级权重的特征选择方法RankFW;然后提出一种依赖领域知识的量子自组织特征映射神经网络模型DR-QSOFM及其分类算法,该模型在训练的不同阶段对特征向量和目标向量产生不同程度的依赖,使竞争层中获胜神经元的分布更为集中,簇的区域划分更为明显;最后,在扩展后的TEL-8数据集上进行的实验验证了RankFW和DR-QSOFM的有效性。 展开更多
关键词 DEEP WEB接口 特征选择 主题分类 分级权重 领域依赖 量子自组织特征映射
下载PDF
一种基于社会性标注的网页排序算法 被引量:19
15
作者 刘凯鹏 方滨兴 《计算机学报》 EI CSCD 北大核心 2010年第6期1014-1023,共10页
社会性标注作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中,由此产生的大量社会性标注数据成为网页质量评价的一个新维度.文中研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关... 社会性标注作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中,由此产生的大量社会性标注数据成为网页质量评价的一个新维度.文中研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关系的网页排序算法.首先利用统计主题模型,使用相关标签为网页和用户建模,并计算查询相关性.然后利用二部图模型刻画网页和用户间的互增强关系,并使用相关标签与用户兴趣和网页内容的匹配度为互增强关系赋予权重.最后结合查询相关性和互增强关系,以迭代方式同时计算网页和用户的评分.实验结果表明,文中提出的检索模型和互增强模型能够有效地提高排序算法的性能.与目前的代表性算法相比,该算法在检索性能上有明显提高. 展开更多
关键词 社会性标注 网页检索 网页质量 排序算法 主题模型
下载PDF
网络新闻话题演化模式挖掘 被引量:3
16
作者 赵旭剑 张立 +4 位作者 李波 张晖 杨春明 喻琼 王耀彬 《软件》 2015年第6期1-6,共6页
针对特定主题的新闻话题演化模式挖掘对于话题动态演化研究具有重要的研究意义和应用价值,能帮助人们清晰地梳理话题事件的来龙去脉,直观地展现话题演化轨迹的逻辑结构。针对该需求,本文提出一种面向特定话题的网络新闻话题演化模式挖... 针对特定主题的新闻话题演化模式挖掘对于话题动态演化研究具有重要的研究意义和应用价值,能帮助人们清晰地梳理话题事件的来龙去脉,直观地展现话题演化轨迹的逻辑结构。针对该需求,本文提出一种面向特定话题的网络新闻话题演化模式挖掘方法,拟从挖掘话题演化逻辑的角度出发,针对特定话题(矿难事件)进行话题演化一般规律的深入分析,对话题演变过程进行阶段化表示,建立话题演化模式。实验结果表明,本文构建的特定话题演化模式具有较强的语义表达能力,符合话题逻辑。 展开更多
关键词 话题演化 演化模式挖掘 话题聚类 TEXT rank
下载PDF
改进在线词对主题模型的微博热点话题演化 被引量:3
17
作者 吴迪 张梦甜 +2 位作者 生龙 黄竹韵 顾明星 《计算机工程与应用》 CSCD 北大核心 2021年第24期179-184,共6页
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进... 话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。 展开更多
关键词 话题标签 先验参数 主题强度排名 在线词对主题模型 微博热点话题演化
下载PDF
专业搜索引擎的排序算法研究 被引量:9
18
作者 徐金雷 杨晓江 《现代图书情报技术》 CSSCI 北大核心 2006年第7期20-24,共5页
探讨影响搜索引擎排序的一般性因素:词频和词位置信息、用户行为信息、网页之间的链接信息等,在此基础上针对专业搜索引擎的排序算法,提出主题相关度并结合基础教育搜索引擎进行实验。实验结果表明,专业搜索引擎中主题相关度的适当应用... 探讨影响搜索引擎排序的一般性因素:词频和词位置信息、用户行为信息、网页之间的链接信息等,在此基础上针对专业搜索引擎的排序算法,提出主题相关度并结合基础教育搜索引擎进行实验。实验结果表明,专业搜索引擎中主题相关度的适当应用能明显改善排序结果。 展开更多
关键词 专业搜索引擎 排序算法 主题相关度 词频 用户行为信息
下载PDF
一种用于本体排序的内容分析方法 被引量:2
19
作者 徐德智 刘怡静 《计算机应用研究》 CSCD 北大核心 2010年第6期2127-2129,共3页
针对使用传统的用于本体排序的方法得到的排序结果不够准确的问题,提出了一种新的内容分析方法。首先通过构造本体的概念模型提取本体的主题词集合得到本体的主题相似度;然后通过对关键词所在的本体上下文进行分析,得到本体相对于关键... 针对使用传统的用于本体排序的方法得到的排序结果不够准确的问题,提出了一种新的内容分析方法。首先通过构造本体的概念模型提取本体的主题词集合得到本体的主题相似度;然后通过对关键词所在的本体上下文进行分析,得到本体相对于关键词的上下文相关度;最后结合主题相似度和上下文相关度得到本体相对于关键词的综合评价值并进行排序。实验结果表明,该方法可以有效地提高本体排序的准确性。 展开更多
关键词 本体排序 主题相似度 上下文相关度
下载PDF
Web链接结构信息研究综述 被引量:5
20
作者 李剑 金蓓弘 《计算机科学》 CSCD 北大核心 2003年第4期95-98,138,共5页
As the size of WWW is growing at an incredible rate, there is some limitation in the methods that only analyzes the Web pages' information. This paper presents a basic model of Web link structure. Then it classifi... As the size of WWW is growing at an incredible rate, there is some limitation in the methods that only analyzes the Web pages' information. This paper presents a basic model of Web link structure. Then it classifies the algorithms that analyze the Web link structure information and their applications. At last, it presents the practical approach of analyzing Web link structure information. 展开更多
关键词 网络搜索引擎 网页内容 Web链接结构信息 计算机网络
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部