期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
A New Generalized Similarity-Based Topic Distillation Algorithm
1
作者 ZHOU Hongfang DANG Xiaohui 《Wuhan University Journal of Natural Sciences》 CAS 2007年第5期789-792,共4页
The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent se... The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA(generalized similarity based topic distillation algorithm) was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS(hypertext induced topic search) algorithm, and discovers several relative topics to queries that have multiple meanings. 展开更多
关键词 generalized similarity hypertext induced topic search topic distillation topic drift
下载PDF
上市公司社会责任自述中存在“厚此薄彼”吗?——基于倾向性的信息披露质量评估与实证 被引量:1
2
作者 段钊 吴智敏 陆定一 《宏观质量研究》 CSSCI 2023年第3期48-63,共16页
随着市场环境的变化与企业社会责任(CSR)信息披露规则的强化,上市公司披露策略与行为方式也随之发生改变。准确描述与测度CSR披露内容的倾向性及其变动,不仅实践中有助于切实提升资本市场信息披露质量,理论上对理解企业披露动机以及揭... 随着市场环境的变化与企业社会责任(CSR)信息披露规则的强化,上市公司披露策略与行为方式也随之发生改变。准确描述与测度CSR披露内容的倾向性及其变动,不仅实践中有助于切实提升资本市场信息披露质量,理论上对理解企业披露动机以及揭示披露行为影响机制也具有重要意义。从全面准确测度CSR信息披露倾向性及其动态变化的目的出发提出了两个概念:“主题偏好”与“偏好漂移”,设计验证了变量测度与数据结构化的方法,并基于2008-2017年全样本进行了数据分析与讨论。研究表明:主题偏好与偏好漂移能有效显示与甄别企业在CSR信息披露内容上的倾向性及其随时间的变化特征;全样本分析显示我国证券市场CSR信息披露中“厚此薄彼”的情况客观存在,披露倾向性在总体上呈现6种不同类型,偏好漂移呈现正态分布;不同行业、年份与产权性质上市公司的主题偏好与偏好漂移存在显著性差异,行业异质性、外部政策的冲击等可能是差异形成的主要原因之一。 展开更多
关键词 企业社会责任 信息披露质量 倾向性 主题偏好 偏好漂移
下载PDF
PageRank算法研究综述 被引量:48
3
作者 李稚楹 杨武 谢治军 《计算机科学》 CSCD 北大核心 2011年第B10期185-188,共4页
网页排序是搜索引擎的关键技术之一。介绍了著名的PageRank算法,针对其存在主题漂移、偏重旧网页等不足,分析了各种改进算法的基本思想和技术特点,希望为以后的研究工作提供基础性支持。
关键词 PAGERANK 主题漂移 偏重旧网页
下载PDF
面向垂直搜索引擎的主题提取算法 被引量:9
4
作者 吕林涛 陈丽萍 周红芳 《计算机工程》 CAS CSCD 北大核心 2009年第15期44-46,共3页
针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主... 针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主题漂移问题,增强了采集信息的准确性,对垂直搜索引擎的研究有重要的理论和实际应用价值。 展开更多
关键词 HITS算法 垂直搜索引擎 超链接 主题漂移
下载PDF
基于锚文本相似度的PageRank改进算法 被引量:14
5
作者 王钟斐 王彪 《计算机工程》 CAS CSCD 北大核心 2010年第24期258-260,共3页
分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRan... 分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRank算法提高了搜索结果的查准率,有利于减少主题漂移现象。 展开更多
关键词 PAGERANK算法 锚文本 相似度 主题漂移
下载PDF
基于用户行为与页面分析的改进PageRank算法 被引量:8
6
作者 王旭阳 任国盛 《计算机工程》 CAS CSCD 北大核心 2016年第2期164-168,共5页
在经典PageRank算法中,页面的转移概率平均分配到链出页面,由于新网页的链接较少,其PR值普遍较低。经典PageRank算法通过链接计算PR值,未考虑到网页的内容,存在主题漂移现象。针对上述问题,引入网页权威因子和时间因子,通过网页按关键... 在经典PageRank算法中,页面的转移概率平均分配到链出页面,由于新网页的链接较少,其PR值普遍较低。经典PageRank算法通过链接计算PR值,未考虑到网页的内容,存在主题漂移现象。针对上述问题,引入网页权威因子和时间因子,通过网页按关键字检索后被点击的次数进行统计,根据其在初始排序结果中的位置对网页的PR值进行迭代修正,返回一个新的排序结果并分析网页内容,采用改进的TD-IDF算法解决网页相关性,避免主题漂移现象。仿真实验结果表明,改进算法可以提高网页排名的质量,使相关度较高的网页通过人们的自主选择获得不同程度的加权,获得加权的网页在检索结果中的排名得到提升,从而提高用户需求网页的查准率。 展开更多
关键词 权威因子 时间因子 主题漂移 转移概率 PR值
下载PDF
在线评论信息挖掘分析的数据来源可靠性研究 被引量:6
7
作者 李金海 何有世 《软科学》 CSSCI 北大核心 2015年第4期94-99,共6页
通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TC-PageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网... 通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TC-PageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网页与产品主题的相似度以及网页的链接增幅对网页权威性的影响,运用改进的HITS算法,确定在线评论分析数据来源的权威网页集;而基于MapReduce的矩阵分块运算,降低了算法时空的复杂度。并通过仿真实验验证了该方法的可行性与准确性。 展开更多
关键词 在线评论 PAGERANK 主题漂移 链接增幅
下载PDF
基于双态模型的微博话题跟踪方法研究 被引量:2
8
作者 陈红阳 汪林林 +2 位作者 鲁江坤 唐志 王飞雪 《计算机工程与应用》 CSCD 北大核心 2017年第16期144-148,共5页
针对话题先验相关报道稀疏性及在话题发展过程中所产生的漂移问题,结合微博文本特点提出了一种基于双态模型的微博话题跟踪方法。该方法首先提出了双态话题模型的构建方法,将其划分为永久存储区域和临时存储区域,分别用于保持跟踪话题... 针对话题先验相关报道稀疏性及在话题发展过程中所产生的漂移问题,结合微博文本特点提出了一种基于双态模型的微博话题跟踪方法。该方法首先提出了双态话题模型的构建方法,将其划分为永久存储区域和临时存储区域,分别用于保持跟踪话题的中心和跟踪话题部分特征词的变迁;并在跟踪过程中动态更新话题模型,能有效应对微博话题发展所产生的漂移。将该方法与其他微博话题跟踪方法进行对比,结果表明,该方法使得漏检率和误检率等指标均得到降低,有效地提高了话题跟踪的效果。 展开更多
关键词 微博短文本 语义相似度 双态话题模型 话题漂移 话题跟踪
下载PDF
基于LDA的主题演化研究 被引量:6
9
作者 李勇 安新颖 《医学信息学杂志》 CAS 2013年第2期57-61,共5页
通过监测主题在不同时间窗口内的变化趋势进行主题演化分析,在各时间窗口中分别建立LDA模型,采用Gibbs抽样方法求解LDA模型中的潜在变量,利用Kullback-Leibler距离来衡量主题之间的相似度,利用改进的Z-Score方法计算主题随时间的偏移程... 通过监测主题在不同时间窗口内的变化趋势进行主题演化分析,在各时间窗口中分别建立LDA模型,采用Gibbs抽样方法求解LDA模型中的潜在变量,利用Kullback-Leibler距离来衡量主题之间的相似度,利用改进的Z-Score方法计算主题随时间的偏移程度以反映其演化情况。 展开更多
关键词 主题模型 演化 主题偏移
下载PDF
基于页面分块模型的PageRank算法研究 被引量:4
10
作者 白似雪 刘华斌 《南昌大学学报(工科版)》 CAS 2008年第2期179-183,共5页
提出了一个基于页面分块重要性模型的PageRank改进算法。该算法考虑同一页面内属于不同分块的出链接有着不同的重要性,故对不同分块的出链接赋予相应的权重,从而更合理、更公正、更有效地计算页面的PageRank值。与以往的PageRank算法及... 提出了一个基于页面分块重要性模型的PageRank改进算法。该算法考虑同一页面内属于不同分块的出链接有着不同的重要性,故对不同分块的出链接赋予相应的权重,从而更合理、更公正、更有效地计算页面的PageRank值。与以往的PageRank算法及其改进算法相比,该算法以基于视觉特征的页面分块算法为核心,更好地反映了网页的特性,符合了用户的使用习惯,具有良好的效果。 展开更多
关键词 PAGERANK 页面分块重要性模型 链接分析 主题漂移 支持向量机
下载PDF
基于最大流HITS的改进算法 被引量:1
11
作者 刘馨月 赵明砚 +1 位作者 张宪超 刘芳芳 《计算机工程与应用》 CSCD 北大核心 2008年第17期141-143,150,共4页
HITS是一种经典的链接分析算法,其主要问题是容易发生主题漂移。针对这一问题,提出了一种改进的算法:MCHITS。MCHITS利用最大流算法对HITS进行改进:首先将root集扩展两层,然后将root中的结点作为种子结点通过最大流最小割算法发现以roo... HITS是一种经典的链接分析算法,其主要问题是容易发生主题漂移。针对这一问题,提出了一种改进的算法:MCHITS。MCHITS利用最大流算法对HITS进行改进:首先将root集扩展两层,然后将root中的结点作为种子结点通过最大流最小割算法发现以root集为中心的社区,社区中的页面作为MC-base集。实验结果表明MCHITS提高了查询结果的相关度,减少了主题漂移的发生。 展开更多
关键词 链接分析 HITS 主题漂移 社区
下载PDF
基于机器学习的Web链接的抽取 被引量:2
12
作者 朱红灿 邹凯 《情报理论与实践》 CSSCI 北大核心 2007年第2期252-255,共4页
互联网网页是通过超链接连接起来的,为人们的日常生活和商务用途提供了非常丰富的信息资源。链接结构分析在万维网的很多研究领域发挥着越来越重要的作用。然而存在着许多与主题无关的链接,造成了主题漂移。本文分析了链接本身的特点,... 互联网网页是通过超链接连接起来的,为人们的日常生活和商务用途提供了非常丰富的信息资源。链接结构分析在万维网的很多研究领域发挥着越来越重要的作用。然而存在着许多与主题无关的链接,造成了主题漂移。本文分析了链接本身的特点,介绍了一种有监督机器学习方法自动地抽取网页中的相关链接。试验结果表明该算法具有实用的价值。 展开更多
关键词 机器学习 链接抽取 主题漂移 贝叶斯算法
下载PDF
医学信息领域人工智能技术的主题漂移与未来展望——基于JCR 26本医学信息期刊文本的命名实体识别 被引量:2
13
作者 徐璐璐 杨嘉乐 康乐乐 《现代情报》 CSSCI 2022年第10期163-176,共14页
[目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展... [目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展望。[方法/过程]研究中首先采集了JCR中26本医学信息期刊题录信息,而后利用Vosviewer可视化分析人工智能技术的总体分布,在此基础上采用3种深度学习模型对人工智能技术进行命名实体识别和对比,最后分5个时间段梳理其主题漂移并提出3点展望。[结果/结论]Vosviewer可视化显示20年来人工智能技术在医学信息领域占据重要地位;3种深度学习模型对比发现,基于Attention的Bi LSTM-CRF模型的命名实体识别结果最优,F1值提高到88.40%;在5个时间段内,医学信息领域人工智能主流技术以高、中频词为代表围绕着传统型技术且相对稳定,分支技术以低频词为代表则出现深度学习等复杂性技术且随时间有所改变,并呈现直觉(经验发掘)→支持(深入理解)→策略(强化分析)→后推理(支撑决策)→前推理(提前预测);即整体进入较为理性和务实状态,尚缺爆发性变革但确有一定程度变化的主题漂移演化脉络。对此,本文从技术、应用和并行层面提出3点未来展望,以期加强对人工智能在处理医学信息上优、缺点的认知,为更精准地挖掘多源数据提供优质医学诊断具有理论和现实意义。 展开更多
关键词 医学信息 人工智能技术 命名实体 主题漂移 BERT模型 双向长短期记忆网络 条件随机场 注意力机制
下载PDF
基于VSM和LDA模型相结合的微博话题漂移检测 被引量:6
14
作者 胡秀丽 《兰州理工大学学报》 CAS 北大核心 2015年第5期104-109,共6页
针对微博话题易漂移的特点,利用向量空间模型和LDA模型进行微博话题漂移检测.主要通过Gibbs采样算法获取每条微博中词汇的概率分布,基于词汇的概率分布进行微博间相关性度量,采用动态常数法实现话题边界标识,在话题域中计算词汇信息熵... 针对微博话题易漂移的特点,利用向量空间模型和LDA模型进行微博话题漂移检测.主要通过Gibbs采样算法获取每条微博中词汇的概率分布,基于词汇的概率分布进行微博间相关性度量,采用动态常数法实现话题边界标识,在话题域中计算词汇信息熵并抽取话题词,生成话题向量空间模型,通过话题向量空间模型在离散时间序列模型下的话题词序列比对,实现话题的漂移检测.通过实验发现,基于VSM和LDA模型相结合的微博话题漂移检测是一套行之有效的方法. 展开更多
关键词 向量空间模型 话题漂移检测 LDA模型 微博 演化分析
下载PDF
基于模糊集的主题提取和层次发现算法 被引量:1
15
作者 周红芳 冯博琴 《计算机工程》 CAS CSCD 北大核心 2007年第18期40-41,44,共3页
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,提出了一种基于模糊集的主题提取和层次发现算法(FSTH),通过用户日志扩展查询词,构造符合用户需要的个性化根集和基础集合,... 从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,提出了一种基于模糊集的主题提取和层次发现算法(FSTH),通过用户日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的。FSTH采用模糊集划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面。在14个查询上的实验结果表明,与HITS算法相比,FSTH算法不仅可以减少7%~53%的主题漂移率,而且可以发现与查询相关的多个主题。 展开更多
关键词 模糊集 超链归纳主题搜索 主题提取 主题漂移 查询扩展
下载PDF
基于切平面的主题提取算法 被引量:1
16
作者 李芳 柯熙政 《计算机工程与应用》 CSCD 北大核心 2007年第25期172-174,191,共4页
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此引入局部密集因子LDF(Local Density Factor)的概念。为了解决Web内容的重叠性,基于切平面的概念提出了一种新的主题提... 从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此引入局部密集因子LDF(Local Density Factor)的概念。为了解决Web内容的重叠性,基于切平面的概念提出了一种新的主题提取算法(CPTDA)。CPTDA不但可以发现用户最感兴趣的主题页面集合,还可以发现与查询相关的其他页面集合。在10个查询上的实验结果表明,与HITS算法相比,CPTDA算法不仅可以减少30%-52%的主题漂移率,而且可以发现与查询相关的多个主题。 展开更多
关键词 局部密集因子 切平面 超链归纳主题搜索 主题提取 主题漂移
下载PDF
PageRank算法中主题漂移的研究 被引量:13
17
作者 高琪 张永平 《微计算机信息》 2010年第9期117-119,89,共4页
pagerank算法仅根据网页的pagerank值对搜索结果进行排序,一个网页的pagerank值越高,其位置越靠前,这使得pagerank算法无法区分搜索结果中与主题相关的权威网页和与主题无关的权威网页。也正因此在使用pagerank算法时往往会发生主题漂... pagerank算法仅根据网页的pagerank值对搜索结果进行排序,一个网页的pagerank值越高,其位置越靠前,这使得pagerank算法无法区分搜索结果中与主题相关的权威网页和与主题无关的权威网页。也正因此在使用pagerank算法时往往会发生主题漂移现象。产生这一问题的原因有两个,一是pagerank对网页权值平均分配,二是pagerank与查询主题的无关性。本文从这二方面入手,采用tf-idf算法计算主题的相关权重,提出了与查询主题相关的query-basedpagerank算法,有效地解决了原算法中的主题漂移问题。 展开更多
关键词 PAGERANK 主题漂移 主题敏感 页面排序 搜索引擎
下载PDF
Web结构挖掘中HITS算法的改进 被引量:3
18
作者 郭鸿 周娅 《信息化纵横》 2009年第16期70-72,75,共4页
HITS算法是Web结构挖掘中一种经典的链接分析算法,其主要问题是容易发生主题漂移。针对这一问题,提出了一种基于文本内容和链接分析相结合的改进算法。实验证明改进后的算法提高了查询结果的相关度,降低了主题漂移的可能性。
关键词 HITS算法 主题漂移 权威网页 中心网页
下载PDF
基于网上特定话题的多侧面跟踪技术及应用研究
19
作者 王兰成 娄国哲 +1 位作者 严骏 张思龙 《数字图书馆论坛》 CSSCI 2016年第12期68-72,共5页
扩展对新媒体信息资源的获取和研究是数字图书馆系统进一步提升服务方式和质量的重要课题,而话题跟踪是其中一项关键技术。针对专门话题跟踪过程中的话题漂移及跟踪结果的杂乱无序问题,提出网络文本的客观中心和主观中心概念,给出话题... 扩展对新媒体信息资源的获取和研究是数字图书馆系统进一步提升服务方式和质量的重要课题,而话题跟踪是其中一项关键技术。针对专门话题跟踪过程中的话题漂移及跟踪结果的杂乱无序问题,提出网络文本的客观中心和主观中心概念,给出话题主观中心的表示和更新方法,建立多中心模型按话题内容进行组织分析;提出先分类后聚类,依据客观中心跟踪话题和主观中心组织话题的方法对策,对传统KNN算法进行改进,把基于时间、地点、机构和关键词要素的KNN话题跟踪算法和基于内容要素的文本聚类过程进行合并,给出军事类话题多侧面跟踪组织的技术解决方案和实例。 展开更多
关键词 网络文本 话题多侧面 话题漂移 跟踪技术
下载PDF
PageRank算法研究 被引量:1
20
作者 张敏 李锋 《微计算机信息》 2011年第8期143-144,136,共3页
简要分析了PageRank算法的思想及其不足,对国内外研究工作者的改进算法进行了分类,比较了它们的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。
关键词 信息检索 PAGERANK算法 时效性 主题漂移 潜在语义模型(LSM)
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部