期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
面向微博热点话题发现的多标签传播聚类方法研究 被引量:16
1
作者 陈羽中 方明月 郭文忠 《模式识别与人工智能》 EI CSCD 北大核心 2015年第1期1-10,共10页
微博热点话题发现是目前的研究热点.针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词... 微博热点话题发现是目前的研究热点.针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词以及时间效率不佳的问题,引入多标签传播思想,设计一种接近线性时间复杂度的多标签传播聚类算法(TCMLPA)用于词共现网络的热词聚类,获得热点话题集.实验结果表明,词生命值计算模型能够有效过滤噪声并提取热词,TCMLPA算法则能够在保证聚类结果稳定性的情况下,有效提高热点话题发现的精度和效率. 展开更多
关键词 微博 热点话题发现 老化理论 热词抽取 多标签传播
下载PDF
基于主题词的微博热点话题发现 被引量:11
2
作者 叶成绪 杨萍 刘少鹏 《计算机应用与软件》 CSCD 2016年第2期46-50,共5页
近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点... 近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点话题发现方法。首先,获取微博数据的高频最长公共子串,作为描述话题的候选主题词;其次,利用维基百科知识,对候选主题词进行筛选;最后,对主题词集合聚类以发现话题,并计算每个话题的能量,从中选取热点话题。在真实数据集上的实验表明,该方法能有效发现微博热点话题。 展开更多
关键词 主题词 维基百科 最长公共子串 热点话题发现 微博
下载PDF
我国网络舆情热点话题发现研究综述 被引量:14
3
作者 游丹丹 陈福集 《现代情报》 CSSCI 北大核心 2017年第3期165-171,共7页
随着互联网的快速发展,网络舆情对社会的影响不容忽视。若能够及时从海量数据中发现热点话题,追踪热点话题演变以及预测话题的倾向,对于帮助相关部门及时有效地对其引导和控制具有较大意义。本文通过对我国网络舆情热点话题发现的相关... 随着互联网的快速发展,网络舆情对社会的影响不容忽视。若能够及时从海量数据中发现热点话题,追踪热点话题演变以及预测话题的倾向,对于帮助相关部门及时有效地对其引导和控制具有较大意义。本文通过对我国网络舆情热点话题发现的相关文献进行收集、整理及分析,归纳其中的主要研究思想和方法,同时发现存在的不足,并提出进一步的展望,以期对后来研究者提供参考。 展开更多
关键词 网络舆情 热点话题发现 发现模型 综述
下载PDF
基于离散粒子群优化的微博热点话题发现算法 被引量:9
4
作者 马慧芳 吉余岗 +1 位作者 李晓红 周汝南 《计算机工程》 CAS CSCD 北大核心 2016年第3期208-213,共6页
结合词项关联关系和粒子群优化(PSO)算法的特点,提出一种基于离散PSO(DPSO)的微博热点话题发现算法。通过对词语互信息及内外关联词信息的挖掘,更新传统文本表示模型,利用DPSO算法从寻优角度发现微博热点话题及简化微博聚类过程,并将聚... 结合词项关联关系和粒子群优化(PSO)算法的特点,提出一种基于离散PSO(DPSO)的微博热点话题发现算法。通过对词语互信息及内外关联词信息的挖掘,更新传统文本表示模型,利用DPSO算法从寻优角度发现微博热点话题及简化微博聚类过程,并将聚类质量评价指标作为适应度函数对聚类结果进行不断迭代优化,获得聚类结果的最优解。实验结果表明,该算法能够在大量微博中快速发现热点话题,具有较高的热点话题发现准确性及运行效率。 展开更多
关键词 微博 热点话题发现 词项关系 文本表示模型 粒子群优化
下载PDF
基于词共现网络的海量文本分析与热点话题发现 被引量:10
5
作者 张海龙 淦文燕 +1 位作者 陈刚 姜博 《计算机与数字工程》 2015年第10期1729-1735,共7页
在语言学领域,词与词之间的关系具有很强的规则性,基于词共现网络的文本表示可以最大程度捕捉文本结构信息,揭示其内在的组织原则与语言学规律。论文以取自凤凰网环球军事、新浪网中国军事、中华网中国军事的海量军事语料为研究对象,构... 在语言学领域,词与词之间的关系具有很强的规则性,基于词共现网络的文本表示可以最大程度捕捉文本结构信息,揭示其内在的组织原则与语言学规律。论文以取自凤凰网环球军事、新浪网中国军事、中华网中国军事的海量军事语料为研究对象,构建军事领域词共现网络,通过词频统计、结点度分布分析以及命名实体抽取,揭示其小世界特性和无标度特性,实现海量文本的热点话题发现。实验结果显示了相关方法的有效性。 展开更多
关键词 词共现网络 小世界特性 无标度特性 热点话题发现
下载PDF
基于改进Single-Pass算法的BBS热点话题发现 被引量:4
6
作者 马国栋 李慧 《首都师范大学学报(自然科学版)》 2014年第6期13-17,共5页
详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中"聚类质心不唯一"的缺陷提出"设定唯一聚类质心"的改进方案,降低了算法的时间复杂度;针对"算法聚类中心随机性强"的不足提出了"不断优... 详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中"聚类质心不唯一"的缺陷提出"设定唯一聚类质心"的改进方案,降低了算法的时间复杂度;针对"算法聚类中心随机性强"的不足提出了"不断优化聚类中心"的改进方案,使得聚类中心的代表性更强.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效. 展开更多
关键词 Single-Pass 文本聚类 热点话题发现
下载PDF
基于突发词对主题模型改进算法的微博热点话题发现研究 被引量:5
7
作者 向卓元 吴玉 +1 位作者 陈浩 张芙玮 《情报杂志》 CSSCI 北大核心 2022年第1期104-112,共9页
[研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指... [研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指数和词对突发概率,从文档层面和词语层面进行特征选择,解决数据稀疏和高维度的问题。其次,通过双向长短期记忆(BiLSTM)训练词语之间的关系,结合词语的逆文档频率作为词对的先验知识,考虑了词之间的关系,解决忽略词之间关系的问题。再次,利用基于密度的方法自适应选择BBTM的最优话题数目,解决了传统的主题模型需要人工指定话题数目的问题。最后,利用真实微博数据集在热点话题发现准确度、话题质量、一致性三个方面进行验证。[研究结论]实验表明,BiLSTM-HBBTM在多种评价指标上都优于对比模型,实验结果验证了所提模型的有效性及可行性。 展开更多
关键词 热点话题发现 主题模型 微博 短文本 BiLSTM BBTM Word2Vec
下载PDF
基于改进K-means算法的BBS热点话题发现 被引量:2
8
作者 马国栋 李慧 《首都师范大学学报(自然科学版)》 2015年第4期12-15,共4页
详细介绍了经典划分式聚类算法K-means的特点,针对该算法中"聚类中心难以确定"的不足提出"选择最优聚类质心"的改进方案,改进后的算法得到了可靠的聚类质心.最后,基于"中华网BBS"文本数据对改进后的算法... 详细介绍了经典划分式聚类算法K-means的特点,针对该算法中"聚类中心难以确定"的不足提出"选择最优聚类质心"的改进方案,改进后的算法得到了可靠的聚类质心.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效. 展开更多
关键词 K-MEANS 文本聚类 热点话题发现
下载PDF
基于改进K-均值的微博热点话题发现方法
9
作者 陈阳键 温秋华 《太赫兹科学与电子信息学报》 2023年第3期378-383,391,共7页
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择... 微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。 展开更多
关键词 热点话题发现 向量空间模型 话题聚类 数据降维 微博
下载PDF
一种基于词语能量值变化的微博热点话题发现方法研究 被引量:7
10
作者 林思娟 林柏钢 +1 位作者 许为 杨旸 《信息网络安全》 2015年第10期46-52,共7页
随着微博的迅速发展,微博上的热点话题发现成为目前的研究热点之一。文章以微博的实时性强作为研究的切入点,通过研究不同时域上词语的能量值变化,提出一种基于词语能量值变化的微博热点话题检测方法。该方法基于传统的话题生命周期理论... 随着微博的迅速发展,微博上的热点话题发现成为目前的研究热点之一。文章以微博的实时性强作为研究的切入点,通过研究不同时域上词语的能量值变化,提出一种基于词语能量值变化的微博热点话题检测方法。该方法基于传统的话题生命周期理论,按微博的时间先后顺序对微博进行划分;引入了物理学科中加速度的概念,用词语的加速度来刻画词语在相邻窗口之间速度的变化;综合考虑词语的加速度和权重值来构造词语的复合权值,更适合量化词语的能量值;在单条件概率的基础上,使用了双条件概率的上下文相似度计算方法,并增加文档分布相似度来减少话题混淆的概率。实验表明了文章方法的有效性和稳定鲁棒性。与单条件概率的上下文相似度模型相比,改进之后的上下文相似度模型在不同的关键词检测方法中均具有更好的聚类效果。 展开更多
关键词 热点话题发现 词语能量值 加速度 上下文相似度
下载PDF
面向微博热点话题发现的改进BBTM模型研究 被引量:4
11
作者 黄畅 郭文忠 郭昆 《计算机科学与探索》 CSCD 北大核心 2019年第7期1102-1113,共12页
针对目前基于主题模型的微博短文本热点话题发现存在特征稀疏、高维度以及需要人工指定主题数目等问题,提出一种基于改进突发词对主题模型(bursty biterm topic model,BBTM)的热点话题发现方法(hot topic-hot biterm topic model,H-HBTM... 针对目前基于主题模型的微博短文本热点话题发现存在特征稀疏、高维度以及需要人工指定主题数目等问题,提出一种基于改进突发词对主题模型(bursty biterm topic model,BBTM)的热点话题发现方法(hot topic-hot biterm topic model,H-HBTM)。首先,利用词的突发概率进行特征选择,过滤非突发词。其次,结合微博文本的突发特性和传播特性计算微博词对的热值突发概率,将热值突发概率作为BBTM的先验概率。最后,利用基于密度的方法自适应选择BBTM的最优话题数目,确定最优BBTM,实现热点话题发现。在真实微博数据集上的实验表明,H-HBTM可以在不需要预先设定主题数目的情况下,自动发现最优话题模型,并且H-HBTM发现的热点话题的质量高于基于BBTM、词对主题模型以及潜在狄立克雷分配的方法。 展开更多
关键词 热点话题发现 微博 突发词对主题模型(BBTM) 主题模型
下载PDF
基于MapReduce架构的网络热点话题发现 被引量:3
12
作者 徐雅斌 李艳平 郑芬 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第S1期236-239,共4页
提出了一种基于开源云计算平台Hadoop的网络热点话题发现方案.该方案采用MapReduce分布式并行计算架构处理海量、复杂数据,通过将命名实体词作为文本的特征项,并采用标题和正文的双向量表示文本.实验结果表明:随着参与并行计算节点数的... 提出了一种基于开源云计算平台Hadoop的网络热点话题发现方案.该方案采用MapReduce分布式并行计算架构处理海量、复杂数据,通过将命名实体词作为文本的特征项,并采用标题和正文的双向量表示文本.实验结果表明:随着参与并行计算节点数的增加,话题聚类所有的时间显著下降,因而网络热点话题发现的速度得到明显提高. 展开更多
关键词 网络舆情分析 网络热点话题发现 分布式并行计算 MapReduce架构 文本聚类
原文传递
基于词聚类的热点话题检测算法 被引量:27
13
作者 龙志祎 程葳 《计算机工程与设计》 CSCD 北大核心 2011年第6期2214-2216,F0003,共4页
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和... 对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。 展开更多
关键词 互信息 词聚类 热点话题发现 特征词抽取 词汇语义相似度
下载PDF
基于域加权聚类算法的网络舆情热点话题探测 被引量:2
14
作者 陆伟 刘屹 +1 位作者 孟睿 陈英杰 《数字图书馆论坛》 2011年第8期50-56,共7页
面对自由无序的网络舆情信息,对舆情组织方式的研究体现出重要研究意义。文章提出一种网络舆情信息的组织方法,采用域加权的方式,通过一种single-pass增量算法聚类实现面向主题的舆情信息组织,即对新闻主题或新闻事件有较强表达能... 面对自由无序的网络舆情信息,对舆情组织方式的研究体现出重要研究意义。文章提出一种网络舆情信息的组织方法,采用域加权的方式,通过一种single-pass增量算法聚类实现面向主题的舆情信息组织,即对新闻主题或新闻事件有较强表达能力的域进行加权处理以突出该主题或事件,再以无监督自动化的方式对无序的网络舆情信息进行聚类,进而发现热点话题,达到话题探测的目的。实验结果显示,聚类类簇均基于主题或事件,可以代表一个话题,F-measure评价值在85%以上,也进一步表明了本研究方法的有效性。 展开更多
关键词 网络舆情 域加权 热点话题发现 聚类算法
下载PDF
网络论坛热点话题的关注度预测 被引量:4
15
作者 张乐 祁超 《计算机与数字工程》 2013年第5期772-774,861,共4页
网络论坛成为人们获取信息的重要途径,如果能够自动发现网络热点话题并且能够预测其发展趋势,对于政府调控舆论倾向、保持社会的和谐稳定都有着重要作用。论文主要讨论如何从论坛帖子中找出热点话题,并且预测它在一定时间内的关注度变... 网络论坛成为人们获取信息的重要途径,如果能够自动发现网络热点话题并且能够预测其发展趋势,对于政府调控舆论倾向、保持社会的和谐稳定都有着重要作用。论文主要讨论如何从论坛帖子中找出热点话题,并且预测它在一定时间内的关注度变化。在话题发现与跟踪方法的基础上,对论坛帖子进行文本聚类,得到话题簇,进而根据话题关注度的变换趋势,建立马尔可夫链,根据得到的转移概率矩阵,来预测近期出现相关话题的关注度的变化。 展开更多
关键词 热点话题发现 关注度预测 马尔可夫链
下载PDF
结合互信息和主题模型的微博话题发现方法 被引量:5
16
作者 孙曰昕 马慧芳 +1 位作者 姚伟 张志昌 《计算机工程与应用》 CSCD 北大核心 2016年第6期61-66,共6页
为了解决短文本信息流的特征稀疏性对热点话题发现带来的挑战,提出了结合词语互信息和概率主题模型的微博热点话题发现方法。通过建立词共现矩阵并应用对称非负矩阵分解算法获取词项-主题矩阵,再利用概率潜在语义分析模型进行主题发现,... 为了解决短文本信息流的特征稀疏性对热点话题发现带来的挑战,提出了结合词语互信息和概率主题模型的微博热点话题发现方法。通过建立词共现矩阵并应用对称非负矩阵分解算法获取词项-主题矩阵,再利用概率潜在语义分析模型进行主题发现,最终通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。 展开更多
关键词 词共现矩阵 对称非负矩阵分解 概率潜在语义分析 微博热点话题发现
下载PDF
一种Web 2.0环境下互联网热点挖掘算法 被引量:6
17
作者 李东方 俞能海 尹华罡 《电子与信息学报》 EI CSCD 北大核心 2010年第5期1141-1145,共5页
利用Web2.0下用户丰富的反馈信息进行互联网热点挖掘具有重要的应用价值。该文将Web2.0下用户在互联网上的信息活动看作为热度活动,并利用热量传递模型对其建模,然后基于该模型提出适用于Web2.0环境下的话题抽取与热度评价算法。实验结... 利用Web2.0下用户丰富的反馈信息进行互联网热点挖掘具有重要的应用价值。该文将Web2.0下用户在互联网上的信息活动看作为热度活动,并利用热量传递模型对其建模,然后基于该模型提出适用于Web2.0环境下的话题抽取与热度评价算法。实验结果表明热量传递算法有效地利用了用户反馈信息,适用于Web2.0下互联网环境。 展开更多
关键词 互联网 热点话题发现 话题排序 WEB2.0 热度扩散模型
下载PDF
基于特定用户角色的热度计算方法及应用 被引量:5
18
作者 李情情 鲁燃 +1 位作者 朱振方 刘颖莹 《计算机工程与设计》 北大核心 2016年第5期1201-1207,共7页
针对现有热度值计算方法计算结果不准确的问题,提出一种改进的热度值计算方法。在综合考虑发布者、关注度、时间、转发数和评论数等因素的前提下,通过设置个人认证用户和非个人认证用户等特定用户的权重来计算话题的热度,对热度值计算... 针对现有热度值计算方法计算结果不准确的问题,提出一种改进的热度值计算方法。在综合考虑发布者、关注度、时间、转发数和评论数等因素的前提下,通过设置个人认证用户和非个人认证用户等特定用户的权重来计算话题的热度,对热度值计算公式进行改进。实验结果表明,该方法能够有效对微博热点话题进行检测,实现对微博热点事件的监控和管理。 展开更多
关键词 微博 热点话题 特定用户 热度值 热点话题发现
下载PDF
基于多因素特征选择与AFOA/K-means的新闻热点发现方法 被引量:5
19
作者 温廷新 李洋子 孙静霜 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第4期97-106,共10页
【目的】研究新闻文本的特征降维方法及聚类算法,以期进一步提升热点话题发现效率及准确率。【方法】基于传统TF-IDF特征权重计算方法,引入符号、词性、位置及长度4个特征加权,实现多因素特征选择。从编码方式、适应度函数、自适应步长... 【目的】研究新闻文本的特征降维方法及聚类算法,以期进一步提升热点话题发现效率及准确率。【方法】基于传统TF-IDF特征权重计算方法,引入符号、词性、位置及长度4个特征加权,实现多因素特征选择。从编码方式、适应度函数、自适应步长及群体适应度方差这4方面构造改进果蝇优化算法(AmelioratedFruitFly Optimization Algorithm, AFOA),利用AFOA优选K-means初始聚类中心,实现优化后的K-means热点话题发现。采用多因素特征选择识别热点话题,利用TOPSIS获得热点话题排名。【结果】相关实验表明,多因素特征选择及AFOA/K-means算法分别显著提高了聚类效果,验证了所提方法整体有效性。【局限】仅适用于中文新闻文本。【结论】本文方法能够为中文新闻热点发现方法研究提供一条新思路。 展开更多
关键词 网络新闻 热点话题发现 多因素特征选择 AFOA/K-means算法 TOPSIS模型
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部