期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于增量文本聚类算法的热点话题检测研究
1
作者 魏艺泽 郭慧 时晓旭 《华北科技学院学报》 2024年第1期76-81,124,共7页
针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类... 针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类时的准确率。利用各大平台获取的新冠肺炎新闻数据对模型进行验证。结果表明,该方法使得传统的TF-IDF提取关键词时可以增量更新,利用改进的Single-Pass算法使得综合评价指标提高了8.64%。相对于传统的Single-Pass算法,改进的Single-Pass算法只需要与一部分候选簇进行比较,有效地降低了比较次数,提高了聚类的准确性以及效率。 展开更多
关键词 Single-Pass 文本聚类 文本相似度 热点话题检测 TF-IDF
下载PDF
时间敏感的社交网络热点话题检测 被引量:1
2
作者 李艳 郝身刚 +1 位作者 赵卫东 姜桂洪 《计算机工程与设计》 CSCD 北大核心 2014年第12期4324-4328,共5页
为降低算法复杂性以及改善其普适性,提出了一种时间敏感的新型话题检测技术。该技术抽取微博内容,根据一个新型老化理论建立了词语生命周期模型,来挖掘最新出现的术语。若一个词组在特定的时间段出现频率高、而在过去一段时间内未出现,... 为降低算法复杂性以及改善其普适性,提出了一种时间敏感的新型话题检测技术。该技术抽取微博内容,根据一个新型老化理论建立了词语生命周期模型,来挖掘最新出现的术语。若一个词组在特定的时间段出现频率高、而在过去一段时间内未出现,可表示为突发事件出现。此外,考虑内容重要性也取决于其来源,使用通用的Page Rank算法分析社交网络关系,以确定用户的权威性。结合用户权威性以及突发词组实现在用户假定时间限制下的热点话题检测。在新浪微博数据集上的多个实验结果表明,该算法能够高效识别出特定时间段内的热点话题。 展开更多
关键词 热点话题检测 微博 社交网络 用户权威性 老化理论
下载PDF
基于用户影响力的热点话题检测方法研究 被引量:5
3
作者 裘江南 谷文静 翟劼 《情报杂志》 CSSCI 北大核心 2017年第4期156-161,共6页
[目的/意义]对微博消息进行热点话题挖掘,进而从海量微博文本中实时找出用户关注、讨论的热点事件,是进行舆情监测、应急管理的基础。然而,现有微博热点话题检测研究却大多忽略了不同影响力用户对话题产生及传播的作用,并且检测结果直... [目的/意义]对微博消息进行热点话题挖掘,进而从海量微博文本中实时找出用户关注、讨论的热点事件,是进行舆情监测、应急管理的基础。然而,现有微博热点话题检测研究却大多忽略了不同影响力用户对话题产生及传播的作用,并且检测结果直观性较差。针对此问题,提出了基于用户影响力的热点话题检测方法。[方法/过程]首先识别用户特征要素,构建用户影响力模型,计算用户影响力;然后,综合考虑主题词影响力、影响力增长速度和增长斜率,提出基于用户影响力的微博热点话题主题词抽取方法,抽取主题词簇;之后,识别核心主题词并进行热点话题关键词抽取。最后,通过实验验证方法的有效性。[结果/结论]实验结果表明:基于用户影响力的热点话题检测方法能够有效识别并直观表达出检测时间窗口内的典型热点话题;该方法能有效提升实证性热点话题识别效率,减少娱乐性热点话题的识别;通过对不同时间窗口内同一话题的关键词抽取,可以实现对相应话题的热点跟踪。 展开更多
关键词 抽取.最后 通过实验验证方法的有效性.[结果/结论]实验结果表明:基于用户影响力的热点话题检测方法能够有效识别并直观表达出检测时间窗口内的典型热点话题 该方法能有效提升实证性热点话题识别效率 减少娱乐性热点话题的识别 通过对不同时间窗口内同一话题的关键词抽取 可以实现对相应话题热点跟踪.
下载PDF
面向热点话题检测的增量文本聚类算法 被引量:3
4
作者 郭莹 薛涛 胡伟华 《计算机系统应用》 2022年第9期280-286,共7页
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,... 针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,获得上下文向量,充分挖掘文本的语义特征及重要性关系.然后在SinglePass算法基础上,根据提取到的热点主题特征词,划分子话题,并设置时间阈值,来确认类簇中心的时效性,将挖掘的语义特征和任务相结合,动态更新类簇中心.最后以时间特性为辅,更新话题质心向量,提高文本相似度计算的准确性.结果表明,所提方法的F值最高可达89.3%,且在保证聚类精度的前提下,在漏检率和误检率上较传统算法有明显改善,能够有效提高话题检测的准确性. 展开更多
关键词 Single-Pass 文本表示 文本聚类 文本相似度 热点话题检测
下载PDF
基于峰值密度聚类的电信业投诉热点话题检测方法 被引量:1
5
作者 江俊 黄骅 +1 位作者 任条娟 张登辉 《电信科学》 2019年第5期97-103,共7页
针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似度和密度,并运用密度... 针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似度和密度,并运用密度峰值聚类算法对分词进行聚类分析。最终通过类簇关键词选取并排序,从而得到热点话题描述。将本方法应用到某电信企业投诉热点话题检测中,结果表明本方法有效并具有实际应用价值。 展开更多
关键词 热点话题检测 文本分词 聚类分析
下载PDF
网络舆情热点话题检测聚类算法研究 被引量:4
6
作者 邓先均 杨雅茜 +2 位作者 罗昭 陈旭东 沈小平 《数字技术与应用》 2018年第5期146-149,共4页
数据聚类是基于某种相似性度量在多维数据中识别自然分组或集群的过程。聚类是许多不同学科的基本过程。因此,来自不同领域的研究人员正在积极研究聚类问题。文章首先对代表性的基于划分的聚类方法进行了一个概述,在此基础之上,针对网... 数据聚类是基于某种相似性度量在多维数据中识别自然分组或集群的过程。聚类是许多不同学科的基本过程。因此,来自不同领域的研究人员正在积极研究聚类问题。文章首先对代表性的基于划分的聚类方法进行了一个概述,在此基础之上,针对网络舆情热点话题检测,文章使用这几个聚类算法进行对比试验,进而分析出更适用于热点话题检测方面的算法。最后对文章的研究进行总结,归纳出本研究的局限性,并指出改进的方向。 展开更多
关键词 数据聚类 聚类算法 网络舆情 热点话题检测
下载PDF
基于均衡段落和分话题向量的新闻热点话题检测研究 被引量:1
7
作者 魏家泽 董诚 +2 位作者 何彦青 刘志辉 彭柯芸 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第10期70-79,共10页
【目的】通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力。【方法】在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提... 【目的】通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力。【方法】在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提取标题高频词实现话题描述。【结果】WTF-IDF方法在关键词抽取数为3时与TF-IDF方法相比F1值提升5.4%;基于WTF-IDF与分话题向量的分层聚类与分层TF-IDF的K-means聚类相比准确提升3.1%。【局限】关键词抽取未考虑短语形式;分层聚类方法增加了算法时间复杂度。【结论】本文提出的关键词抽取和分层聚类方法可以改善新闻热点话题检测效果,话题描述得到的话题短语也达到一定的代表性与可读性。 展开更多
关键词 均衡段落 话题向量 热点话题检测 分层聚类
原文传递
社会化短文本及其技术研究
8
作者 付淇 《景德镇学院学报》 2018年第2期113-117,共5页
本文通过对社会化短文本的概念、特征进行归纳和总结,深入分析社会化短文本的研究方法和相关技术,包括信息抽取、短文本分类和聚类、主题分析、热点话题检测的研究现状,并分析目前研究中存在的问题,进一步探讨其研究前景。
关键词 社会化短文本 热点话题检测 主题分析 微博
下载PDF
连续时间区间内的频繁词序列挖掘算法
9
作者 王璐 刘晓清 何震瀛 《计算机工程》 CAS CSCD 北大核心 2022年第2期79-85,91,共8页
查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS;ining),在保持后缀树线性... 查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS;ining),在保持后缀树线性构造时间的情况下实现文本集合中频繁词序列的查询,并采用树型索引结构避免多次扫描文本集合,降低算法时间复杂度。针对连续时间区间内的频繁词序列查询问题,提出改进的剪枝挖掘算法(TS;runing),通过减少频率树的扫描范围进一步提高挖掘效率。实验结果表明,TS;ining与TS;runing算法的运行时间相比经典Apriori挖掘算法约减少了2个数量级,具有更高的频繁词序列挖掘效率。 展开更多
关键词 频繁词序列 后缀树 数据挖掘 频繁项集 热点话题检测
下载PDF
互联网大数据挖掘与非遗活化研究 被引量:19
10
作者 吴祐昕 吴波 麻蕾 《新闻大学》 CSSCI 北大核心 2013年第3期66-71,53,共7页
在WEB2.0时代,互联网上的数据呈现出动态变化的特点,时刻都有新的数据出现。除新闻数据外,如论坛、博客等数据都随时间和空间的扩展,共同构成了互联网大规模数据,简称大数据。对非物质文化遗产而言,在非遗信息流传过程中因不断吸收新的... 在WEB2.0时代,互联网上的数据呈现出动态变化的特点,时刻都有新的数据出现。除新闻数据外,如论坛、博客等数据都随时间和空间的扩展,共同构成了互联网大规模数据,简称大数据。对非物质文化遗产而言,在非遗信息流传过程中因不断吸收新的因素、通过扬弃而蜕变、更新,从而获得生存和继续传袭下去的活力。本文拟通过对入选非物质文化遗产名录的部分非遗项目进行媒体活跃度分析,对互联网大规模数据中的非物质文化遗产的关注度和成因进行分析,进而提出对应策略,为非物质文化遗产的活化在传播学领域找出方法和路径。 展开更多
关键词 互联网大规模数据(大数据) 非物质文化遗产 热点话题检测
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部