期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于增量文本聚类算法的热点话题检测研究
1
作者
魏艺泽
郭慧
时晓旭
《华北科技学院学报》
2024年第1期76-81,124,共7页
针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类...
针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类时的准确率。利用各大平台获取的新冠肺炎新闻数据对模型进行验证。结果表明,该方法使得传统的TF-IDF提取关键词时可以增量更新,利用改进的Single-Pass算法使得综合评价指标提高了8.64%。相对于传统的Single-Pass算法,改进的Single-Pass算法只需要与一部分候选簇进行比较,有效地降低了比较次数,提高了聚类的准确性以及效率。
展开更多
关键词
Single-Pass
文本聚类
文本相似度
热点话题检测
TF-IDF
下载PDF
职称材料
时间敏感的社交网络热点话题检测
被引量:
1
2
作者
李艳
郝身刚
+1 位作者
赵卫东
姜桂洪
《计算机工程与设计》
CSCD
北大核心
2014年第12期4324-4328,共5页
为降低算法复杂性以及改善其普适性,提出了一种时间敏感的新型话题检测技术。该技术抽取微博内容,根据一个新型老化理论建立了词语生命周期模型,来挖掘最新出现的术语。若一个词组在特定的时间段出现频率高、而在过去一段时间内未出现,...
为降低算法复杂性以及改善其普适性,提出了一种时间敏感的新型话题检测技术。该技术抽取微博内容,根据一个新型老化理论建立了词语生命周期模型,来挖掘最新出现的术语。若一个词组在特定的时间段出现频率高、而在过去一段时间内未出现,可表示为突发事件出现。此外,考虑内容重要性也取决于其来源,使用通用的Page Rank算法分析社交网络关系,以确定用户的权威性。结合用户权威性以及突发词组实现在用户假定时间限制下的热点话题检测。在新浪微博数据集上的多个实验结果表明,该算法能够高效识别出特定时间段内的热点话题。
展开更多
关键词
热点话题检测
微博
社交网络
用户权威性
老化理论
下载PDF
职称材料
基于用户影响力的热点话题检测方法研究
被引量:
5
3
作者
裘江南
谷文静
翟劼
《情报杂志》
CSSCI
北大核心
2017年第4期156-161,共6页
[目的/意义]对微博消息进行热点话题挖掘,进而从海量微博文本中实时找出用户关注、讨论的热点事件,是进行舆情监测、应急管理的基础。然而,现有微博热点话题检测研究却大多忽略了不同影响力用户对话题产生及传播的作用,并且检测结果直...
[目的/意义]对微博消息进行热点话题挖掘,进而从海量微博文本中实时找出用户关注、讨论的热点事件,是进行舆情监测、应急管理的基础。然而,现有微博热点话题检测研究却大多忽略了不同影响力用户对话题产生及传播的作用,并且检测结果直观性较差。针对此问题,提出了基于用户影响力的热点话题检测方法。[方法/过程]首先识别用户特征要素,构建用户影响力模型,计算用户影响力;然后,综合考虑主题词影响力、影响力增长速度和增长斜率,提出基于用户影响力的微博热点话题主题词抽取方法,抽取主题词簇;之后,识别核心主题词并进行热点话题关键词抽取。最后,通过实验验证方法的有效性。[结果/结论]实验结果表明:基于用户影响力的热点话题检测方法能够有效识别并直观表达出检测时间窗口内的典型热点话题;该方法能有效提升实证性热点话题识别效率,减少娱乐性热点话题的识别;通过对不同时间窗口内同一话题的关键词抽取,可以实现对相应话题的热点跟踪。
展开更多
关键词
抽取.最后
通过实验验证方法的有效性.[结果/结论]实验结果表明:基于用户影响力的
热点话题检测
方法能够有效识别并直观表达出
检测
时间窗口内的典型
热点话题
该方法能有效提升实证性
热点话题
识别效率
减少娱乐性
热点话题
的识别
通过对不同时间窗口内同一
话题
的关键词抽取
可以实现对相应
话题
的
热点
跟踪.
下载PDF
职称材料
面向热点话题检测的增量文本聚类算法
被引量:
3
4
作者
郭莹
薛涛
胡伟华
《计算机系统应用》
2022年第9期280-286,共7页
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,...
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,获得上下文向量,充分挖掘文本的语义特征及重要性关系.然后在SinglePass算法基础上,根据提取到的热点主题特征词,划分子话题,并设置时间阈值,来确认类簇中心的时效性,将挖掘的语义特征和任务相结合,动态更新类簇中心.最后以时间特性为辅,更新话题质心向量,提高文本相似度计算的准确性.结果表明,所提方法的F值最高可达89.3%,且在保证聚类精度的前提下,在漏检率和误检率上较传统算法有明显改善,能够有效提高话题检测的准确性.
展开更多
关键词
Single-Pass
文本表示
文本聚类
文本相似度
热点话题检测
下载PDF
职称材料
基于峰值密度聚类的电信业投诉热点话题检测方法
被引量:
1
5
作者
江俊
黄骅
+1 位作者
任条娟
张登辉
《电信科学》
2019年第5期97-103,共7页
针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似度和密度,并运用密度...
针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似度和密度,并运用密度峰值聚类算法对分词进行聚类分析。最终通过类簇关键词选取并排序,从而得到热点话题描述。将本方法应用到某电信企业投诉热点话题检测中,结果表明本方法有效并具有实际应用价值。
展开更多
关键词
热点话题检测
文本分词
聚类分析
下载PDF
职称材料
网络舆情热点话题检测聚类算法研究
被引量:
4
6
作者
邓先均
杨雅茜
+2 位作者
罗昭
陈旭东
沈小平
《数字技术与应用》
2018年第5期146-149,共4页
数据聚类是基于某种相似性度量在多维数据中识别自然分组或集群的过程。聚类是许多不同学科的基本过程。因此,来自不同领域的研究人员正在积极研究聚类问题。文章首先对代表性的基于划分的聚类方法进行了一个概述,在此基础之上,针对网...
数据聚类是基于某种相似性度量在多维数据中识别自然分组或集群的过程。聚类是许多不同学科的基本过程。因此,来自不同领域的研究人员正在积极研究聚类问题。文章首先对代表性的基于划分的聚类方法进行了一个概述,在此基础之上,针对网络舆情热点话题检测,文章使用这几个聚类算法进行对比试验,进而分析出更适用于热点话题检测方面的算法。最后对文章的研究进行总结,归纳出本研究的局限性,并指出改进的方向。
展开更多
关键词
数据聚类
聚类算法
网络舆情
热点话题检测
下载PDF
职称材料
基于均衡段落和分话题向量的新闻热点话题检测研究
被引量:
1
7
作者
魏家泽
董诚
+2 位作者
何彦青
刘志辉
彭柯芸
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2020年第10期70-79,共10页
【目的】通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力。【方法】在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提...
【目的】通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力。【方法】在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提取标题高频词实现话题描述。【结果】WTF-IDF方法在关键词抽取数为3时与TF-IDF方法相比F1值提升5.4%;基于WTF-IDF与分话题向量的分层聚类与分层TF-IDF的K-means聚类相比准确提升3.1%。【局限】关键词抽取未考虑短语形式;分层聚类方法增加了算法时间复杂度。【结论】本文提出的关键词抽取和分层聚类方法可以改善新闻热点话题检测效果,话题描述得到的话题短语也达到一定的代表性与可读性。
展开更多
关键词
均衡段落
分
话题
向量
热点话题检测
分层聚类
原文传递
社会化短文本及其技术研究
8
作者
付淇
《景德镇学院学报》
2018年第2期113-117,共5页
本文通过对社会化短文本的概念、特征进行归纳和总结,深入分析社会化短文本的研究方法和相关技术,包括信息抽取、短文本分类和聚类、主题分析、热点话题检测的研究现状,并分析目前研究中存在的问题,进一步探讨其研究前景。
关键词
社会化短文本
热点话题检测
主题分析
微博
下载PDF
职称材料
连续时间区间内的频繁词序列挖掘算法
9
作者
王璐
刘晓清
何震瀛
《计算机工程》
CAS
CSCD
北大核心
2022年第2期79-85,91,共8页
查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS;ining),在保持后缀树线性...
查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS;ining),在保持后缀树线性构造时间的情况下实现文本集合中频繁词序列的查询,并采用树型索引结构避免多次扫描文本集合,降低算法时间复杂度。针对连续时间区间内的频繁词序列查询问题,提出改进的剪枝挖掘算法(TS;runing),通过减少频率树的扫描范围进一步提高挖掘效率。实验结果表明,TS;ining与TS;runing算法的运行时间相比经典Apriori挖掘算法约减少了2个数量级,具有更高的频繁词序列挖掘效率。
展开更多
关键词
频繁词序列
后缀树
数据挖掘
频繁项集
热点话题检测
下载PDF
职称材料
互联网大数据挖掘与非遗活化研究
被引量:
19
10
作者
吴祐昕
吴波
麻蕾
《新闻大学》
CSSCI
北大核心
2013年第3期66-71,53,共7页
在WEB2.0时代,互联网上的数据呈现出动态变化的特点,时刻都有新的数据出现。除新闻数据外,如论坛、博客等数据都随时间和空间的扩展,共同构成了互联网大规模数据,简称大数据。对非物质文化遗产而言,在非遗信息流传过程中因不断吸收新的...
在WEB2.0时代,互联网上的数据呈现出动态变化的特点,时刻都有新的数据出现。除新闻数据外,如论坛、博客等数据都随时间和空间的扩展,共同构成了互联网大规模数据,简称大数据。对非物质文化遗产而言,在非遗信息流传过程中因不断吸收新的因素、通过扬弃而蜕变、更新,从而获得生存和继续传袭下去的活力。本文拟通过对入选非物质文化遗产名录的部分非遗项目进行媒体活跃度分析,对互联网大规模数据中的非物质文化遗产的关注度和成因进行分析,进而提出对应策略,为非物质文化遗产的活化在传播学领域找出方法和路径。
展开更多
关键词
互联网大规模数据(大数据)
非物质文化遗产
热点话题检测
原文传递
题名
基于增量文本聚类算法的热点话题检测研究
1
作者
魏艺泽
郭慧
时晓旭
机构
华北科技学院计算机学院
出处
《华北科技学院学报》
2024年第1期76-81,124,共7页
基金
科技创新2030重大项目(2021ZD0114203)
国家社会科学基金项目(21BSH072)。
文摘
针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类时的准确率。利用各大平台获取的新冠肺炎新闻数据对模型进行验证。结果表明,该方法使得传统的TF-IDF提取关键词时可以增量更新,利用改进的Single-Pass算法使得综合评价指标提高了8.64%。相对于传统的Single-Pass算法,改进的Single-Pass算法只需要与一部分候选簇进行比较,有效地降低了比较次数,提高了聚类的准确性以及效率。
关键词
Single-Pass
文本聚类
文本相似度
热点话题检测
TF-IDF
Keywords
Single-Pass
text clustering
text similarity
hot topic detection
TF-IDF
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
时间敏感的社交网络热点话题检测
被引量:
1
2
作者
李艳
郝身刚
赵卫东
姜桂洪
机构
山东理工大学计算机学院
南阳师范学院计算机学院
北京科技大学信息工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第12期4324-4328,共5页
基金
国家自然科学基金项目(10971137)
河南省科技厅科技攻关基金项目(122102210483)
文摘
为降低算法复杂性以及改善其普适性,提出了一种时间敏感的新型话题检测技术。该技术抽取微博内容,根据一个新型老化理论建立了词语生命周期模型,来挖掘最新出现的术语。若一个词组在特定的时间段出现频率高、而在过去一段时间内未出现,可表示为突发事件出现。此外,考虑内容重要性也取决于其来源,使用通用的Page Rank算法分析社交网络关系,以确定用户的权威性。结合用户权威性以及突发词组实现在用户假定时间限制下的热点话题检测。在新浪微博数据集上的多个实验结果表明,该算法能够高效识别出特定时间段内的热点话题。
关键词
热点话题检测
微博
社交网络
用户权威性
老化理论
Keywords
emerging topic detection
Weibo
social network
user authority
aging theory
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于用户影响力的热点话题检测方法研究
被引量:
5
3
作者
裘江南
谷文静
翟劼
机构
大连理工大学管理与经济学部
出处
《情报杂志》
CSSCI
北大核心
2017年第4期156-161,共6页
基金
辽宁省社会科学规划基金重点项目"突发事件网络舆情的动态监测与预警策略研究"(编号:L15AGL017)
国家自然科学基金项目"在线知识社区中社会系统与知识系统协同序化机制和规律研究"(编号:71573030)的研究成果之一
文摘
[目的/意义]对微博消息进行热点话题挖掘,进而从海量微博文本中实时找出用户关注、讨论的热点事件,是进行舆情监测、应急管理的基础。然而,现有微博热点话题检测研究却大多忽略了不同影响力用户对话题产生及传播的作用,并且检测结果直观性较差。针对此问题,提出了基于用户影响力的热点话题检测方法。[方法/过程]首先识别用户特征要素,构建用户影响力模型,计算用户影响力;然后,综合考虑主题词影响力、影响力增长速度和增长斜率,提出基于用户影响力的微博热点话题主题词抽取方法,抽取主题词簇;之后,识别核心主题词并进行热点话题关键词抽取。最后,通过实验验证方法的有效性。[结果/结论]实验结果表明:基于用户影响力的热点话题检测方法能够有效识别并直观表达出检测时间窗口内的典型热点话题;该方法能有效提升实证性热点话题识别效率,减少娱乐性热点话题的识别;通过对不同时间窗口内同一话题的关键词抽取,可以实现对相应话题的热点跟踪。
关键词
抽取.最后
通过实验验证方法的有效性.[结果/结论]实验结果表明:基于用户影响力的
热点话题检测
方法能够有效识别并直观表达出
检测
时间窗口内的典型
热点话题
该方法能有效提升实证性
热点话题
识别效率
减少娱乐性
热点话题
的识别
通过对不同时间窗口内同一
话题
的关键词抽取
可以实现对相应
话题
的
热点
跟踪.
Keywords
topic mining
user influence
Micro-blog
text mining
分类号
TP39 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向热点话题检测的增量文本聚类算法
被引量:
3
4
作者
郭莹
薛涛
胡伟华
机构
西安工程大学计算机科学学院
西安工程大学人文社会科学学院
出处
《计算机系统应用》
2022年第9期280-286,共7页
基金
国家社会科学基金(18XYY010)。
文摘
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,获得上下文向量,充分挖掘文本的语义特征及重要性关系.然后在SinglePass算法基础上,根据提取到的热点主题特征词,划分子话题,并设置时间阈值,来确认类簇中心的时效性,将挖掘的语义特征和任务相结合,动态更新类簇中心.最后以时间特性为辅,更新话题质心向量,提高文本相似度计算的准确性.结果表明,所提方法的F值最高可达89.3%,且在保证聚类精度的前提下,在漏检率和误检率上较传统算法有明显改善,能够有效提高话题检测的准确性.
关键词
Single-Pass
文本表示
文本聚类
文本相似度
热点话题检测
Keywords
Single-Pass
text representation
text clustering
text similarity
hot topic detection
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于峰值密度聚类的电信业投诉热点话题检测方法
被引量:
1
5
作者
江俊
黄骅
任条娟
张登辉
机构
浙江树人大学信息科技学院
浙江大学信息与电子工程学院
东方通信股份有限公司
万向集团公司万向研究院
出处
《电信科学》
2019年第5期97-103,共7页
基金
浙江省自然科学基金(No. LGF18F030004, No.LGF19F010005)Foundation Items: The Natural Science Foundation of Zhejiang Province ofChina (No. LGF18F030004, No.LGF19F010005)
文摘
针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似度和密度,并运用密度峰值聚类算法对分词进行聚类分析。最终通过类簇关键词选取并排序,从而得到热点话题描述。将本方法应用到某电信企业投诉热点话题检测中,结果表明本方法有效并具有实际应用价值。
关键词
热点话题检测
文本分词
聚类分析
Keywords
hot topic detection
text segmentation
cluster analysis
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网络舆情热点话题检测聚类算法研究
被引量:
4
6
作者
邓先均
杨雅茜
罗昭
陈旭东
沈小平
机构
重庆邮电大学
软通动力信息技术集团成都科技有限公司
出处
《数字技术与应用》
2018年第5期146-149,共4页
文摘
数据聚类是基于某种相似性度量在多维数据中识别自然分组或集群的过程。聚类是许多不同学科的基本过程。因此,来自不同领域的研究人员正在积极研究聚类问题。文章首先对代表性的基于划分的聚类方法进行了一个概述,在此基础之上,针对网络舆情热点话题检测,文章使用这几个聚类算法进行对比试验,进而分析出更适用于热点话题检测方面的算法。最后对文章的研究进行总结,归纳出本研究的局限性,并指出改进的方向。
关键词
数据聚类
聚类算法
网络舆情
热点话题检测
Keywords
data clustering
clustering algorithm
Internet public opinion
hot topic detection
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于均衡段落和分话题向量的新闻热点话题检测研究
被引量:
1
7
作者
魏家泽
董诚
何彦青
刘志辉
彭柯芸
机构
中国科学技术信息研究所
甘孜藏族自治州科学技术信息研究所
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2020年第10期70-79,共10页
基金
中国科学技术信息研究所重点工作项目“多语言科技信息服务关键技术研究与应用(二期)”(项目编号:ZD2019-20)和“俄汉跨语言知识发现与服务研究”(项目编号:ZD2020-10)的研究成果之一
文摘
【目的】通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力。【方法】在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提取标题高频词实现话题描述。【结果】WTF-IDF方法在关键词抽取数为3时与TF-IDF方法相比F1值提升5.4%;基于WTF-IDF与分话题向量的分层聚类与分层TF-IDF的K-means聚类相比准确提升3.1%。【局限】关键词抽取未考虑短语形式;分层聚类方法增加了算法时间复杂度。【结论】本文提出的关键词抽取和分层聚类方法可以改善新闻热点话题检测效果,话题描述得到的话题短语也达到一定的代表性与可读性。
关键词
均衡段落
分
话题
向量
热点话题检测
分层聚类
Keywords
Equalized Paragraph
Sub-topic Vector
Hot Topic Detection
Hierarchical Clustering
分类号
TP391 [自动化与计算机技术—计算机应用技术]
G250 [文化科学—图书馆学]
原文传递
题名
社会化短文本及其技术研究
8
作者
付淇
机构
江西科技师范大学
出处
《景德镇学院学报》
2018年第2期113-117,共5页
基金
江西省2015年社会科学研究规划项目"基于海量文本挖掘的微博热点话题检测与趋势预测研究"(15TQ07)
文摘
本文通过对社会化短文本的概念、特征进行归纳和总结,深入分析社会化短文本的研究方法和相关技术,包括信息抽取、短文本分类和聚类、主题分析、热点话题检测的研究现状,并分析目前研究中存在的问题,进一步探讨其研究前景。
关键词
社会化短文本
热点话题检测
主题分析
微博
Keywords
Socialized short text
hot topic detection
topic analysis
microblog
分类号
I207.7 [文学—中国文学]
下载PDF
职称材料
题名
连续时间区间内的频繁词序列挖掘算法
9
作者
王璐
刘晓清
何震瀛
机构
复旦大学软件学院
复旦大学计算机科学技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第2期79-85,91,共8页
基金
国家自然科学基金(61732004)。
文摘
查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS;ining),在保持后缀树线性构造时间的情况下实现文本集合中频繁词序列的查询,并采用树型索引结构避免多次扫描文本集合,降低算法时间复杂度。针对连续时间区间内的频繁词序列查询问题,提出改进的剪枝挖掘算法(TS;runing),通过减少频率树的扫描范围进一步提高挖掘效率。实验结果表明,TS;ining与TS;runing算法的运行时间相比经典Apriori挖掘算法约减少了2个数量级,具有更高的频繁词序列挖掘效率。
关键词
频繁词序列
后缀树
数据挖掘
频繁项集
热点话题检测
Keywords
frequent word sequence
suffix tree
data mining
frequent itemset
hot topic detection
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
互联网大数据挖掘与非遗活化研究
被引量:
19
10
作者
吴祐昕
吴波
麻蕾
机构
复旦大学新闻学院
江南大学商学院
江南大学设计学院
出处
《新闻大学》
CSSCI
北大核心
2013年第3期66-71,53,共7页
基金
教育部人文社会科学研究规划基金资助项目
项目号:11YJAZH101
+2 种基金
江苏省哲学社会科学基金资助项目
项目号11YSB002
江南大学产品创意与设计文化研究中心专项研究资助项目
文摘
在WEB2.0时代,互联网上的数据呈现出动态变化的特点,时刻都有新的数据出现。除新闻数据外,如论坛、博客等数据都随时间和空间的扩展,共同构成了互联网大规模数据,简称大数据。对非物质文化遗产而言,在非遗信息流传过程中因不断吸收新的因素、通过扬弃而蜕变、更新,从而获得生存和继续传袭下去的活力。本文拟通过对入选非物质文化遗产名录的部分非遗项目进行媒体活跃度分析,对互联网大规模数据中的非物质文化遗产的关注度和成因进行分析,进而提出对应策略,为非物质文化遗产的活化在传播学领域找出方法和路径。
关键词
互联网大规模数据(大数据)
非物质文化遗产
热点话题检测
分类号
G202 [文化科学—传播学]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于增量文本聚类算法的热点话题检测研究
魏艺泽
郭慧
时晓旭
《华北科技学院学报》
2024
0
下载PDF
职称材料
2
时间敏感的社交网络热点话题检测
李艳
郝身刚
赵卫东
姜桂洪
《计算机工程与设计》
CSCD
北大核心
2014
1
下载PDF
职称材料
3
基于用户影响力的热点话题检测方法研究
裘江南
谷文静
翟劼
《情报杂志》
CSSCI
北大核心
2017
5
下载PDF
职称材料
4
面向热点话题检测的增量文本聚类算法
郭莹
薛涛
胡伟华
《计算机系统应用》
2022
3
下载PDF
职称材料
5
基于峰值密度聚类的电信业投诉热点话题检测方法
江俊
黄骅
任条娟
张登辉
《电信科学》
2019
1
下载PDF
职称材料
6
网络舆情热点话题检测聚类算法研究
邓先均
杨雅茜
罗昭
陈旭东
沈小平
《数字技术与应用》
2018
4
下载PDF
职称材料
7
基于均衡段落和分话题向量的新闻热点话题检测研究
魏家泽
董诚
何彦青
刘志辉
彭柯芸
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2020
1
原文传递
8
社会化短文本及其技术研究
付淇
《景德镇学院学报》
2018
0
下载PDF
职称材料
9
连续时间区间内的频繁词序列挖掘算法
王璐
刘晓清
何震瀛
《计算机工程》
CAS
CSCD
北大核心
2022
0
下载PDF
职称材料
10
互联网大数据挖掘与非遗活化研究
吴祐昕
吴波
麻蕾
《新闻大学》
CSSCI
北大核心
2013
19
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部