期刊文献+
共找到103篇文章
< 1 2 6 >
每页显示 20 50 100
基于改进K-均值的微博热点话题发现方法
1
作者 陈阳键 温秋华 《太赫兹科学与电子信息学报》 2023年第3期378-383,391,共7页
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择... 微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。 展开更多
关键词 热点话题发现 向量空间模型 话题聚类 数据降维 微博
下载PDF
一种基于LDA主题模型的话题发现方法 被引量:21
2
作者 郭蓝天 李扬 +2 位作者 慕德俊 杨涛 李哲 《西北工业大学学报》 EI CAS CSCD 北大核心 2016年第4期698-702,共5页
话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题... 话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题建模方法,通过引入基于CBOW(continuous bag-of-word)模型的词向量化方法对目标语料进行相似词的聚类,能够有效降低LDA模型输入文本的维度,并且使主题更明确。通过在真实数据集上计算分析,与现有基于词频权重的词向量化LDA方法相比,在相同主题词数情况下困惑度可降低约3%。 展开更多
关键词 词向量 LDA模型 话题发现 困惑度
下载PDF
基于多策略优化的分治多层聚类算法的话题发现研究 被引量:38
3
作者 骆卫华 于满泉 +2 位作者 许洪波 王斌 程学旗 《中文信息学报》 CSCD 北大核心 2006年第1期29-36,共8页
话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分... 话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类再进行聚类,得到最终的话题,在聚类的过程中采用多种策略进行优化,以保证聚类的效果。基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一。 展开更多
关键词 计算机应用 中文信息处理 话题发现与跟踪 分治多层聚类 系统聚类
下载PDF
一种面向网络话题发现的增量文本聚类算法 被引量:16
4
作者 殷风景 肖卫东 +1 位作者 葛斌 李芳芳 《计算机应用研究》 CSCD 北大核心 2011年第1期54-57,共4页
为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了网络文本聚类的实时性;通过正文分词时标注词性选... 为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了网络文本聚类的实时性;通过正文分词时标注词性选择名词动词进行正文向量化、建立文本标题向量来与文本正文向量共同表征文本、采用average-link策略、引入"代"的概念分批进行文本的聚类,以及在每批次聚类后添加报道重新选择调整所属的步骤来提高聚类的质量。实验证明了ICIT算法在提高话题发现准确度上的有效性和实用性。 展开更多
关键词 话题发现 文本聚类 增量聚类 准确度 ICIT算法
下载PDF
国外新兴研究话题发现研究综述 被引量:34
5
作者 卢超 侯海燕 +1 位作者 Ding Ying 章成志 《情报学报》 CSSCI CSCD 北大核心 2019年第1期97-110,共14页
新兴研究话题发现一直以来都是学者们广泛关注的研究问题。对于新兴研究话题动向的把握,不仅可从宏观层面为管理部门制定科技政策提供决策支持、以提高科研资金投入的效益、加速科学进步和发展,还可为科研工作者投身富有前景的研究领域... 新兴研究话题发现一直以来都是学者们广泛关注的研究问题。对于新兴研究话题动向的把握,不仅可从宏观层面为管理部门制定科技政策提供决策支持、以提高科研资金投入的效益、加速科学进步和发展,还可为科研工作者投身富有前景的研究领域提供具体的研究方向建议。对国际核心期刊上关于新兴研究话题发现的研究现状进行梳理发现,目前学术界对新兴研究话题及其相关概念尚无清晰的界定;相应地,新兴研究话题的探测方法也存在诸多的不足;探测新兴研究话题中所依据的指标繁杂多样。综述现有研究,本文给出新兴研究话题的概念及其特征的界定,比较新兴研究话题及其相关概念的联系与区别,并指出在新兴研究话题发现中应注意的具体问题并提出四个方面的工作展望。 展开更多
关键词 新兴研究话题发现 研究前沿 共被引分析 文献耦合分析 直接引用分析
下载PDF
基于隐含语义分析的微博话题发现方法 被引量:36
6
作者 马雯雯 魏文晗 邓一贵 《计算机工程与应用》 CSCD 2014年第1期96-100,共5页
随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话... 随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。 展开更多
关键词 隐含语义分析 向量空间模型 话题发现 微博 两阶段聚类 LATENT SEMANTIC Analysis(LSA) Vector Space Model(VSM)
下载PDF
基于ICE-LDA模型的中英文跨语言话题发现研究 被引量:7
7
作者 陈兴蜀 罗梁 +2 位作者 王海舟 王文贤 高悦 《工程科学与技术》 EI CAS CSCD 北大核心 2017年第2期100-106,共7页
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分... 近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。 展开更多
关键词 话题发现 跨英汉文本 ICE-LDA模型 TF-IDF特征提取 共现话题
下载PDF
基于隐主题分析的中文微博话题发现 被引量:19
8
作者 史剑虹 陈兴蜀 王文贤 《计算机应用研究》 CSCD 北大核心 2014年第3期700-704,共5页
针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁... 针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。 展开更多
关键词 中文微博 话题发现 隐主题模型 文本聚类 频繁项集挖掘
下载PDF
层次化话题发现与跟踪方法及系统实现 被引量:11
9
作者 邱立坤 龙志祎 +1 位作者 钟华 程葳 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期157-160,共4页
自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因... 自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。 展开更多
关键词 话题发现与跟踪 层次化话题识别 层次化话题跟踪 多层聚类 事件结构
下载PDF
面向微博热点话题发现的多标签传播聚类方法研究 被引量:16
10
作者 陈羽中 方明月 郭文忠 《模式识别与人工智能》 EI CSCD 北大核心 2015年第1期1-10,共10页
微博热点话题发现是目前的研究热点.针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词... 微博热点话题发现是目前的研究热点.针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词以及时间效率不佳的问题,引入多标签传播思想,设计一种接近线性时间复杂度的多标签传播聚类算法(TCMLPA)用于词共现网络的热词聚类,获得热点话题集.实验结果表明,词生命值计算模型能够有效过滤噪声并提取热词,TCMLPA算法则能够在保证聚类结果稳定性的情况下,有效提高热点话题发现的精度和效率. 展开更多
关键词 微博 热点话题发现 老化理论 热词抽取 多标签传播
下载PDF
基于RNN和主题模型的社交网络突发话题发现 被引量:15
11
作者 石磊 杜军平 梁美玉 《通信学报》 EI CSCD 北大核心 2018年第4期189-198,共10页
社交网络数据是稀疏和嘈杂的,并伴有大量的无意义话题。传统突发话题发现方法无法解决社交网络短文本稀疏性问题,并需要复杂的后处理过程。为了解决上述问题,提出一种基于循环神经网络(RNN,recurrent neural network)和主题模型的突发... 社交网络数据是稀疏和嘈杂的,并伴有大量的无意义话题。传统突发话题发现方法无法解决社交网络短文本稀疏性问题,并需要复杂的后处理过程。为了解决上述问题,提出一种基于循环神经网络(RNN,recurrent neural network)和主题模型的突发话题发现(RTM-SBTD)方法。首先,综合RNN和逆序文档频率(IDF,inverse document frequency)构建权重先验来学习词的关系,同时通过构建词对解决短文本稀疏性问题。其次,模型中引入针板先验(spike and slab)来解耦突发话题分布的稀疏和平滑。最后,引入词的突发性来区分建模普通话题和突发话题,实现突发话题自动发现。实验结果表明与现有的主流突发话题发现方法相比,所提RTM-SBTD方法在多种评价指标上优于对比算法。 展开更多
关键词 社交网络 突发话题发现 主题模型 循环神经网络
下载PDF
基于文本挖掘的话题发现技术 被引量:5
12
作者 高妮 周明全 +2 位作者 耿国华 王学松 贺毅岳 《计算机工程》 CAS CSCD 北大核心 2009年第19期36-38,共3页
在分析灾害新闻特点的基础上,提出一种基于文本挖掘的话题发现技术,采用基于平均分组的层次聚类算法,对灾害新闻资料进行组织,从而生成新闻专题,为用户提供个性化服务,并形成专题检测系统,同时介绍基于时间和地点权值向量的相似度计算... 在分析灾害新闻特点的基础上,提出一种基于文本挖掘的话题发现技术,采用基于平均分组的层次聚类算法,对灾害新闻资料进行组织,从而生成新闻专题,为用户提供个性化服务,并形成专题检测系统,同时介绍基于时间和地点权值向量的相似度计算模型以及基于时间的动态阈值模型。实验结果表明,该算法能够获得较好的性能。 展开更多
关键词 话题发现与跟踪 层次聚类 文本挖掘 动态阈值
下载PDF
基于实时词共现网络的微博话题发现 被引量:5
13
作者 李亚星 王兆凯 +2 位作者 冯旭鹏 刘利军 黄青松 《计算机应用》 CSCD 北大核心 2016年第5期1302-1306,共5页
针对微博的实时性、稀疏性和海量性特点,提出基于实时词共现网络的话题发现模型。首先,从原始语料中筛选出主题词集合,再利用时间参数计算共现主题词的关系权重以实现词共现网络的构建,通过该网络推算出与话题关联性强的潜在特征词以解... 针对微博的实时性、稀疏性和海量性特点,提出基于实时词共现网络的话题发现模型。首先,从原始语料中筛选出主题词集合,再利用时间参数计算共现主题词的关系权重以实现词共现网络的构建,通过该网络推算出与话题关联性强的潜在特征词以解决微博特征词的稀疏性;其次,采用改进Single-Pass算法实现话题增量聚类;最后,对每个话题的主题词按热度计算进行排序,获得最具代表性的话题主题词。实验结果表明,该模型与经典Single-Pass聚类算法相比,话题发现准确率约提高6%,综合指标提高8%。实验结果证明所提模型的有效性和准确性。 展开更多
关键词 话题发现 实时共现网络 短文本 Single-Pass聚类 热度计算
下载PDF
基于热度矩阵的微博热点话题发现 被引量:9
14
作者 聂文汇 曾承 贾大文 《计算机工程》 CAS CSCD 北大核心 2017年第2期57-62,共6页
现有微博热点话题发现模型对微博数量规模较敏感,发现速度较慢。为此,提出一种基于热度矩阵的主题模型。通过热度矩阵获取各潜在主题的热度和主题-词概率分布,并以词间的共有热度来挖掘其语义关系,进而准确识别数据中的热点话题及热点... 现有微博热点话题发现模型对微博数量规模较敏感,发现速度较慢。为此,提出一种基于热度矩阵的主题模型。通过热度矩阵获取各潜在主题的热度和主题-词概率分布,并以词间的共有热度来挖掘其语义关系,进而准确识别数据中的热点话题及热点词汇。在真实微博数据上的实验结果表明,与潜在狄利克雷分布模型相比,该模型的效率和准确率较高,发现的热点话题与实时事件保持一致,具有较好的热点识别效果。 展开更多
关键词 热度矩阵 主题模型 微博 话题发现 文本挖掘
下载PDF
基于多中心模型的网络热点话题发现算法 被引量:28
15
作者 王巍 杨武 齐海凤 《南京理工大学学报》 EI CAS CSCD 北大核心 2009年第4期422-426,431,共6页
为了有效消除网络话题相关报道内容侧重点变化对网络话题发现准确性的影响,提出了网络话题多中心模型。将报道内容之间的关联关系层次化,提高了对网络话题的描述能力。提出了基于多中心模型的网络热点话题发现算法,利用话题中心判别新... 为了有效消除网络话题相关报道内容侧重点变化对网络话题发现准确性的影响,提出了网络话题多中心模型。将报道内容之间的关联关系层次化,提高了对网络话题的描述能力。提出了基于多中心模型的网络热点话题发现算法,利用话题中心判别新出现的报道是否属于已有网络话题,算法基于单遍聚类思想,通过引入话题中心的策略优化了算法的计算开销。实验结果表明:该算法可以全面、准确地发现网络热点话题,同时具有较为理想的性能,可应用于大规模网络动态流式数据环境下的热点话题发现。 展开更多
关键词 话题发现 热点话题 多中心 单遍聚类
下载PDF
基于主题词的微博热点话题发现 被引量:11
16
作者 叶成绪 杨萍 刘少鹏 《计算机应用与软件》 CSCD 2016年第2期46-50,共5页
近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点... 近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点话题发现方法。首先,获取微博数据的高频最长公共子串,作为描述话题的候选主题词;其次,利用维基百科知识,对候选主题词进行筛选;最后,对主题词集合聚类以发现话题,并计算每个话题的能量,从中选取热点话题。在真实数据集上的实验表明,该方法能有效发现微博热点话题。 展开更多
关键词 主题词 维基百科 最长公共子串 热点话题发现 微博
下载PDF
一种融入公众情感投入分析的微博话题发现与细分方法 被引量:6
17
作者 琚春华 鲍福光 戴俊彦 《电信科学》 北大核心 2016年第7期97-105,共9页
为了提升微博话题发现效率以及发现质量问题,提出了一种融入公众情感投入分析的微博话题快速发现与细分方法,促使话题演化,进而产生新话题及其情感变化趋势。首先,基于情感词典和TFDF值在历史语料库中挖掘常用情感词并构建情感词库;其次... 为了提升微博话题发现效率以及发现质量问题,提出了一种融入公众情感投入分析的微博话题快速发现与细分方法,促使话题演化,进而产生新话题及其情感变化趋势。首先,基于情感词典和TFDF值在历史语料库中挖掘常用情感词并构建情感词库;其次,快速抽取情感文本,结合Sigmoid函数检测情感投入密集期,保证话题事件挖掘的质量;最后,通过改进的模糊C-均值聚类算法在新的微博数据中发现高质量话题。实验结果表明,本文方法能够有效提升移动环境下的话题发现效率及质量。 展开更多
关键词 情感词 微博 话题发现 NE—FCM
下载PDF
我国网络舆情热点话题发现研究综述 被引量:14
18
作者 游丹丹 陈福集 《现代情报》 CSSCI 北大核心 2017年第3期165-171,共7页
随着互联网的快速发展,网络舆情对社会的影响不容忽视。若能够及时从海量数据中发现热点话题,追踪热点话题演变以及预测话题的倾向,对于帮助相关部门及时有效地对其引导和控制具有较大意义。本文通过对我国网络舆情热点话题发现的相关... 随着互联网的快速发展,网络舆情对社会的影响不容忽视。若能够及时从海量数据中发现热点话题,追踪热点话题演变以及预测话题的倾向,对于帮助相关部门及时有效地对其引导和控制具有较大意义。本文通过对我国网络舆情热点话题发现的相关文献进行收集、整理及分析,归纳其中的主要研究思想和方法,同时发现存在的不足,并提出进一步的展望,以期对后来研究者提供参考。 展开更多
关键词 网络舆情 热点话题发现 发现模型 综述
下载PDF
大规模短文本的快速话题发现方法与评价研究 被引量:3
19
作者 韩忠明 张慧 +1 位作者 张梦 黄今慧 《计算机应用研究》 CSCD 北大核心 2015年第3期717-722,739,共7页
传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。提出了一个融合词共现与加权GN(CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算... 传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。提出了一个融合词共现与加权GN(CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算法。采集了sina微博、新闻网站的标题真实的短文本数据,构建了基础测试数据集,采用LDA与K-means方法作为对比进行了大量对比实验。实验结果表明CW-WGN比LDA和K-means方法能够多发现20%以上的正确话题,而且发现的话题纯度也高于LDA与K-means。此外,CWWGN消耗的时间最少,能够有效地从实际大规模短文本上发现话题。 展开更多
关键词 短文本 话题发现 词共现 社团发现
下载PDF
话题发现与追踪技术研究 被引量:21
20
作者 张晓艳 王挺 《计算机科学与探索》 CSCD 2009年第4期347-357,共11页
话题发现与追踪以新闻流为处理对象,采用基于事件的信息组织方式进行研究,一直是自然语言处理领域里的热点。该研究借鉴大量相关研究尤其是信息检索中的经典模型和方法,取得了很大成功。首先介绍了话题发现与追踪的主要研究内容、评价... 话题发现与追踪以新闻流为处理对象,采用基于事件的信息组织方式进行研究,一直是自然语言处理领域里的热点。该研究借鉴大量相关研究尤其是信息检索中的经典模型和方法,取得了很大成功。首先介绍了话题发现与追踪的主要研究内容、评价方法以及发展历史;然后对其多个研究内容提出一个统一研究框架,并对该框架中的关键技术进行了详细分析;最后指出该领域中的关键问题及难点,并对未来研究做出展望。 展开更多
关键词 话题发现与追踪 统一研究框架 表示模型
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部