期刊文献+
共找到156篇文章
< 1 2 8 >
每页显示 20 50 100
基于增量文本聚类算法的热点话题检测研究
1
作者 魏艺泽 郭慧 时晓旭 《华北科技学院学报》 2024年第1期76-81,124,共7页
针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类... 针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类时的准确率。利用各大平台获取的新冠肺炎新闻数据对模型进行验证。结果表明,该方法使得传统的TF-IDF提取关键词时可以增量更新,利用改进的Single-Pass算法使得综合评价指标提高了8.64%。相对于传统的Single-Pass算法,改进的Single-Pass算法只需要与一部分候选簇进行比较,有效地降低了比较次数,提高了聚类的准确性以及效率。 展开更多
关键词 Single-Pass 文本聚类 文本相似度 热点话题检测 TF-IDF
下载PDF
基于时序共词网络的社交平台话题检测与演化研究
2
作者 杨欣谊 王伟 朱恒民 《情报学报》 CSCD 北大核心 2023年第5期585-597,共13页
社交平台是网民传达观点和情感的重要途径,分析社交平台话题分布及演化过程能够揭示舆情热点及传播发展过程,对引导公众舆论具有重要的参考作用。本研究利用网络社团演化的方法检测社交平台话题并分析其演化过程。首先,对用户发布的文... 社交平台是网民传达观点和情感的重要途径,分析社交平台话题分布及演化过程能够揭示舆情热点及传播发展过程,对引导公众舆论具有重要的参考作用。本研究利用网络社团演化的方法检测社交平台话题并分析其演化过程。首先,对用户发布的文本内容进行时间切片,构建时序共词网络并提取各时间切片的主干网络,利用Leiden算法检测社团来表示话题。其次,提出基于社团正向和反向转移概率及社团规模的话题演化事件检测方法,识别话题演化中的持续、增长、收缩、合并、分裂、新生以及消亡等事件。以新浪微博平台新冠肺炎疫情相关微博为例,在话题检测中发现,主干网络相较于原始网络能够检测到更多话题,话题内容区分粒度更细。在话题演化分析中,发现了公众情绪由消极转积极、防控和医疗工作专业化、国际疫情蔓延态势及疫情对经济的影响逐步扩大等演化路径。 展开更多
关键词 话题检测 话题演化 时序共词网络 社团演化发现 社交平台
下载PDF
跨媒体语义关联增强的网络视频热点话题检测
3
作者 张承德 刘雨宣 +1 位作者 肖霞 梅凯 《计算机研究与发展》 EI CSCD 北大核心 2023年第11期2624-2637,共14页
跨媒体网络视频热点话题检测成为新的研究热点.然而,描述视频的文本信息较少,使得文本语义特征空间稀疏,导致文本语义特征间关联强度较弱,增加了挖掘热点话题的难度.现有方法主要通过视觉信息丰富文本语义特征空间.然而,由于视觉与文本... 跨媒体网络视频热点话题检测成为新的研究热点.然而,描述视频的文本信息较少,使得文本语义特征空间稀疏,导致文本语义特征间关联强度较弱,增加了挖掘热点话题的难度.现有方法主要通过视觉信息丰富文本语义特征空间.然而,由于视觉与文本信息间的异构性,导致同一话题下文本与视觉语义特征差异较大,这进一步降低了同一话题下文本语义间的关联强度,也给跨媒体网络视频热点话题检测带来巨大挑战.因此,提出一种新的跨媒体语义关联增强方法.首先,通过双层注意力,从单词和句子2个级别捕捉文本核心语义特征;其次,通过理解视觉内容,生成大量与视频内容高度相关的文本描述,丰富文本语义空间;然后,分别通过文本语义相似性和视觉语义相似性,构建文本语义图和视觉语义图,并构造时间衰减函数,从时间维度建立跨媒体数据间的相关性,以此增强文本与视觉语义间的关联强度,平滑地将2种语义图融合为混合语义图,实现跨媒体语义互补;最后,通过图聚类方法检测出热点话题.大量实验结果表明,提出的模型优于现有方法. 展开更多
关键词 跨媒体 网络视频 话题检测 视频理解 语义关联增强
下载PDF
基于MS-Cluster与Prompt-Learning话题检测与追踪技术
4
作者 李崭 杜晓童 +1 位作者 黄浩 任秋霖 《计算机科学与应用》 2023年第10期1918-1927,共10页
话题检测与追踪技术随着信息处理技术以及人工智能技术的发展,已经取得了较好的发展,但在实际应用中,由于算法标注数据需求高、训练代价大,很难较好的落地应用。本文提出了基于MS-Cluster与Prompt-Learning的话题检测追踪技术,通过聚类... 话题检测与追踪技术随着信息处理技术以及人工智能技术的发展,已经取得了较好的发展,但在实际应用中,由于算法标注数据需求高、训练代价大,很难较好的落地应用。本文提出了基于MS-Cluster与Prompt-Learning的话题检测追踪技术,通过聚类分析过程初步进行话题聚合,在此基础上通过提示学习推理进行话题补偿,完成话题检测与追踪过程。该方法在包含13个话题的测试数据集上进行测试验证,证明该方法在零样本与低样本标注情况下有较好效果,同时相较于其他主流话题检测追踪技术在准确率与召回率上都有提升。 展开更多
关键词 话题检测追踪技术 提示学习 小样本学习 聚类分析
下载PDF
基于增量型聚类的自动话题检测研究 被引量:23
5
作者 张小明 李舟军 巢文涵 《软件学报》 EI CSCD 北大核心 2012年第6期1578-1587,共10页
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类... 随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率. 展开更多
关键词 话题检测与跟踪 TDT 话题检测 增量型聚类 权重计算
下载PDF
面向互联网新闻的在线话题检测算法 被引量:8
6
作者 程葳 龙志祎 《计算机工程》 CAS CSCD 北大核心 2009年第18期28-30,共3页
针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上... 针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试。结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14。 展开更多
关键词 在线话题检测 话题检测与跟踪 文本聚类
下载PDF
基于话题检测的自适应增量K-means算法 被引量:6
7
作者 李胜东 吕学强 +1 位作者 施水才 孙军 《中文信息学报》 CSCD 北大核心 2014年第6期190-193,共4页
根据话题检测任务的定义和特点,本文分析了传统的增量聚类算法和K-means算法的优缺点,提出了基于话题检测的自适应增量K-means算法,设计了话题检测实验,实验结果证明了该算法提高了话题检测性能,具有良好的应用前景。
关键词 话题检测 增量聚类 K-MEANS算法 话题检测与跟踪评测
下载PDF
一种中文微博新闻话题检测的方法 被引量:84
8
作者 郑斐然 苗夺谦 +1 位作者 张志飞 高灿 《计算机科学》 CSCD 北大核心 2012年第1期138-141,共4页
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复... 微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。 展开更多
关键词 微博 新闻 话题检测 聚类
下载PDF
MB-SinglePass:基于组合相似度的微博话题检测 被引量:24
9
作者 周刚 邹鸿程 +1 位作者 熊小兵 黄永忠 《计算机科学》 CSCD 北大核心 2012年第10期198-202,共5页
话题检测技术在传统媒体的研究中取得了较好的效果。探讨了针对微博类的新型媒体短文本对象话题检测技术的优化及性能评价。基于微博中联系人存在的关注和粉丝等结构化信息、帖子之间转发评论等内在关联关系,提出了针对微博的MB-SingleP... 话题检测技术在传统媒体的研究中取得了较好的效果。探讨了针对微博类的新型媒体短文本对象话题检测技术的优化及性能评价。基于微博中联系人存在的关注和粉丝等结构化信息、帖子之间转发评论等内在关联关系,提出了针对微博的MB-SinglePass话题检测算法。该算法除了考虑微博上述特点之外,还针对短文本特征稀疏的问题,利用同义词典,引入了微博特征扩展技术,丰富了特征信息。同时,针对单一使用余弦相似度、雅各比相似度和语义相似度的不足,采用了组合相似度策略。相较传统算法,MB-SinglePass算法在新浪微博实测数据集上取得了更好的性能。另外,针对相似度策略的对照实验说明采用组合相似度的效果优于单一相似度。 展开更多
关键词 微博 SinglePass 话题检测 文本相似度 同义词扩展
下载PDF
基于内容分析的话题检测研究 被引量:20
10
作者 赵华 赵铁军 +1 位作者 张姝 王浩畅 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2006年第10期1740-1743,共4页
通过分析大量的英文报道的特点,针对目前话题检测研究中存在的难以区分两次不同的火车事故或爆炸事件的问题提出了基于内容分析的话题检测算法.该算法以S ingle-Pass聚类策略为基础,通过内容分析将话题表示成两个中心向量:标识中心向量... 通过分析大量的英文报道的特点,针对目前话题检测研究中存在的难以区分两次不同的火车事故或爆炸事件的问题提出了基于内容分析的话题检测算法.该算法以S ingle-Pass聚类策略为基础,通过内容分析将话题表示成两个中心向量:标识中心向量及内容中心向量.实验证明基于内容分析的话题检测算法不但简单易行,而且对于解决上述的“难以区分”问题非常有效. 展开更多
关键词 话题检测 内容分析 错误检测开销 标识词 内容词
下载PDF
话题检测与跟踪的评测及研究综述 被引量:153
11
作者 洪宇 张宇 +1 位作者 刘挺 李生 《中文信息学报》 CSCD 北大核心 2007年第6期71-87,共17页
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信... 话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。 展开更多
关键词 计算机应用 中文信息处理 综述 话题检测与跟踪 自然语言处理 事件 新闻报道
下载PDF
面向动态演化的话题检测研究 被引量:17
12
作者 赵华 赵铁军 +1 位作者 于浩 张姝 《高技术通讯》 CAS CSCD 北大核心 2006年第12期1230-1235,共6页
受CURE聚类算法的启发,在分析了动态演化特性的基础上,提出了一种面向动态演化特性的双质心话题模型,以解决话题动态演化特性对话题检测的影响。该模型动态地建立分界点,以其为界将话题表示成初始质心和当前质心两个质心。初始质心... 受CURE聚类算法的启发,在分析了动态演化特性的基础上,提出了一种面向动态演化特性的双质心话题模型,以解决话题动态演化特性对话题检测的影响。该模型动态地建立分界点,以其为界将话题表示成初始质心和当前质心两个质心。初始质心代表分界点之前话题所关注的内容,当前质心表示从分界点到当前时间之间话题所关注的内容。提出了基于时间和词分布密度两种不同的分界点确定方法。详细描述了分界点、初始质心、当前质心的建立及更新方法。最后对基于双质心话题模型的英语话题检测算法进行了研究探讨,通过实验证明了该算法的有效性。 展开更多
关键词 话题检测 动态演化 双质心 分界点 分布密度
下载PDF
基于线索树双层聚类的微博话题检测 被引量:16
13
作者 马彬 洪宇 +2 位作者 陆剑江 姚建民 朱巧明 《中文信息学报》 CSCD 北大核心 2012年第6期121-128,共8页
微博作为一种全新的信息发布模式,在极大程度上增强了网络信息的开放性和互动性,但同时也造成微博空间内信息量的裂变式增长。利用话题检测技术将微博文本信息按照话题进行归类和组织,可以帮助用户在动态变化的信息环境下高效获取个性... 微博作为一种全新的信息发布模式,在极大程度上增强了网络信息的开放性和互动性,但同时也造成微博空间内信息量的裂变式增长。利用话题检测技术将微博文本信息按照话题进行归类和组织,可以帮助用户在动态变化的信息环境下高效获取个性信息或热点话题。该文针对微博文本短、半结构、上下文信息丰富等特点,提出了基于线索树的双层聚类的话题检测方法,通过利用融合了时序特征和作者信息的话题模型(Temporal-Author-Topic,TAT)进行线索树内的局部聚类,借以实现垃圾微博的过滤,最后利用整合后的线索树进行全局话题检测。实验结果显示该方法在解决数据稀疏方面取得了较好的效果,话题检测的F值达到31.2%。 展开更多
关键词 微博文本 话题检测 TAT模型 线索树 LDA特征选择
下载PDF
孤立点预处理和Single-Pass聚类结合的微博话题检测方法 被引量:12
14
作者 叶施仁 杨英 +1 位作者 杨长春 朱明峰 《计算机应用研究》 CSCD 北大核心 2016年第8期2294-2297,共4页
针对如何快速发现微博中的热点话题,提出了一种具有更高准确率的中文微博话题检测方案。首先,优化了微博文本的特征选择,经过分析获得的这些博文特征有助于不同词性对话题表达的重要性;其次,在此基础上,提出了通过计算博文阈值的方法,... 针对如何快速发现微博中的热点话题,提出了一种具有更高准确率的中文微博话题检测方案。首先,优化了微博文本的特征选择,经过分析获得的这些博文特征有助于不同词性对话题表达的重要性;其次,在此基础上,提出了通过计算博文阈值的方法,将零散主题的博文作为噪声过滤,并用来降低博文集的维度;在现有Single-Pass聚类算法的基础上,引入了主题词的概念,根据中心向量的特征权重选择主题词,最终形成一种孤立点预处理与Single-Pass相结合的微博话题检测方法。实验结果表明,相比传统的Single-Pass算法,该方法有效去除了数据集的大部分孤立点,不仅具有较低的漏检率和误检率,而且在时间损耗方面表现更佳。 展开更多
关键词 微博 热点话题 增量聚类 孤立点 话题检测
下载PDF
基于条件随机场的敏感话题检测模型研究 被引量:7
15
作者 翟东海 崔静静 +2 位作者 聂洪玉 于磊 杜佳 《计算机工程》 CAS CSCD 2014年第8期158-162,167,共6页
敏感话题通常包含态度倾向性,且具有一定的先验知识,如何有效利用这些先验知识来判断网络文本的敏感性是敏感话题检测的研究难点和热点。在充分利用条件随机场强大知识拟合能力的基础上,提出一种基于条件随机场的敏感话题检测模型。抽... 敏感话题通常包含态度倾向性,且具有一定的先验知识,如何有效利用这些先验知识来判断网络文本的敏感性是敏感话题检测的研究难点和热点。在充分利用条件随机场强大知识拟合能力的基础上,提出一种基于条件随机场的敏感话题检测模型。抽取特征词项,并结合敏感词汇库,将待检测文档和敏感话题类别分别表示为条件随机场中的观察序列和状态序列,再利用敏感话题类别中的先验知识来构造特征函数,从而使观察序列和状态序列建立联系。将待测文档中的特征项根据概率标注为敏感话题类别中的词项,在此过程中采用Viterbi算法对观察序列的可信度进行估计,并依据估计所得的概率值对待测文档中的特征项进行敏感性标注。实例验证结果表明,该算法能够得到较好的准确率、召回率和F度量值。 展开更多
关键词 敏感话题检测 条件随机场 特征函数 特征词项 VITERBI算法 敏感性标注
下载PDF
社交媒体话题检测与追踪技术研究综述 被引量:16
16
作者 张仰森 段宇翔 +1 位作者 黄改娟 蒋玉茹 《中文信息学报》 CSCD 北大核心 2019年第7期1-10,30,共11页
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检... 随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。 展开更多
关键词 话题检测 话题追踪 聚类 主题模型
下载PDF
基于复杂网络重叠社团发现的微博话题检测 被引量:6
17
作者 尹兰 程飞 +1 位作者 任亚峰 姬东鸿 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第6期1233-1240,共8页
社交媒体话题检测一直是个热点问题,由于社交数据杂乱异构,且具有时效性,语义模糊性等特点,话题检测也是个难点问题.研究利用复杂网络对社交文本数据进行建模,并结合一种基于极大团凝聚层次聚类的重叠社团发现方法实现了社交话题的检测... 社交媒体话题检测一直是个热点问题,由于社交数据杂乱异构,且具有时效性,语义模糊性等特点,话题检测也是个难点问题.研究利用复杂网络对社交文本数据进行建模,并结合一种基于极大团凝聚层次聚类的重叠社团发现方法实现了社交话题的检测.文本数据建模中,通过自定义突发系数量化话题词,即把话题词看作具有时域分布偏好的关键词,并通过自定义相关系数连接话题词,构建话题网络.为使自定义系数更适用于动态数据环境,实验结合真实数据进行了适应性测试优化系数.文章把采用EAGLE重叠社团发现方法在公开数据集上评测,根据Q函数值显示结果明显优于当前一些重叠社团发现策略,研究对采样的60万条青少年社交数据进行了话题分析并可视化了分析结果. 展开更多
关键词 复杂网络 重叠社团发现 话题检测 青少年
下载PDF
基于用户角色定位的微博热点话题检测方法 被引量:9
18
作者 杨武 李阳 卢玲 《计算机应用》 CSCD 北大核心 2013年第11期3076-3079,共4页
针对在海量微博数据中提取热点话题效率较低的问题,在对用户角色分类的基础上,提出了一种新的热点话题检测方法。首先,根据用户关注度进行用户角色定位,过滤掉部分用户的噪声数据;其次,采用结合语义相似度的TF-IDF函数计算特征权重,降... 针对在海量微博数据中提取热点话题效率较低的问题,在对用户角色分类的基础上,提出了一种新的热点话题检测方法。首先,根据用户关注度进行用户角色定位,过滤掉部分用户的噪声数据;其次,采用结合语义相似度的TF-IDF函数计算特征权重,降低语义表达形式带来的误差;然后,用改进的Single-Pass聚类算法进行话题聚类,提取出微博话题;最后,根据微博转发数、评论数等对话题热度进行评估排序,从而发现热点话题。实验表明,所提出的方法使漏检率和误检率分别平均降低12.09%和2.37%,有效地提高了话题检测的正确率,验证了该方法的可行性。 展开更多
关键词 微博 话题检测 用户角色 语义相似度 Single—Pass聚类
下载PDF
一种基于情感的中文微博话题检测方法 被引量:11
19
作者 方然 苗夺谦 张志飞 《智能系统学报》 CSCD 北大核心 2013年第3期208-213,共6页
针对微博这种特殊的文本形式的话题检测,传统的算法并不能取得很好的效果.为了提高其查全率,根据微博这种带有结构化特点的信息,提出了一种带有情感内容加权的话题检测方法.该方法基于含有负面情感的词语往往携带了更多的信息量这一论点... 针对微博这种特殊的文本形式的话题检测,传统的算法并不能取得很好的效果.为了提高其查全率,根据微博这种带有结构化特点的信息,提出了一种带有情感内容加权的话题检测方法.该方法基于含有负面情感的词语往往携带了更多的信息量这一论点,在现有短文本话题检测的算法中,通过加大含有负面情感的短文本在话题检测中的权重,之后再根据一种基于自查询的聚类方法进行话题聚类,将情感倾向融合到短文本话题检测中.在真实数据集上的实验表明,此方法能有效地进行话题聚类并检测话题,并提高了查全率. 展开更多
关键词 中文微博 话题检测 聚类 情感
下载PDF
基于改进的OLDA模型话题检测及演化分析 被引量:7
20
作者 余本功 张卫春 王龙飞 《情报杂志》 CSSCI 北大核心 2017年第2期102-107,共6页
[目的/意义]话题检测和演化分析是网络舆情监控中的热点问题,对热点话题的检测和演化分析有助于挖掘热点话题和深入理解话题的演化趋势,并给以舆情监控者提供完整的话题演化路径和更为合理的决策意见。[方法/过程]OLDA(Online Latent Di... [目的/意义]话题检测和演化分析是网络舆情监控中的热点问题,对热点话题的检测和演化分析有助于挖掘热点话题和深入理解话题的演化趋势,并给以舆情监控者提供完整的话题演化路径和更为合理的决策意见。[方法/过程]OLDA(Online Latent Dirichlet Allocation)模型是用于挖掘热点话题和分析话题演化的工具,由于其存在新旧主题混合、冗余词较多的缺点,采用双通道模式对主题、词分布的遗传度进行改进,并给出了新的词分布计算方法。[结果/结论]提出的改进OLDA模型解决了新旧主题混合问题,降低冗余词的概率,更为明确地解释话题的含义。实验表明,改进的OLDA模型更为有效地对话题进行检测及演化分析。 展开更多
关键词 网络舆情 OLDA 模型 话题演化 话题检测 Gibbs 采样 特征字
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部