期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一种基于动态进化模型的事件探测和追踪算法 被引量:58
1
作者 贾自艳 何清 +2 位作者 张海俊 李嘉佑 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2004年第7期1273-1280,共8页
在大量分析网络新闻特点的基础上 ,借鉴Single Pass聚类思想 ,并结合新闻要素给出了一种基于动态进化模型的事件探测和追踪算法 该动态模型是基于新闻事件的生存特点提出的 ,包括 :基于时间距离的相似度计算模型、事件模板进化策略以及... 在大量分析网络新闻特点的基础上 ,借鉴Single Pass聚类思想 ,并结合新闻要素给出了一种基于动态进化模型的事件探测和追踪算法 该动态模型是基于新闻事件的生存特点提出的 ,包括 :基于时间距离的相似度计算模型、事件模板进化策略以及动态阈值设置思想 该算法可以自动对新闻资料进行组织生成新闻专题 ,进而为用户提供个性化服务 展开更多
关键词 新闻事件 新闻专题 事件探测 事件追踪 聚类
下载PDF
一种中文微博新闻话题检测的方法 被引量:84
2
作者 郑斐然 苗夺谦 +1 位作者 张志飞 高灿 《计算机科学》 CSCD 北大核心 2012年第1期138-141,共4页
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复... 微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。 展开更多
关键词 微博 新闻 话题检测 聚类
下载PDF
基于多向量和二次聚类的话题检测 被引量:3
3
作者 王振宇 吴泽衡 唐远华 《计算机工程与设计》 CSCD 北大核心 2012年第8期3214-3218,共5页
话题检测技术是互联网新闻热点挖掘的基础,为解决基于传统的话题检测较少利用报道中的类别信息以及命名实体信息来提高检测效果,提出一种基于多向量相似度计算和二次聚类的话题检测方法。将报道按照其所在的站点层次关系进行层次分类,... 话题检测技术是互联网新闻热点挖掘的基础,为解决基于传统的话题检测较少利用报道中的类别信息以及命名实体信息来提高检测效果,提出一种基于多向量相似度计算和二次聚类的话题检测方法。将报道按照其所在的站点层次关系进行层次分类,利用新闻文本中的地点、人物等命名实体信息来区分新闻报道;利用报道的时间聚集特性,将同一天的报道先进行局部聚类,再与旧话题归并聚类。实验结果表明,该方法的归一化识别代价达到0.197,比传统的话题检测算法提升约8%的性能。 展开更多
关键词 话题检测 新闻热点 命名实体 相似度计算 聚类
下载PDF
基于藏文新闻文本话题检测的聚类算法研究 被引量:2
4
作者 曹晖 孟祥和 《华中师范大学学报(自然科学版)》 CAS 北大核心 2014年第1期37-41,共5页
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通... 话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本. 展开更多
关键词 聚类算法 种子话题 藏文新闻文本 话题检测
下载PDF
新话题监测研究进展
5
作者 饶洋辉 叶良 +1 位作者 常红旭 程洁 《图书馆杂志》 CSSCI 北大核心 2009年第7期60-63,共4页
新话题监测是话题检测与跟踪领域的一项重要研究。对于事件层的新话题监测,主要阐述基于聚类的方法,包括文档的向量化表示以及文档聚类。对于句子层的新话题监测,重点介绍基于问答系统的方法,包括问题表述与预处理、相关句子检索以及新... 新话题监测是话题检测与跟踪领域的一项重要研究。对于事件层的新话题监测,主要阐述基于聚类的方法,包括文档的向量化表示以及文档聚类。对于句子层的新话题监测,重点介绍基于问答系统的方法,包括问题表述与预处理、相关句子检索以及新颖句子检测。并对新话题监测研究存在的问题及其发展趋势进行了探讨。 展开更多
关键词 新话题监测 聚类 问答系统
下载PDF
新闻专题阶段性摘要的生成研究
6
作者 尤建清 张仰森 《计算机应用研究》 CSCD 北大核心 2016年第4期973-978,996,共7页
新闻专题的阶段性摘要对了解专题的动态演化、勾勒专题的发展轮廓等都能提供较高的参考价值,一定程度上弥补了专题内容太多而不便阅读的缺憾。以"马航MH370航班失联"专题为研究对象,探讨了新闻专题阶段性摘要的生成算法。首... 新闻专题的阶段性摘要对了解专题的动态演化、勾勒专题的发展轮廓等都能提供较高的参考价值,一定程度上弥补了专题内容太多而不便阅读的缺憾。以"马航MH370航班失联"专题为研究对象,探讨了新闻专题阶段性摘要的生成算法。首先利用主题抽取技术对各新闻文档进行主题抽取,完成文档集到主题集的转换;然后借助话题检测与追踪技术对主题集进行基于时间流的双向聚类和正逆向结果交集的再聚类;最终根据话题聚类的结果选择对应文档的主题生成新闻专题的阶段性摘要。实验证明,该方法能够取得较好的Rouge召回率。 展开更多
关键词 新闻专题 话题检测与追踪 二次聚类 阶段性摘要
下载PDF
基于音频的电视新闻节目的主题检索和聚类
7
作者 王磊 杜利民 王劲林 《电子与信息学报》 EI CSCD 北大核心 2007年第10期2498-2503,共6页
随着流媒体应用的蓬勃兴起,基于媒体内容的检索和管理逐渐成为当前的学术研究热点。新闻节目作为电视节目的一种常见形式,对其主题进行自动提取检索具有重要的实际意义。该文从电视新闻节目的音频入手,综合应用了播音室语音/非播音室语... 随着流媒体应用的蓬勃兴起,基于媒体内容的检索和管理逐渐成为当前的学术研究热点。新闻节目作为电视节目的一种常见形式,对其主题进行自动提取检索具有重要的实际意义。该文从电视新闻节目的音频入手,综合应用了播音室语音/非播音室语音分类、说话人转换点检测以及按说话人聚类等多种技术,实现了对电视新闻节目的主题的检索和聚类。实验表明,该文中的方法能够找到新闻节目中96%以上的播音室段落,并对其进行准确归类,显示了这种方法的可行性和潜在价值。 展开更多
关键词 新闻主题检索 音频分类 说话人检测 说话人聚类 贝叶斯信息准则
下载PDF
基于主题词向量聚类的话题内新事件检测 被引量:5
8
作者 郭磊 李弼程 赵军磊 《中文信息学报》 CSCD 北大核心 2019年第6期64-71,79,共9页
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)... 目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。 展开更多
关键词 话题内新事件检测 主题词向量 K-MEANS聚类
下载PDF
基于多特征融合的财经新闻话题检测研究 被引量:6
9
作者 谭梦婕 吕鑫 陶飞飞 《计算机工程》 CAS CSCD 北大核心 2019年第3期293-299,308,共8页
为辅助投资者在短期内及时发现投资热点,结合财经新闻的特点,提出一种财经新闻话题检测模型。构建基于财经新闻的时间窗切分新闻流,根据新闻文本中的主题事件、特征词、新闻语义及金融命名实体提取文本特征,并应用最近邻-凝聚层次聚类... 为辅助投资者在短期内及时发现投资热点,结合财经新闻的特点,提出一种财经新闻话题检测模型。构建基于财经新闻的时间窗切分新闻流,根据新闻文本中的主题事件、特征词、新闻语义及金融命名实体提取文本特征,并应用最近邻-凝聚层次聚类算法获得话题簇。实验结果表明,与传统多特征话题检测模型相比,该模型可有效降低聚类算法运行时间,提高话题检测准确度,且在一定程度上协助投资者进行决策判断。 展开更多
关键词 财经新闻 话题检测 多特征融合 凝聚层次聚类 K最近邻
下载PDF
BERT-Single:半监督的话题检测与追踪方法 被引量:2
10
作者 侯博元 崔喆 谢欣冉 《计算机应用》 CSCD 北大核心 2022年第S01期21-27,共7页
针对无监督聚类方法在应用于话题检测与追踪任务时难以学习到深层语义特征及任务相关特征,K均值聚类、潜在狄利克雷分布(LDA)等方法无法用于增量式聚类的问题,提出基于预训练语言模型的BERT-Single半监督算法。首先使用小规模有标注数... 针对无监督聚类方法在应用于话题检测与追踪任务时难以学习到深层语义特征及任务相关特征,K均值聚类、潜在狄利克雷分布(LDA)等方法无法用于增量式聚类的问题,提出基于预训练语言模型的BERT-Single半监督算法。首先使用小规模有标注数据训练预训练语言模型BERT,使BERT模型学习到任务特定的先验知识,生成能够适应话题检测与追踪任务且包含深层语义特征的文本向量;然后利用改进的Single-Pass聚类算法将预训练语言模型学习到的有标签样本信息泛化到无标签数据上,提升模型在话题检测与追踪任务上性能。在构建的数据集上进行实验,结果显示,相较于对比模型,BERT-Single模型精确率至少提升了3个百分点、召回率至少提升了1个百分点、F1值至少提升了3个百分点。BERT-Single模型对于解决话题检测与追踪问题具有较好效果,并能够很好地适应增量式聚类任务。 展开更多
关键词 聚类 半监督学习 话题检测与追踪 预训练语言模型 新闻话题
下载PDF
基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法 被引量:3
11
作者 吴振峰 兰天 +4 位作者 王猛猛 浦墨 张昱 刘志辉 何彦青 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第10期103-113,共11页
【目的】针对现有话题检测方法对数据内在结构信息利用不够充分的问题,提出基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法,实现网络新闻话题的有效检测。【方法】通过综合考虑网络新闻间的共享最近邻个数、秩次等信息刻画新闻间... 【目的】针对现有话题检测方法对数据内在结构信息利用不够充分的问题,提出基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法,实现网络新闻话题的有效检测。【方法】通过综合考虑网络新闻间的共享最近邻个数、秩次等信息刻画新闻间的关联强度、构建共享最近邻图,并解决数据内在结构信息利用不充分的问题;利用降维、最优话题个数的决策、马尔科夫聚类、基于紧密中心度的自动话题描述等技术提升网络新闻话题检测效果。【结果】在两个网络新闻数据集上的实验结果表明,所提方法得到的ARI值更高,分别达到0.86和0.97。参与比较的LDA、K-Means、GMM等话题检测方法在两个网络新闻数据集上的ARI值均分别低于0.75和0.90。【局限】未在其他领域数据集以及多语言数据集上进一步验证。【结论】所提方法可以有效提升网络新闻话题检测性能,为话题检测关键技术研究提供有价值的参考。 展开更多
关键词 共享最近邻 马尔科夫聚类 网络新闻 话题检测
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部