期刊文献+
共找到71篇文章
< 1 2 4 >
每页显示 20 50 100
Hierarchical clustering based on single-pass for breaking topic detection and tracking 被引量:3
1
作者 Li Fenghuan Zhao Zongfei Wang Zhenyu 《High Technology Letters》 EI CAS 2018年第4期369-377,共9页
Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will... Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will be affected greatly. Aiming at this problem,hierarchical clustering algorithm based on single-pass is proposed,which is inspired by hierarchical and concurrent ideas to divide clustering process into three stages. News reports are classified into different categories firstly.Then there are twice single-pass clustering processes in the same category,and one agglomerative clustering among different categories. In addition,for semantic similarity in news reports,topic model is improved based on named entities. Experimental results show that the proposed method can effectively accelerate the process as well as improve the performance. 展开更多
关键词 topic detection and tracking(tdt) single-pass HIERARCHICAL CLUSTERING TEXT CLUSTERING topic modeling
下载PDF
对象迁移自动机在TDT中的聚类研究
2
作者 施凡 陆余良 +1 位作者 刘金红 夏阳 《安徽大学学报(自然科学版)》 CAS 北大核心 2007年第1期27-30,共4页
对象迁移自动机(OMA)是一种能够较好地解决话题识别与跟踪(TDT)中聚类问题的方法,但是,传统OMA模型由于聚类速度慢等缺点,难以满足TDT实时和增量聚类的要求.针对这一问题,本文一方面改进传统的OMA模型中自动机的动作设计,同时提出文档... 对象迁移自动机(OMA)是一种能够较好地解决话题识别与跟踪(TDT)中聚类问题的方法,但是,传统OMA模型由于聚类速度慢等缺点,难以满足TDT实时和增量聚类的要求.针对这一问题,本文一方面改进传统的OMA模型中自动机的动作设计,同时提出文档选择策略,加快了OMA的聚类速度.改进的方法在中等文档集上进行了实验,实验结果表明,该方法具有较好的聚类效果. 展开更多
关键词 对象迁移自动机 话题识别与跟踪 文本聚类 文本选择策略
下载PDF
基于TDT技术的新冠肺炎疫情文献主题演化研究 被引量:5
3
作者 赵新琴 吴鹏 《科技情报研究》 2022年第2期49-60,共12页
[目的/意义]探究在新冠肺炎疫情期间的文献主题演化规律,不仅可以细粒度地揭示疫情在各领域的热点话题和演化路径,还可以为政府应急响应提供决策支持。[方法/过程]文章引入话题检测及跟踪技术(TDT)对文献主题进行自动检测和跟踪,挖掘文... [目的/意义]探究在新冠肺炎疫情期间的文献主题演化规律,不仅可以细粒度地揭示疫情在各领域的热点话题和演化路径,还可以为政府应急响应提供决策支持。[方法/过程]文章引入话题检测及跟踪技术(TDT)对文献主题进行自动检测和跟踪,挖掘文献中的主题分布及演化路径。融合自动编码器和Word2vec进行文本特征提取,并利用K-means和余弦相似度计算进行主题演化研究,同时结合LDA模型优化话题模型。[结果/结论]实验结果证明,文献主题词随时间变化较为明显,且与实际较为相符,疫情初期集中在“武汉市”,逐渐从“远程劳动”过渡到“疫苗”,研究集中在疫情防控、经济舆情和医疗卫生3个方面。TDT技术的引入能够系统地完成新冠肺炎疫情文献主题检测和跟踪任务,多维度话题模型能较好适应研究主题不断变化的情况。 展开更多
关键词 K-MEANS 自动编码器 话题模型 话题检测及跟踪
下载PDF
基于增量型聚类的自动话题检测研究 被引量:23
4
作者 张小明 李舟军 巢文涵 《软件学报》 EI CSCD 北大核心 2012年第6期1578-1587,共10页
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类... 随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率. 展开更多
关键词 话题检测与跟踪 tdt 话题检测 增量型聚类 权重计算
下载PDF
互联网话题识别与跟踪系统设计及实现 被引量:9
5
作者 闵可锐 赵迎宾 +2 位作者 刘昕 赵泽宇 闫华 《计算机工程》 CAS CSCD 北大核心 2008年第19期212-214,共3页
针对互联网上论坛和新闻网站发布的海量自然语言文本,该文设计一个话题识别与跟踪系统,将海量的数据分类整理并聚合形成各个话题。该系统的核心采用SVM方法进行文本分类,基于知识库和网络流算法实现话题的聚合,测试结果表明,文章分类的... 针对互联网上论坛和新闻网站发布的海量自然语言文本,该文设计一个话题识别与跟踪系统,将海量的数据分类整理并聚合形成各个话题。该系统的核心采用SVM方法进行文本分类,基于知识库和网络流算法实现话题的聚合,测试结果表明,文章分类的正确率达到92%,聚类的正确率达到88%,具有较高的应用价值。 展开更多
关键词 话题识别与跟踪 信息检索 支持向量机 分类 聚类
下载PDF
话题识别与跟踪中的层次化话题识别技术研究 被引量:49
6
作者 于满泉 骆卫华 +1 位作者 许洪波 白硕 《计算机研究与发展》 EI CSCD 北大核心 2006年第3期489-495,共7页
话题识别与跟踪(topic detection and tracking,TDT)旨在发展一系列基于事件的信息组织技术,层次化话题识别(hierarchical topic detection,HTD)是其中一项全新的任务定义形式.通过连续的大规模评测,话题识别与跟踪已成为国际上自然语... 话题识别与跟踪(topic detection and tracking,TDT)旨在发展一系列基于事件的信息组织技术,层次化话题识别(hierarchical topic detection,HTD)是其中一项全新的任务定义形式.通过连续的大规模评测,话题识别与跟踪已成为国际上自然语言处理尤其是信息检索领域的一个研究热点.为此,将自然语言处理与信息检索技术相结合,提出了针对事件特点的切实有效的单粒度话题识别方法,并提出了基于多层聚类的MLCS算法对话题进行层次化组织.所提出的方法具有很好的效果,在TDT2004的HTD评测中,该方法取得了第2名的成绩. 展开更多
关键词 话题识别与跟踪 层次化话题识别 多层聚类 命名实体 指代消解
下载PDF
基于子话题分治匹配的新事件检测 被引量:26
7
作者 洪宇 张宇 +2 位作者 范基礼 刘挺 李生 《计算机学报》 EI CSCD 北大核心 2008年第4期687-695,共9页
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提... 新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859. 展开更多
关键词 新事件检测 话题检测与跟踪 子话题
下载PDF
一种突发性热点话题在线发现与跟踪方法 被引量:23
8
作者 薛峰 周亚东 +3 位作者 高峰 刘霁 赵俊舟 党琪 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第12期64-69,116,共7页
针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型———动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现... 针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型———动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现与跟踪方法.该方法可有效解决传统的基于静态向量空间模型的热点话题发现与跟踪方法仅可分析静态文本的缺陷,并具有以下特点:在特征选择阶段动态地生成热点词特征库,利用模型统一文本和话题的表示,在文本表示时给予突发性热点词更大的权重.基于实际网络文本流数据的实验表明,该方法对突发性热点话题发现的精确率与召回率分别达到92.75%和80.34%,显著优于传统的基于静态向量空间模型方法的实验结果,并可有效跟踪突发性热点话题,弥补了传统静态方法不能有效跟踪热点话题的不足. 展开更多
关键词 突发性热点话题 话题发现与跟踪 向量空间模型
下载PDF
一种基于动态进化模型的事件探测和追踪算法 被引量:58
9
作者 贾自艳 何清 +2 位作者 张海俊 李嘉佑 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2004年第7期1273-1280,共8页
在大量分析网络新闻特点的基础上 ,借鉴Single Pass聚类思想 ,并结合新闻要素给出了一种基于动态进化模型的事件探测和追踪算法 该动态模型是基于新闻事件的生存特点提出的 ,包括 :基于时间距离的相似度计算模型、事件模板进化策略以及... 在大量分析网络新闻特点的基础上 ,借鉴Single Pass聚类思想 ,并结合新闻要素给出了一种基于动态进化模型的事件探测和追踪算法 该动态模型是基于新闻事件的生存特点提出的 ,包括 :基于时间距离的相似度计算模型、事件模板进化策略以及动态阈值设置思想 该算法可以自动对新闻资料进行组织生成新闻专题 ,进而为用户提供个性化服务 展开更多
关键词 新闻事件 新闻专题 事件探测 事件追踪 聚类
下载PDF
层次化话题发现与跟踪方法及系统实现 被引量:11
10
作者 邱立坤 龙志祎 +1 位作者 钟华 程葳 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期157-160,共4页
自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因... 自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。 展开更多
关键词 话题发现与跟踪 层次化话题识别 层次化话题跟踪 多层聚类 事件结构
下载PDF
基于语义域语言模型的中文话题关联检测 被引量:19
11
作者 洪宇 张宇 +2 位作者 范基礼 刘挺 李生 《软件学报》 EI CSCD 北大核心 2008年第9期2265-2275,共11页
关联检测是话题检测与跟踪领域的基础性研究,其任务是检测任意新闻报道对是否论述同一话题.通过分析报道内容的结构关系和语义的分布规律,提出基于语义域语言模型的关联性检测方法,并在此基础上检验融入依存分析的语义描述策略对该模型... 关联检测是话题检测与跟踪领域的基础性研究,其任务是检测任意新闻报道对是否论述同一话题.通过分析报道内容的结构关系和语义的分布规律,提出基于语义域语言模型的关联性检测方法,并在此基础上检验融入依存分析的语义描述策略对该模型性能的影响.实验采用TDT4中文语料进行评测,结果显示语义域语言模型显著改进了现有检测系统的性能,其最小DET代价降低了约3个百分点. 展开更多
关键词 关联检测 话题检测与跟踪 语义域 语言模型 依存分析
下载PDF
社交媒体话题检测与追踪技术研究综述 被引量:18
12
作者 张仰森 段宇翔 +1 位作者 黄改娟 蒋玉茹 《中文信息学报》 CSCD 北大核心 2019年第7期1-10,30,共11页
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检... 随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。 展开更多
关键词 话题检测 话题追踪 聚类 主题模型
下载PDF
微博突发话题检测方法研究 被引量:13
13
作者 邱云飞 程亮 《计算机工程》 CAS CSCD 2012年第9期288-290,共3页
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义... 话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。 展开更多
关键词 微博 突发话题 滑动窗口 语义相似度 空间向量模型 话题检测与跟踪
下载PDF
话题发现与追踪技术研究 被引量:21
14
作者 张晓艳 王挺 《计算机科学与探索》 CSCD 2009年第4期347-357,共11页
话题发现与追踪以新闻流为处理对象,采用基于事件的信息组织方式进行研究,一直是自然语言处理领域里的热点。该研究借鉴大量相关研究尤其是信息检索中的经典模型和方法,取得了很大成功。首先介绍了话题发现与追踪的主要研究内容、评价... 话题发现与追踪以新闻流为处理对象,采用基于事件的信息组织方式进行研究,一直是自然语言处理领域里的热点。该研究借鉴大量相关研究尤其是信息检索中的经典模型和方法,取得了很大成功。首先介绍了话题发现与追踪的主要研究内容、评价方法以及发展历史;然后对其多个研究内容提出一个统一研究框架,并对该框架中的关键技术进行了详细分析;最后指出该领域中的关键问题及难点,并对未来研究做出展望。 展开更多
关键词 话题发现与追踪 统一研究框架 表示模型
下载PDF
话题检测与跟踪的评测及研究综述 被引量:153
15
作者 洪宇 张宇 +1 位作者 刘挺 李生 《中文信息学报》 CSCD 北大核心 2007年第6期71-87,共17页
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信... 话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。 展开更多
关键词 计算机应用 中文信息处理 综述 话题检测与跟踪 自然语言处理 事件 新闻报道
下载PDF
面向互联网新闻的在线话题检测算法 被引量:8
16
作者 程葳 龙志祎 《计算机工程》 CAS CSCD 北大核心 2009年第18期28-30,共3页
针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上... 针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试。结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14。 展开更多
关键词 在线话题检测 话题检测与跟踪 文本聚类
下载PDF
基于多策略优化的分治多层聚类算法的话题发现研究 被引量:38
17
作者 骆卫华 于满泉 +2 位作者 许洪波 王斌 程学旗 《中文信息学报》 CSCD 北大核心 2006年第1期29-36,共8页
话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分... 话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类再进行聚类,得到最终的话题,在聚类的过程中采用多种策略进行优化,以保证聚类的效果。基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一。 展开更多
关键词 计算机应用 中文信息处理 话题发现与跟踪 分治多层聚类 系统聚类
下载PDF
基于HowNet的话题跟踪及倾向性分类研究 被引量:21
18
作者 金珠 林鸿飞 赵晶 《情报学报》 CSSCI 北大核心 2005年第5期555-561,共7页
本文研究了如何基于信息检索技术和"知网"实现有效的话题跟踪和话题立场分类.话题跟踪任务就是给出话题相关的训练新闻报道,系统在后续报道中发现与这个话题相关的报道.它属于话题检测与跟踪的一项子任务.本文针对跟踪任务中... 本文研究了如何基于信息检索技术和"知网"实现有效的话题跟踪和话题立场分类.话题跟踪任务就是给出话题相关的训练新闻报道,系统在后续报道中发现与这个话题相关的报道.它属于话题检测与跟踪的一项子任务.本文针对跟踪任务中话题本身的特点,论述了权重调整、事件框架和报道扩充等多种提高跟踪性能的策略,同时基于"知网"中的情感体系和动态角色框架,提出了如何填充框架并结合建立的立场概念库对报道进行话题立场分类.实验证明这些方法是有效的. 展开更多
关键词 HOWNET 信息检索 话题跟踪 倾向性分类
下载PDF
基于增量主题模型的微博在线事件分析 被引量:5
19
作者 马慧芳 王博 《计算机工程》 CAS CSCD 2013年第3期191-196,共6页
为更好地利用微博结构化社会网络方面的信息,提出一种基于增量主题模型的微博在线事件分析算法。通过设计增量过程,保留已有的训练信息,采用自适应非对称学习算法融入新微博内容与用户关系。实验结果表明,该算法可在短暂的时间内建模,... 为更好地利用微博结构化社会网络方面的信息,提出一种基于增量主题模型的微博在线事件分析算法。通过设计增量过程,保留已有的训练信息,采用自适应非对称学习算法融入新微博内容与用户关系。实验结果表明,该算法可在短暂的时间内建模,并有效提高事件分析的性能。 展开更多
关键词 用户关系 话题检测与追踪 主题模型 自适应 增量概率 增量算法
下载PDF
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法 被引量:28
20
作者 税仪冬 瞿有利 黄厚宽 《北京交通大学学报》 CAS CSCD 北大核心 2009年第5期85-89,共5页
针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定... 针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定程度之后,对已经聚类的报道进行周期分类,使话题簇精度提高,从而提高后续话题识别与跟踪精度.实验表明这种方法是有效的,能够降低漏检率与错检率,减少归一化错误识别代价. 展开更多
关键词 话题识别与跟踪 增量聚类 文本分类 k-最近邻方法分类
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部