期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
1
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
下载PDF
基于文本摘要的无监督关键词抽取方法
2
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
下载PDF
基于动态主题模型融合多维数据的微博社区发现算法 被引量:25
3
作者 刘冰玉 王翠荣 +3 位作者 王聪 王军伟 王兴伟 黄敏 《软件学报》 EI CSCD 北大核心 2017年第2期246-261,共16页
随着微博用户的不断增加,微博网络已成为用户进行信息交流的平台.针对由于博文长度受限,传统的社区发现算法无法有效解决微博网络的稀疏性等问题,提出了DC-DTM(discovery community by dynamic topic model)算法.DC-DTM算法首先将微博... 随着微博用户的不断增加,微博网络已成为用户进行信息交流的平台.针对由于博文长度受限,传统的社区发现算法无法有效解决微博网络的稀疏性等问题,提出了DC-DTM(discovery community by dynamic topic model)算法.DC-DTM算法首先将微博网络映射为有向加权网络,网络中边的方向反映节点之间的关注关系,利用所提出的DTM(dynamic topic model)计算出节点之间的语义相似度,并将其作为节点间连边的权重.DTM是一种微博主题模型.该模型不仅能够挖掘博客的主题分布,而且能够计算出某一主题中用户的影响力大小.其次,利用所提出的复杂度较低的标签传播算法WLPA(weighted lebel propagation)进行微博网络的社区发现.该算法的初始化阶段将影响力大的用户节点作为初始节点,标签按照节点的影响力从大到小进行传播,避免了传统标签传播算法逆流现象的发生,提高了标签传播算法的稳定性.真实数据上的实验结果表明,DTM模型能够很好地对微博进行主题挖掘,DC-DTM算法能够有效地挖掘出微博网络的社区. 展开更多
关键词 新浪微博 文本挖掘 DC-DTM 吉布斯采样 LDA 主题模型
下载PDF
基于关键词抽取的微博舆情事件内容聚合 被引量:17
4
作者 周鹏 蔡淑琴 +1 位作者 石双元 王伟 《情报杂志》 CSSCI 北大核心 2014年第1期91-96,共6页
微博舆情事件会带来严重后果,而碎片化和无序化使得难以从海量的微博内容中全面地认知微博舆情事件的全貌。从微博舆情事件内容聚合出其主要内容具有重要实践价值和研究价值。基于关键词抽取技术KEA提出了一种微博舆情事件内容聚合方法... 微博舆情事件会带来严重后果,而碎片化和无序化使得难以从海量的微博内容中全面地认知微博舆情事件的全貌。从微博舆情事件内容聚合出其主要内容具有重要实践价值和研究价值。基于关键词抽取技术KEA提出了一种微博舆情事件内容聚合方法。根据对微博内容篇幅、规范性和网络性的分析,增加中心度特征、词性特征和改进词位置特征,并以朴素贝叶斯分类器抽取关键词集作为聚合输出。最后通过现实微博平台上的内容聚合实验证明本研究所提方法相对基线方法在准确率和召回率上的优势。 展开更多
关键词 微博 舆情事件 文本挖掘 抽取 KEA算法 朴素贝叶斯模型
下载PDF
基于热度矩阵的微博热点话题发现 被引量:9
5
作者 聂文汇 曾承 贾大文 《计算机工程》 CAS CSCD 北大核心 2017年第2期57-62,共6页
现有微博热点话题发现模型对微博数量规模较敏感,发现速度较慢。为此,提出一种基于热度矩阵的主题模型。通过热度矩阵获取各潜在主题的热度和主题-词概率分布,并以词间的共有热度来挖掘其语义关系,进而准确识别数据中的热点话题及热点... 现有微博热点话题发现模型对微博数量规模较敏感,发现速度较慢。为此,提出一种基于热度矩阵的主题模型。通过热度矩阵获取各潜在主题的热度和主题-词概率分布,并以词间的共有热度来挖掘其语义关系,进而准确识别数据中的热点话题及热点词汇。在真实微博数据上的实验结果表明,与潜在狄利克雷分布模型相比,该模型的效率和准确率较高,发现的热点话题与实时事件保持一致,具有较好的热点识别效果。 展开更多
关键词 热度矩阵 主题模型 微博 话题发现 文本挖掘
下载PDF
基于主题模型的微博重要话题发现与排序方法 被引量:12
6
作者 姜晓伟 王建民 丁贵广 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期179-185,共7页
近年来,以Twitter和新浪微博为代表的微博客正在世界范围内流行起来.根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法.首先,在互联网上收集并格式化出现了感兴趣的词的微博.对于这些微博中的所有词汇,综... 近年来,以Twitter和新浪微博为代表的微博客正在世界范围内流行起来.根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法.首先,在互联网上收集并格式化出现了感兴趣的词的微博.对于这些微博中的所有词汇,综合考虑影响力、突发性和相关性3个要素对其重要性进行评估.其次,对词的重要性做出估量后,以含有同一关键词的微博的集合为输入文档训练LDA模型.然后通过对主题关键词的概率分布的推导,实现词的聚类和主题的挖掘.这一方法可以克服微博的长度限制所带来的数据稀缺性问题.最后,通过真实数据集上的实验表明了该方法的有效性. 展开更多
关键词 微博客 关键词排序 主题发现 LDA 主题模型 文本挖掘
下载PDF
基于改进LDA的水电工程进度管理文本智能分析 被引量:6
7
作者 李明超 吕沅庚 +1 位作者 田丹 沈扬 《水力发电学报》 CSCD 北大核心 2022年第3期133-141,共9页
进度控制是水电工程管理的重要任务,及时总结进度管理信息有助于工程进度计划的制定与调整。水电工程建设中的进度信息多以半结构化、非结构化的文本形式呈现,增加了信息提取难度,实现水电工程进度文本信息自动化与智能化挖掘是当前亟... 进度控制是水电工程管理的重要任务,及时总结进度管理信息有助于工程进度计划的制定与调整。水电工程建设中的进度信息多以半结构化、非结构化的文本形式呈现,增加了信息提取难度,实现水电工程进度文本信息自动化与智能化挖掘是当前亟待解决的问题。本文提出基于改进LDA的水电工程进度信息智能提取方法,智能提取进度管理文本中的关键信息。该方法基于传统LDA模型针对吉布斯采样机制,充分考虑词语间的关联关系,将原有随机单个采样过程改进为以共现度为基准的词对采样,强化了词语间的语义关联,提高了主题词语间的紧密性以及主题词语对主题描述的准确性。将所提出的方法应用于实际水电工程,对221份水电工程施工监理周报进行分析,共提取12个主题的工序关键词,并依照计算结果提取出主副工序;结果表明,改进LDA主题模型在水电工程进度文本工序特征词提取效果优于传统LDA主题模型,有助于提高工程施工进度关键工序词提取与信息挖掘效率,为水电工程施工智能化管理提供了新的手段。 展开更多
关键词 水电工程 施工进度 关键词提取 改进LDA主题模型 共现度 文本智能分析
下载PDF
基于BERT和LightGBM的文本关键词提取方法 被引量:5
8
作者 何传鹏 尹玲 +4 位作者 黄勃 王明胜 郭茹燕 张帅 巨家骥 《电子科技》 2023年第3期7-13,共7页
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选... 传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。 展开更多
关键词 主题模型 词向量 BERT LightGBM 候选关键词 关键词提取 文本主题 关键词
下载PDF
Portraying User Life Status from Microblogging Posts 被引量:1
9
作者 Jiayu Tang Zhiyuan Liu +1 位作者 Maosong Sun Jiahua Liu 《Tsinghua Science and Technology》 SCIE EI CAS 2013年第2期182-195,共14页
Microblogging services nformation and express opinions pro by vide a novel and popular communication scheme for Web users to share publishing short posts, which usually reflect the users' daily life. We can thus mode... Microblogging services nformation and express opinions pro by vide a novel and popular communication scheme for Web users to share publishing short posts, which usually reflect the users' daily life. We can thus model the users' daily status and interests according to their posts. Because of the high complexity and the large amount of the content of the microblog users' posts, it is necessary to provide a quick summary of the users' life status, both for personal users and commercial services. It is non-trivial to summarize the life status of microblog users, particularly when the summary is conducted over a long period. In this paper, we present a compact interactive visualization prototype, LifeCircle, as an efficient summary for exploring the long-term life status of microblog users. The radial visualization provides multiple views for a given microblog user, including annual topics, monthly keywords, monthly sentiments, and temporal trends of posts. We tightly integrate interactive visualization with novel and state-of-the-art microblogging analytics to maximize their advantages. We implement LifeCircle on Sina Weibo, the most popular microblogging service in China, and illustrate the effectiveness of our prototype with various case studies. Results show that our prototype makes users nostalgic and makes them reminiscent about past events, which helps them to better understand themselves and others 展开更多
关键词 text visualization microblogGING topic model sentiment analysis keyword extraction
原文传递
基于隐主题分析和文本聚类的微博客中新闻话题的发现 被引量:67
10
作者 路荣 项亮 +1 位作者 刘明荣 杨青 《模式识别与人工智能》 EI CSCD 北大核心 2012年第3期382-387,共6页
提出一种在大规模微博客短文本数据集上发现新闻话题的方法.利用隐主题分析技术,解决短文本相似度度量的问题.在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对... 提出一种在大规模微博客短文本数据集上发现新闻话题的方法.利用隐主题分析技术,解决短文本相似度度量的问题.在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题.此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题.实验证明该算法的有效性. 展开更多
关键词 微博客 短文本 隐主题模型 话题发现 混合聚类
原文传递
基于潜在语义分析的微博主题挖掘模型研究 被引量:31
11
作者 唐晓波 王洪艳 《图书情报工作》 CSSCI 北大核心 2012年第24期114-119,共6页
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Alloca-tion)进行微博主题挖掘,并在LD... 为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Alloca-tion)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。 展开更多
关键词 微博 短文本 主题挖掘 LDA模型 增量聚类
原文传递
统计模型在中文文本挖掘中的应用 被引量:14
12
作者 王健 张俊妮 《数理统计与管理》 CSSCI 北大核心 2017年第4期609-619,共11页
本文讨论了中文文本挖掘的三个问题:分词、关键词提取和文本分类。对分词问题,介绍了基于层叠隐马尔可夫模型的ICTCLAS分词法,以及将词与词之间的分隔视为缺失数据并用EM算法求解的WDM方法;对关键词提取问题,提出了贝叶斯因子法,并介绍... 本文讨论了中文文本挖掘的三个问题:分词、关键词提取和文本分类。对分词问题,介绍了基于层叠隐马尔可夫模型的ICTCLAS分词法,以及将词与词之间的分隔视为缺失数据并用EM算法求解的WDM方法;对关键词提取问题,提出了贝叶斯因子法,并介绍了使用稀疏回归的CCS方法;对文本分类问题,介绍了根据关键词频率建立分类器的方法,以及先建立主题模型再根据主题概率建立分类器的方法。本文通过两组文本数据对上述方法进行比较,并给出使用建议。 展开更多
关键词 中文分词 关键词提取 文本分类 贝叶斯因子 L1范数惩罚 主题模型
原文传递
面向微博话题的“主题+观点”词条抽取算法研究 被引量:6
13
作者 姚兆旭 马静 《现代图书情报技术》 CSSCI 2016年第7期78-86,共9页
【目的】自动抽取微博话题信息,从主题及观点两个维度整合揭示微博话题内容与观点。【方法】将主题模型应用于微博话题中,结合改进的TF-IDF算法,构建主题特征词向量;基于特征词向量中特征词之间的相关度,自动抽取主题词汇链;引入情感词... 【目的】自动抽取微博话题信息,从主题及观点两个维度整合揭示微博话题内容与观点。【方法】将主题模型应用于微博话题中,结合改进的TF-IDF算法,构建主题特征词向量;基于特征词向量中特征词之间的相关度,自动抽取主题词汇链;引入情感词典,抽取主题观点,无监督构建"主题+观点"词条。【结果】使用爬虫工具抽取2014年6月–2015年6月期间4个特定热门微博话题事件的微博共24 598条,抽取"主题+观点"词条,平均准确率达到80.3%,召回率为76.7%。【局限】数据量依旧较小,主题模型对于微博短文本的特征抽取效果仍需提高。【结论】本文算法可以准确且有效地描述话题事件内容及其相应观点。 展开更多
关键词 义本挖掘 词条抽取 主题模型 微博话题
原文传递
基于隐含狄利克雷分布的文本主题提取对比研究 被引量:21
14
作者 王静茹 陈震 《情报科学》 CSSCI 北大核心 2018年第1期102-107,共6页
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/过程】本文提出了一种基于LDA模型... 【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。 展开更多
关键词 文本挖掘 LDA模型 主题提取效果 评价方法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部