期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于OLDA的热点话题演化跟踪模型 被引量:18
1
作者 陈兴蜀 高悦 +3 位作者 江浩 杜敏 王海舟 何建云 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第5期130-136,共7页
为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现... 为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现的热点话题,文中提出了基于在线LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态.实验结果表明,HTOLDA模型对各个时间片的论坛数据集的建模能力优于OLDA模型,并能够有效地对论坛中的热点话题进行演化跟踪. 展开更多
关键词 文本处理 lda话题模型 话题演化 话题跟踪 HTOlda话题模型
下载PDF
垃圾邮件处理中LDA特征选择方法 被引量:1
2
作者 袁伯秋 周一民 李林 《计算机工程与应用》 CSCD 北大核心 2009年第25期121-124,共4页
垃圾邮件处理是一项长期研究课题,越来越多的文本分类技术被移植到垃圾邮件处理应用当中。LDA(Latent Dirichlet Allocation)等topic模型在自动摘要、信息获取和其他离散数据应用中受到越来越多的关注。将LDA模型作为一种特征选择方法,... 垃圾邮件处理是一项长期研究课题,越来越多的文本分类技术被移植到垃圾邮件处理应用当中。LDA(Latent Dirichlet Allocation)等topic模型在自动摘要、信息获取和其他离散数据应用中受到越来越多的关注。将LDA模型作为一种特征选择方法,引入垃圾邮件处理应用中。将LDA特征选择方法与质心+KNN分类器结合,得到简单的测试用垃圾邮件过滤器。初步实验结果表明,基于LDA的特征选择方法优于通常的IG、MI特征选择方法;测试过滤器的过滤性能与其他过滤器相当。 展开更多
关键词 垃圾邮件过滤 一种话题模型(lda) 特征选择
下载PDF
基于百度贴吧的HIV高危人群特征分析 被引量:1
3
作者 肖时耀 吕慰 +6 位作者 陈洒然 秦烁 黄格 蔡梦思 谭跃进 谭旭 吕欣 《大数据》 2019年第1期98-108,共11页
对百度贴吧"恐艾吧"中在线高危人群的帖子内容、线上活动时间规律进行了分析,利用LDA话题模型,对比分析了有无HIV感染者参与的主贴讨论的话题之间的差异,使用基于关键词的机器学习方法区分了在"恐艾吧"中发布话题... 对百度贴吧"恐艾吧"中在线高危人群的帖子内容、线上活动时间规律进行了分析,利用LDA话题模型,对比分析了有无HIV感染者参与的主贴讨论的话题之间的差异,使用基于关键词的机器学习方法区分了在"恐艾吧"中发布话题的用户的性取向,计算不同性取向人群中HIV的流行率。研究结果说明,使用在线数据挖掘的技术和方法比传统方法更加高效,可以作为高危人群研究的重要补充。此外,基于机器学习对人群性取向进行智能判别,对于公共卫生管理部门监测疫情在不同人群中的发展状况有重要意义。 展开更多
关键词 在线高危人群 男同性恋 HIV lda话题模型 百度贴吧 机器学习
下载PDF
基于跨媒体数据的反腐多视角分析 被引量:3
4
作者 苑鹏佳 唐锡晋 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2017年第7期1833-1841,共9页
腐败严重影响社会发展和民众信心,本文获取中纪委反腐通告、"天涯杂谈"新发帖和"百度热搜新闻词"三种不同来源的互联网文本语料从多个视角分析十八大以来的反腐成果.使用LDA话题模型探测不同语料中的反腐话题,并对... 腐败严重影响社会发展和民众信心,本文获取中纪委反腐通告、"天涯杂谈"新发帖和"百度热搜新闻词"三种不同来源的互联网文本语料从多个视角分析十八大以来的反腐成果.使用LDA话题模型探测不同语料中的反腐话题,并对语料的时空特性进行分析,通过官员履历构建"官员共职网络"探索腐败官员团伙并结合时间、级别和领域信息分析高级别官员的反腐策略.结果表明,腐败官员相关的不同语料的时空分布不同且涉及的腐败相关话题的重点不同,"官员共职网络"对于研究腐败官员的复杂关系具有重要意义. 展开更多
关键词 反腐 腐败团伙 天涯论坛 百度热搜新闻词 lda话题模型 社会网络分析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部