-
题名基于DMA与特征划分的多源文本主题模型
被引量:2
- 1
-
-
作者
许伟佳
秦永彬
黄瑞章
陈艳平
-
机构
贵州大学计算机科学与技术学院
公共大数据国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第7期59-66,共8页
-
基金
国家自然科学基金联合基金重点项目(U1836205)
国家自然科学基金重大研究计划项目(91746116)
+1 种基金
贵州省科技厅重大专项(黔科合重大专项字2017-3002号)
贵州省科学技术基金重点项目(黔科合基础2020-1Z055号)。
-
文摘
针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题,设计一种基于狄利克雷多项式分配(DMA)与特征划分的多源文本主题模型。以DMA模型为基础,放宽对预先输入的主题数量的限制,为每个数据源分配专有的主题分布参数,使用Gibbs采样算法估计每个数据源的主题数量。同时,对每个数据源分配专有的噪音词分布参数以及主题-词分布参数,采用特征划分方法区分每个数据源的特征词和噪音词,并学习每个数据源的用词特征,避免噪音词集对模型聚类的干扰。实验结果表明,与传统主题模型相比,该模型能够保留每个数据源特有的词特征,具有更好的主题发现效果及鲁棒性。
-
关键词
多源文本主题模型
文本聚类
狄利克雷多项分配
特征划分
GIBBS采样
-
Keywords
multi-source text topic model
text clustering
dirichlet multinomial allocation(dma)
feature division
Gibbs sampling
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种面向词汇突发的连续时间主题模型
被引量:6
- 2
-
-
作者
刘良选
黄梦醒
-
机构
海南大学信息科学技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第11期195-201,共7页
-
基金
国家自然科学基金(61462022)
-
文摘
针对传统基于多项式分布的主题模型不能较好地刻画文档中词汇突发的现象,综合考虑文本集固有的时间信息,提出一种面向词汇突发的Dirichlet组合多项式(DCM)连续时间主题模型。采用DCM分布对文本集中的词汇突发现象进行建模,利用Beta分布刻画文本集中的时间特征,通过Gibbs采样和不动点迭代法实现模型参数的估计。实验结果表明,在预设主题数目较少的情况下,与To T和DCMLDA模型相比,该模型具有明显的泛化性能优势,并且可以有效揭示出文本集中潜在的主题演化趋势。
-
关键词
主题模型
潜在dirichlet分配
词汇突发
dirichlet组合多项式
GIBBS采样
不动点迭代法
-
Keywords
topic model
Latent dirichlet allocation (LDA)
word burstiness
dirichlet Compound multinomial (DCM)
Gibbs sampling
fixed-point iteration method
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于狄利克雷多项分配模型的多源文本主题挖掘模型
被引量:1
- 3
-
-
作者
徐立洋
黄瑞章
陈艳平
钱志森
黎万英
-
机构
贵州大学计算机科学与技术学院
贵州省公共大数据重点实验室(贵州大学)
计算机软件新技术国家重点实验室(南京大学)
-
出处
《计算机应用》
CSCD
北大核心
2018年第11期3094-3099,3104,共7页
-
基金
国家自然科学基金资助项目(61462011)
国家自然科学基金重大研究计划项目(91746116)
+2 种基金
贵州省重大应用基础研究项目(黔科合JZ字[2014]2001)
贵州省科技重大专项计划项目(黔科合重大专项字[2017]3002)
贵州省自然科学基金资助项目(黔科合基础[2018]1035)~~
-
文摘
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。
-
关键词
多源文本数据
主题模型
吉布斯采样
狄利克雷多项分配模型
文本挖掘
-
Keywords
multi-source text data
topic model
blocked-Gibbs sampling
dirichlet multinomial allocation(dma)
text mining
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名主题模型在短文本上的应用研究
被引量:1
- 4
-
-
作者
韩肖赟
侯再恩
孙绵
-
机构
陕西科技大学文理学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2020年第1期144-152,共9页
-
基金
国家自然科学基金(11771259)
-
文摘
针对短文本上以LDA为主的传统主题模型易受特征稀疏、噪声以及冗余影响的问题,首先梳理了文本特征表示法的变化以及短文本上主题模型的发展现状,并系统地总结了LDA模型和狄利克雷多项混合模型(DMM)各自的生成过程和相应的吉布斯采样参数推导。关于主题模型最优主题数,选取常见的4种优化指标进行了详细的对比说明。最后分析了近2年主题模型的扩展研究和其在网络舆情上的简单应用,并以此指明了未来主题模型的研究方向和侧重点。
-
关键词
潜在狄利克雷分配模型
狄利克雷多项混合模型
短文本
主题模型
网络舆情
吉布斯采样
-
Keywords
latent dirichlet allocation(LDA)model
dirichlet multinomial mixture(DMM)model
short text
topic model
internet public opinion
Gibbs sampling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-