期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于PTM潜在Dirichlet分配的少量标记样本文本分类 被引量:2
1
作者 赵丽 齐兴斌 +1 位作者 李雪梅 田涛 《计算机应用研究》 CSCD 北大核心 2015年第5期1428-1432,1444,共6页
针对现实文本分类环境下通常仅有少量标记样本而影响分类精度的问题,提出了一种基于概率主题模型潜在Dirichlet分配的分类算法。借助标准词频逆文档频率函数将每个文档表示成术语权重向量;利用概率主题模型预处理以简化文档,并从文档中... 针对现实文本分类环境下通常仅有少量标记样本而影响分类精度的问题,提出了一种基于概率主题模型潜在Dirichlet分配的分类算法。借助标准词频逆文档频率函数将每个文档表示成术语权重向量;利用概率主题模型预处理以简化文档,并从文档中提取术语;再利用潜在Dirichlet分配模型进行关系学习,构建基于图的分类器完成分类。在公开的Reuters-21578资源库上的分类实验评估了该方法的有效性,相比分类效果较好的支持向量机,该方法在大部分情况下能够取得更高的分类精度。 展开更多
关键词 文本分类 术语提取 图构建 概率主题模型 少量标记样本 在dirichlet分配
下载PDF
基于潜在Dirichlet分布的图像分层表示模型
2
作者 贾振华 斯庆巴拉 《模式识别与人工智能》 EI CSCD 北大核心 2013年第12期1146-1153,共8页
现有的图像分层表示方法严格局限于前馈型方式,不能较好地解决局部模糊性等问题.基于此,文中提出一种学习和推断层次结构所有分层的概率模型,它考虑递归的概率分解过程,通过推导得到金字塔式多层结构的潜在Dirichlet分布的衍生模型.该... 现有的图像分层表示方法严格局限于前馈型方式,不能较好地解决局部模糊性等问题.基于此,文中提出一种学习和推断层次结构所有分层的概率模型,它考虑递归的概率分解过程,通过推导得到金字塔式多层结构的潜在Dirichlet分布的衍生模型.该模型存在两个重要特性:增加表示层可提高平面模型的性能;采用全Bayesian概率方法优于其前馈型实现形式.在标准识别数据集上的实验结果表明,与现有的分层表示方法相比,该模型表现出较好性能. 展开更多
关键词 图像分层表示 前馈 概率模型 在dirichlet分布(lda)
下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
3
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 潜在狄利克雷分配(lda)模型 GIBBS抽样 多关系主题
下载PDF
潜在狄利克雷分配模型在网络日志的应用
4
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 潜在狄利克雷分配(lda)模型 URL 分类
下载PDF
基于LDA模型的音乐推荐算法 被引量:15
5
作者 李博 陈志刚 +1 位作者 黄瑞 郑祥云 《计算机工程》 CAS CSCD 北大核心 2016年第6期175-179,184,共6页
互联网的普及以及音乐资源的电子化使得人们可以更方便地获得音乐资源。但随着音乐库变得越来越大、资源越来越丰富,人们已经很难准确及时地找到自己喜欢的音乐。因此,对于音乐网站而言,需要一个合适的音乐推荐算法向用户推荐音乐。根... 互联网的普及以及音乐资源的电子化使得人们可以更方便地获得音乐资源。但随着音乐库变得越来越大、资源越来越丰富,人们已经很难准确及时地找到自己喜欢的音乐。因此,对于音乐网站而言,需要一个合适的音乐推荐算法向用户推荐音乐。根据已有的基于音频信息的音乐推荐以及协同过滤方法,分析用户的音乐试听数据以及下载数据,并结合Latent Dirichlet分配(LDA)主题挖掘模型,提出一种音乐推荐算法。实验结果表明,与基于用户的协同过滤算法以及基于项目的协同过滤算法相比,该算法可以更加高效地向用户推荐感兴趣的音乐。 展开更多
关键词 协同过滤 音乐推荐 主题挖掘 LATENT dirichlet分配模型 吉布斯抽样 基于lda模型的音乐推荐
下载PDF
基于LDA模型的文本分类研究 被引量:56
6
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 潜在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
下载PDF
主题模型自动标记方法研究综述
7
作者 何东彬 陶莎 +2 位作者 朱艳红 任延昭 褚云霞 《计算机科学与探索》 CSCD 北大核心 2023年第12期2861-2879,共19页
主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题... 主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题提供了方法和思路。首先对当前最为流行的狄利克雷分配主题模型进行阐述与分析,并根据主题标签三种不同表现形式,基于短语、摘要和图片,将主题标记方法分为三种类型;之后围绕提高主题的可解释性,以生成的不同类型主题标签为线索,对近年来的相关研究成果进行梳理、分析和总结,并对不同标签的适用情境和可用性进行探讨;同时根据不同方法的特点进一步分类,重点对基于词法、子模优化和图排序方法生成摘要主题标签进行定量和定性分析,从学习类型、使用技术和数据来源出发,对比不同方法的差异;最后对主题自动标记研究存在的问题和趋势发展进行讨论,基于深度学习、与情感分析结合并不断拓展主题标记应用的场景,将是未来发展的重点和方向。 展开更多
关键词 主题模型 潜在狄利克雷分配(lda) 主题标记 主题标签
下载PDF
LDA模型在红酒数据关系挖掘中的应用研究
8
作者 朱泓臻 陈平华 蔡桂兰 《计算机工程与应用》 CSCD 北大核心 2019年第4期148-153,199,共7页
为了调查食品尤其是包含复合香气的食品(如葡萄酒和酒精饮料等)中的气味活性化合物的构成机理,提出了一种将LDA模型应用于红酒气味与化学分子关系挖掘的方法。该方法在红酒风味数据集上,将红酒看作文档,气味和化学分子看作词语,通过LDA... 为了调查食品尤其是包含复合香气的食品(如葡萄酒和酒精饮料等)中的气味活性化合物的构成机理,提出了一种将LDA模型应用于红酒气味与化学分子关系挖掘的方法。该方法在红酒风味数据集上,将红酒看作文档,气味和化学分子看作词语,通过LDA主题模型挖掘隐含的红酒特征;根据红酒与化学分子在红酒中的分布进行聚类,并结合Apriori算法进行关联分析,最终找出气味与化学分子之间的关系,为设计一个能够通过测试化学分子识别食品气味的电子鼻打下基础。实验数据由法国南特大学Oniris气味实验室提供,实验结果部分地证实了将LDA模型应用于红酒气味与化学分子关系挖掘的可行性。 展开更多
关键词 在dirichlet分配(lda) 红酒气味 红酒分子式
下载PDF
基于LDA主题模型的智慧社区新闻文本分析 被引量:3
9
作者 李一鸣 叶中华 《科技和产业》 2022年第8期116-122,共7页
智慧社区建设方兴未艾,是社区治理现代化的重要内容。运用潜在狄利克雷分配(LDA)主题模型法,对2015—2021年智慧社区新闻报道进行主题研究,全面展现中国智慧社区的实践现状、重要主体和治理模式。研究发现:“党建+网格化”治理模式是中... 智慧社区建设方兴未艾,是社区治理现代化的重要内容。运用潜在狄利克雷分配(LDA)主题模型法,对2015—2021年智慧社区新闻报道进行主题研究,全面展现中国智慧社区的实践现状、重要主体和治理模式。研究发现:“党建+网格化”治理模式是中国智慧社区建设重要制度支撑;治安和养老医疗是智慧社区服务发展的重要内容;疫情防控刺激了以政府主导、企业支撑为特征的智慧社区建设。 展开更多
关键词 智慧社区 潜在狄利克雷分配(lda)主题模型 新闻文本
下载PDF
基于LDA模型的聚类检索应用 被引量:1
10
作者 宿青 《中国新通信》 2017年第5期39-40,共2页
搜索算法可以将文档主题模型具体化成信息检索。举个例子,自60年代以来,基于集群的检索研究最近在语言模型框架方面有了较好的研究成果。一种潜在狄利克雷分配(LDA)基于正式的文件生成模型的建立问题模型的方法,在机器学习的文献中被大... 搜索算法可以将文档主题模型具体化成信息检索。举个例子,自60年代以来,基于集群的检索研究最近在语言模型框架方面有了较好的研究成果。一种潜在狄利克雷分配(LDA)基于正式的文件生成模型的建立问题模型的方法,在机器学习的文献中被大量引用,但在信息检索中的可行性和有效性仍是未知的。在本文中,我们研究如何有效地使用LDA提高特设检索。我们提出的语言模型框架,一个基于LDA的文档模型,并评估它在几个TREC集合。吉布斯抽样法进行近似推理和计算复杂度的分析。我们发现,改进使用基于集群的模型检索,可以得到合理的效率。 展开更多
关键词 信息检索 语言模型 潜在狄利克雷分配(lda) 话题模型 文档模型
下载PDF
基于词嵌入的科研主题排序研究
11
作者 何东彬 陶莎 +1 位作者 任延昭 朱艳红 《北方工业大学学报》 2024年第1期136-149,共14页
为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实... 为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义。针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中。实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法。 展开更多
关键词 主题模型 潜在狄利克雷分配(lda) 主题排序 科研主题 词嵌入
下载PDF
基于LDA的煤矿安全隐患主题发现研究 被引量:17
12
作者 谭章禄 王泽 陈晓 《中国安全科学学报》 CAS CSCD 北大核心 2016年第6期123-128,共6页
为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,... 为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,最终优选出14个安全隐患主题;采用桑基图揭示隐患主题与责任主体、隐患致因之间的关系。结果表明:LDA主题模型能较好揭示煤矿安全隐患数据中的潜在规律,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。 展开更多
关键词 煤矿隐患 潜在狄利克雷分配模型(lda) Gibbs抽样算法 词云 桑基图
下载PDF
融合DSTM和USTM方法的主题模型 被引量:1
13
作者 江雨燕 李平 +1 位作者 王清 李常训 《计算机科学与探索》 CSCD 2014年第5期630-639,共10页
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然... 当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author&reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。 展开更多
关键词 隐藏狄利克雷分配(lda) 监督主题模型 文档聚类 作者预测 LATENT dirichlet allocation (lda)
下载PDF
在线增量标签主题模型 被引量:1
14
作者 陈永恒 左祥麟 林耀进 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第5期992-998,共7页
将文本之间存在的时序关联性元信息和文档的标签信息,引入到隐藏Dirichlet分配模型中,提出一种在线增量标签主题(on-line labeled incremental topic model,OLT)模型.首先,在线增量标签主题模型优化了文本标签元信息与主题之间的映射关... 将文本之间存在的时序关联性元信息和文档的标签信息,引入到隐藏Dirichlet分配模型中,提出一种在线增量标签主题(on-line labeled incremental topic model,OLT)模型.首先,在线增量标签主题模型优化了文本标签元信息与主题之间的映射关系;其次,利用动态字典增加了模型与文本的拟合程度.该模型优化了先验分布超参数迁移计算的连续性,解决了隐藏Dirichlet分配(LDA)模型不能利用文本属性与主题之间的相关性进行主题发现及演变分析的问题.实验结果表明,所提出的在线增量标签主题模型能显著改善多标签判别精度,提高模型的泛化能力并提升模型的运行性能. 展开更多
关键词 信息处理 隐藏dirichlet分配(lda)模型 自然语言处理 主题模型
下载PDF
一种面向词汇突发的连续时间主题模型 被引量:6
15
作者 刘良选 黄梦醒 《计算机工程》 CAS CSCD 北大核心 2016年第11期195-201,共7页
针对传统基于多项式分布的主题模型不能较好地刻画文档中词汇突发的现象,综合考虑文本集固有的时间信息,提出一种面向词汇突发的Dirichlet组合多项式(DCM)连续时间主题模型。采用DCM分布对文本集中的词汇突发现象进行建模,利用Beta分布... 针对传统基于多项式分布的主题模型不能较好地刻画文档中词汇突发的现象,综合考虑文本集固有的时间信息,提出一种面向词汇突发的Dirichlet组合多项式(DCM)连续时间主题模型。采用DCM分布对文本集中的词汇突发现象进行建模,利用Beta分布刻画文本集中的时间特征,通过Gibbs采样和不动点迭代法实现模型参数的估计。实验结果表明,在预设主题数目较少的情况下,与To T和DCMLDA模型相比,该模型具有明显的泛化性能优势,并且可以有效揭示出文本集中潜在的主题演化趋势。 展开更多
关键词 主题模型 在dirichlet分配 词汇突发 dirichlet组合多项式 GIBBS采样 不动点迭代法
下载PDF
应对百年未有之大变局的中国经济研究热点及合作网络分析
16
作者 王正芳 张军亮 +2 位作者 刘喜文 李小倩 杜文豪 《科技和产业》 2023年第21期21-30,共10页
运用潜在狄利克雷分配(LDA)模型对中国知网“百年未有之大变局的中国经济”专题库里的文献摘要进行主题挖掘,同时借助社会网络分析对发文机构合作网络的关系特征与位置特征进行分析。结果表明:研究主题丰富,研究内容与时俱进,研究方法... 运用潜在狄利克雷分配(LDA)模型对中国知网“百年未有之大变局的中国经济”专题库里的文献摘要进行主题挖掘,同时借助社会网络分析对发文机构合作网络的关系特征与位置特征进行分析。结果表明:研究主题丰富,研究内容与时俱进,研究方法多采用客观数据开展影响因素、作用效应及发展路径等内容的实证分析;存有5个核心机构,机构合作不足且相对封闭,产学政研合作不够深入,整体呈现出“小聚集、大分散”特点。基于此,未来中国经济研究可以从开展前瞻性研究、均衡研究注意力以及加强多元主体合作3方面进行展望。 展开更多
关键词 主题挖掘 潜在狄利克雷分配(lda)主题模型 社会网络分析 热点趋势
下载PDF
基于主题和链接分析的微博社区发现算法 被引量:28
17
作者 闫光辉 舒昕 +1 位作者 马志程 李祥 《计算机应用研究》 CSCD 北大核心 2013年第7期1953-1957,共5页
针对传统社区发现方法大多基于链接或主题关系,且没有考虑获取微博用户社会信息时的限制,无法有效识别微博中多个社区的问题,提出了一种综合基于主题和链接分析的微博社区发现算法来挖掘微博中多个社区。算法首先研究微博用户的链接及... 针对传统社区发现方法大多基于链接或主题关系,且没有考虑获取微博用户社会信息时的限制,无法有效识别微博中多个社区的问题,提出了一种综合基于主题和链接分析的微博社区发现算法来挖掘微博中多个社区。算法首先研究微博用户的链接及博文主题特性,定义了链接相关度和主题相关度公式;然后推出用户总相关度公式,以此来计算节点间的传递概率,用改进后的标签传递算法对用户分类;最终划分出兴趣相似且社会联系紧密的用户群。真实数据集上的仿真实验验证了该方法的合理性和有效性。 展开更多
关键词 微博 社区发现 dirichlet分配 主题模型 链接分析 标签传递算法
下载PDF
基于社群隐含主题挖掘和多社群信息融合的自动图像标注 被引量:6
18
作者 陈烨 邵健 朱科 《中国图象图形学报》 CSCD 北大核心 2010年第6期944-950,共7页
在Flickr图像共享网站上,大量无标签或者缺少标签的图像往往会因为标签信息的不完整,以致无法被有效地利用和检索。为了有效地进行图像检索,从Flickr用户经常会根据上传图像所隐含的主题而将其推荐到多个相关社群的特点出发,提出了一种... 在Flickr图像共享网站上,大量无标签或者缺少标签的图像往往会因为标签信息的不完整,以致无法被有效地利用和检索。为了有效地进行图像检索,从Flickr用户经常会根据上传图像所隐含的主题而将其推荐到多个相关社群的特点出发,提出了一种新颖的基于社群隐含主题挖掘和多社群信息融合的自动图像标注算法。与传统的自动图像标注方法不同,该算法首先采用隐Dirichlet分配模型(latent Dirichlet allocation,LDA)对单个社群里的隐含主题(topic)进行挖掘,并利用隐含主题对由相似图像标签传播产生的初始"噪音"标签进行过滤;然后对同属于多个社群的图像,通过多社群信息融合来生成最终标注结果。实验结果显示了该新算法的有效性。 展开更多
关键词 自动图像标注 社群 潜在主题挖掘 dirichlet分配模型 多社群信息融合
下载PDF
基于耦合关系的情感词语义分析方法 被引量:1
19
作者 王伟 孟祥福 肖春娇 《计算机科学与探索》 CSCD 2014年第9期1146-1152,共7页
针对传统话题模型不能很好地获取文本情感信息并进行情感分类的问题,提出了情感LDA(latent Dirichlet allocation)模型,并通过对文本情感进行建模分析,提出了情感词耦合关系的LDA模型。该模型不但考虑了情感词的话题语境,而且考虑了词... 针对传统话题模型不能很好地获取文本情感信息并进行情感分类的问题,提出了情感LDA(latent Dirichlet allocation)模型,并通过对文本情感进行建模分析,提出了情感词耦合关系的LDA模型。该模型不但考虑了情感词的话题语境,而且考虑了词的情感耦合关系,并且通过引入情感变量对情感词的概率分布进行控制,采用隐马尔科夫模型对情感词耦合关系的转移进行建模分析。实验表明,该模型可以对情感词耦合关系和话题同时进行分析,不仅能有效地进行文本情感建模,而且提升了情感分类结果的准确度。 展开更多
关键词 在dirichlet分配(lda)模型 情感词耦合 隐马尔科夫模型(HMM) 文本情感建模
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部