期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于潜在狄利克雷分布主题模型的初产妇产后健康信息需求研究
1
作者 郭赛男 蒋慧萍 +2 位作者 王子豪 梁秋曼 史婷奇 《护理学报》 2024年第19期19-23,共5页
目的运用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型深入挖掘即时社交平台产后母婴保健信息需求。方法2023年1—6月提取产后延续性护理微信群内文本数据,通过数据清洗、分词和LDA主题模型构建,分析文本数据所蕴含的需... 目的运用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型深入挖掘即时社交平台产后母婴保健信息需求。方法2023年1—6月提取产后延续性护理微信群内文本数据,通过数据清洗、分词和LDA主题模型构建,分析文本数据所蕴含的需求主题。结果LDA主题模型将所提取的23531条文本数据划分为8个主题:婴儿健康状况、婴儿喂养状况、婴儿日常护理、生长发育、母婴健康体检、疫苗接种、产后恢复、社会支持和同伴经验分享。结论基于自然语言的信息需求分析能获取客观全面的产后母婴健康信息需求,为医疗机构开展全面、精细化的产后健康指导提供参考。 展开更多
关键词 初产妇 产后 母婴健康信息需求 延续性护理 潜在狄利克雷分布(lda)主题模型
下载PDF
民航管制安全风险主题时空分布规律研究 被引量:1
2
作者 陈芳 温抗抗 +1 位作者 张亚博 邹汶倩 《安全与环境学报》 CAS CSCD 北大核心 2024年第2期587-595,共9页
为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安... 为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安全风险主题的时空分布规律进行研究。结果表明:利用LDA主题模型识别出“管制员指令错误风险”等10个管制安全风险主题;“管制员指令错误风险”主题存在较弱的全局空间自相关性,在2018—2021年,全局Moran’s I总体呈现波动增长的趋势;在2018—2021年,“管制员指令错误风险”主题强度高值聚集的区域由西南向东南转移,高值聚集区域数量变少,且不稳定,低值聚集区域发生转移并在2020年后保持稳定。通过全局空间自相关分析和冷热点分析确定了2018—2021年中国民航不同管制区域的管制安全风险的时空分布格局,为局方进行差异化的安全监管提供决策支持。 展开更多
关键词 安全工程 文本挖掘 时空分布规律 在迪利克雷分布(lda) 空间自相关 空中交通管制
下载PDF
基于LDA的新闻话题子话题划分方法 被引量:18
3
作者 赵爱华 刘培玉 郑燕 《小型微型计算机系统》 CSCD 北大核心 2013年第4期732-737,共6页
针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题... 针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率. 展开更多
关键词 潜在狄利克雷分布(lda) 子话题划分 主题特征词 KL距离 相似度计算
下载PDF
基于SIFT,K-Means和LDA的图像检索算法 被引量:12
4
作者 汪宇雷 毕树生 +1 位作者 孙明磊 蔡月日 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2014年第9期1317-1322,共6页
图像检索一直是信息检索领域的难题.提出了一种基于尺度不变特征变换(SIFT,Scale Invariant Feature Transform),K-Means和潜在狄利克雷分布(LDA,Latent Dirichlet Allocation)的图像检索算法.算法主要分为两个阶段.预备工作得到分类完... 图像检索一直是信息检索领域的难题.提出了一种基于尺度不变特征变换(SIFT,Scale Invariant Feature Transform),K-Means和潜在狄利克雷分布(LDA,Latent Dirichlet Allocation)的图像检索算法.算法主要分为两个阶段.预备工作得到分类完成的图库、概率分配参数表和基本词库;实现检索是在预备工作的基础上归类测试图片,然后在该类下搜索最相似图片.对比传统的基于文本或内容的检索方法,该算法在检索之前将图片库中所有图片按其本身特征进行自动分类,取代人工标注图像信息的过程,同时由于整个算法完全基于图像特征,故此方法不会引入人工因素的干扰.实验结果表明,该算法能够较为准确地将要检索的图片归为图片库对应的类别中,有效地提高图像检索效率. 展开更多
关键词 尺度不变特征变换(SIFT) K-MEANS 潜在狄利克雷分布(lda) 基于内容的图像检索 图像匹配
下载PDF
基于LDA主题模型的短文本分类 被引量:19
5
作者 杨萌萌 黄浩 +2 位作者 程露红 马平 包武杰 《计算机工程与设计》 北大核心 2016年第12期3371-3377,共7页
针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主... 针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主题分布向量改进方法。与传统VSM分类方法相比,该方法降低了相似度计算维度,融合了一定语义特征。实验结果表明,与传统VSM分类方法相比,基于主题分布相似度方法的平均F1值提高了4.5%,基于LDA模型主题-词分布矩阵主题分布向量改进方法的平均F1值提高了5.2%,验证了以上方法的有效性。 展开更多
关键词 潜在狄利克雷分布(lda) 向量空间模型(VSM) 短文本分类 K近邻(K-nearest neighbor) 吉布斯采样 相似度计算
下载PDF
基于文本挖掘的智慧城市建设公众认知研究
6
作者 梁壮男 《科技和产业》 2024年第3期92-97,共6页
社交媒体平台已成为公众获取智慧城市建设信息的重要来源。为探究公众对智慧城市建设的认知现状,对微博平台中智慧城市建设相关文本数据进行研究。运用LDA(潜在狄利克雷分布)主题模型得到公众关注的6个主题,运用基于情感词典的情感分析... 社交媒体平台已成为公众获取智慧城市建设信息的重要来源。为探究公众对智慧城市建设的认知现状,对微博平台中智慧城市建设相关文本数据进行研究。运用LDA(潜在狄利克雷分布)主题模型得到公众关注的6个主题,运用基于情感词典的情感分析方法得到公众对智慧城市建设的情感倾向分布,并对消极文本进行可视化。结果表明,公众关注的主题可分为数字经济、技术应用、股票市场、人工智能、社会民生、政策发展,且公众对智慧城市建设普遍持积极态度。 展开更多
关键词 智慧城市 lda(潜在狄利克雷分布) 情感词典 公众认知
下载PDF
基于Twitter签到数据的城市居民群体分类算法研究
7
作者 管千娇 王长硕 《现代计算机》 2024年第16期18-24,29,共8页
为实现基于社交媒体大数据的居民群体分类,引入自然语言处理(NLP)领域的标签潜在狄利克雷分布(Labeled LDA)模型。基于2014年芝加哥市的Twitter签到数据,使用LDA探索性分析提取先验信息。构建Labeled LDA,将城市居民分为五类:上班族、... 为实现基于社交媒体大数据的居民群体分类,引入自然语言处理(NLP)领域的标签潜在狄利克雷分布(Labeled LDA)模型。基于2014年芝加哥市的Twitter签到数据,使用LDA探索性分析提取先验信息。构建Labeled LDA,将城市居民分为五类:上班族、大学生及高校教职工、中小学生及教职工、市政工作人员和其他。实验结果表明,Labeled LDA的分类精度达到0.92,超过了支持向量机(SVM)0.87的分类精度。该算法有效地实现了居民群体分类,从而促进有针对性的服务制定。 展开更多
关键词 标签潜在狄利克雷分布(Labeled lda) Twitter签到数据 居民群体分类 NLP算法
下载PDF
结合LDA与Self-Attention的短文本情感分类方法 被引量:7
8
作者 陈欢 黄勃 +2 位作者 朱翌民 俞雷 余宇新 《计算机工程与应用》 CSCD 北大核心 2020年第18期165-170,共6页
在对短文本进行情感分类任务的过程中,由于文本长度过短导致数据稀疏,降低了分类任务的准确率。针对这个问题,提出了一种基于潜在狄利克雷分布(LDA)与Self-Attention的短文本情感分类方法。使用LDA获得每个评论的主题词分布作为该条评... 在对短文本进行情感分类任务的过程中,由于文本长度过短导致数据稀疏,降低了分类任务的准确率。针对这个问题,提出了一种基于潜在狄利克雷分布(LDA)与Self-Attention的短文本情感分类方法。使用LDA获得每个评论的主题词分布作为该条评论信息的扩展,将扩展信息和原评论文本一起输入到word2vec模型,进行词向量训练,使得该评论文本在高维向量空间实现同一主题的聚类,使用Self-Attention进行动态权重分配并进行分类。通过在谭松波酒店评论数据集上的实验表明,该算法与当前主流的短文本分类情感算法相比,有效地提高了分类性能。 展开更多
关键词 主题词 短文本 Self-Attention 潜在狄利克雷分布(lda) word2vec
下载PDF
基于LDA模型的大规模文本挖掘算法研究 被引量:2
9
作者 董薇 庞峰 顾炜江 《软件》 2020年第12期58-63,共6页
针对海量文本信息的挖掘与处理是目前文本挖掘领域的一个热点问题,LDA模型是文本挖掘领域中应用广泛的一种主流模型。LDA模型能够通过快速学习和训练,检测出文本集中潜在的主题词。传统算法对速度和内存优化并不明显。文章从几个不同的... 针对海量文本信息的挖掘与处理是目前文本挖掘领域的一个热点问题,LDA模型是文本挖掘领域中应用广泛的一种主流模型。LDA模型能够通过快速学习和训练,检测出文本集中潜在的主题词。传统算法对速度和内存优化并不明显。文章从几个不同的方面阐述了LDA模型及其扩展模型在处理大规模文本数据时的应用,从参数估计、在线学习和并行优化方面进行了比对,对其中在线模型进行了实验验证,引入狄利克雷参数、BP信念传播算法,在几组数据集上进行了实验,分析其性能。 展开更多
关键词 主题模型 潜在狄利克雷分布 在线lda模型 BP信念传播算法 参数估计
下载PDF
基于改进LDA的社会化标签主题识别方法
10
作者 邰悦 葛斌 李慧宗 《安徽理工大学学报(自然科学版)》 CAS 2021年第5期55-63,共9页
针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特... 针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特性以及特征词采样等问题。首先建立评论及对应标签资源在信息熵相似度条件下的潜在关系,对该潜在关系使用随机游走方法获取各组资源和各组标签的权值系数,消除资源间的独立同分布。通过加权方法加权至每个资源的特征词,形成资源特征词和标签特征词的权重值系数。在此基础上构建联合特征词加权-LDA模型,通过迭代学习方法获取社会化标签资源的隐含主题知识。通过实验表明,提出的联合特征词加权-LDA相对于其他主题模型具有更好的主题识别效果。 展开更多
关键词 社会化标签 信息熵相似度 独立同分布 加权方法 潜在狄利克雷分布(lda)
下载PDF
基于VSM和LDA模型相结合的新闻文本分类研究 被引量:4
11
作者 彭雨龙 《山东工业技术》 2016年第6期202-203,共2页
针对传统KNN算法在处理新闻分类时仅仅考虑文字层面上的相似性,而未涉及语义层面,本文提出了一种基于VSM和LDA模型相融合的新闻分类算法。首先,在深入研究VSM和LDA模型的基础上,对新闻文档进行VSM和LDA主题建模,结合LDA模型与VSM模型计... 针对传统KNN算法在处理新闻分类时仅仅考虑文字层面上的相似性,而未涉及语义层面,本文提出了一种基于VSM和LDA模型相融合的新闻分类算法。首先,在深入研究VSM和LDA模型的基础上,对新闻文档进行VSM和LDA主题建模,结合LDA模型与VSM模型计算文档之间的相似度;其次,以复合相似度运用到基于相似度加权表决的KNN算法对新闻报道集合进行分类。实验验证了改进后的相似度计算方法的有效性,实验结果表明改进后的KNN算法与传统算法相比,具有较好的效果。 展开更多
关键词 潜在狄利克雷分布(lda) 向量空间模型(VSM) 文本相似度 KNN分类
下载PDF
基于主题模型和情感分析的进口跨境电商顾客满意度评价研究 被引量:2
12
作者 邢丹 屈仁均 《科技和产业》 2023年第1期58-65,共8页
进口跨境电商已成为驱动国内消费增量的新业态,而顾客满意度的高低则是进口跨境电商提高留存率和转换率的关键。与此同时,海量的在线评论为商家提供了极具价值的信息,对其进行情感挖掘将有助于商家优化产品供给。为此,选择京东全球购个... 进口跨境电商已成为驱动国内消费增量的新业态,而顾客满意度的高低则是进口跨境电商提高留存率和转换率的关键。与此同时,海量的在线评论为商家提供了极具价值的信息,对其进行情感挖掘将有助于商家优化产品供给。为此,选择京东全球购个人护理产品作为研究对象,通过构建进口跨境电商顾客满意度综合评价模型,运用TF-IDF算法和文本聚类LDA主题模型等对评论文本内容进行分析和主题特征提取,并建立情感词典依次对顾客满意度各影响因素匹配赋值打分,以此来确定各项用户需求的重要度和产品及服务改进的优先级顺序。最终研究表明影响顾客满意度的各个因素综合得分排序从高到低为产品质量、物流服务质量、品牌信誉、感知价值、商家服务质量。 展开更多
关键词 进口跨境电商 潜在狄利克雷分布(lda)主题模型 情感分析 顾客满意度评价 文本挖掘
下载PDF
一种新的目标检测方法:Latent Dirichlet classification 被引量:3
13
作者 丁轶 郭乔进 李宁 《南京大学学报(自然科学版)》 CSCD 北大核心 2012年第2期214-220,共7页
图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共... 图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共生关系来进行目标检测.LDC模型将latentDirichlet allocation(LDA)生成的主题信息作为权重赋予样本,生成多份样本,然后利用多份样本训练多个分类器进行集成分类.实验结果表明利用LDC模型能有效提高检测精度. 展开更多
关键词 在迪利克雷分布 目标检测 变分推理 主题模型
下载PDF
文化型旅游目的地游客感知意象的主题识别与非对称性效应——以运河城市绍兴为例 被引量:6
14
作者 张环宙 应舜 吴茂英 《地理科学》 CSSCI CSCD 北大核心 2022年第12期2131-2140,共10页
以浙东运河城市绍兴市的180个景区、景点为研究对象,以携程网的14181条点评作为数据来源,利用潜在狄利克雷分布(Latent Dirichlet Allocation)主题模型分析文化型旅游目的地旅游者感知意象的主题及其显著性,并结合三因素理论深入探讨旅... 以浙东运河城市绍兴市的180个景区、景点为研究对象,以携程网的14181条点评作为数据来源,利用潜在狄利克雷分布(Latent Dirichlet Allocation)主题模型分析文化型旅游目的地旅游者感知意象的主题及其显著性,并结合三因素理论深入探讨旅游者感知意象主题的非对称性效应。研究发现:①旅游者感知意象包括景区服务、特色文化、山水风光、传说故事及名人故居5个主题;②旅游者感知最强的是景区服务,其次分别是特色文化、山水风光、传说故事及名人故居;③旅游者感知意象主题可以划分为激励因素、双向因素和保健因素,并存在一定的非对称性效应;④旅游者通过对文化资源、文化可参观性生产和文化产业链的消费和体验,对文化型旅游目的地产生了不同的感知意象。文化型旅游目的地旅游者感知意象的提升需要注重完善景区服务,保护文化景观、真实性及自然资源,并充分发挥名人故居、山水风光和传说故事的积极作用。 展开更多
关键词 文化型旅游目的地 游客感知意象 潜在狄利克雷分布(lda分析) 大数据 文本挖掘 运河城市 绍兴
下载PDF
联合主题模型的标签聚类方法 被引量:2
15
作者 胡学钢 李慧宗 +2 位作者 潘剑寒 何伟 杨恒宇 《模式识别与人工智能》 EI CSCD 北大核心 2017年第5期403-415,共13页
提升标签聚类的质量是识别标签语义的一个关键问题.文中提出基于资源的联合主题模型标签聚类方法.利用资源的引用关系,采用随机游走的方法获取资源的权威度分数,以此设置"资源-标签"和"资源-词"这2个二元关系的权重... 提升标签聚类的质量是识别标签语义的一个关键问题.文中提出基于资源的联合主题模型标签聚类方法.利用资源的引用关系,采用随机游走的方法获取资源的权威度分数,以此设置"资源-标签"和"资源-词"这2个二元关系的权重.在此基础上,构建基于资源加权的词与标签的联合潜在狄利克雷分布(LDA)模型,通过迭代学习,获取标签的潜在主题,并根据主题最大隶属度聚类标签.实验表明,相比其它基于资源的标签聚类方法,文中方法能获取更好的聚类效果. 展开更多
关键词 社会化标注系统 标签聚类 主题模型 潜在狄利克雷分布(lda) 随机游走
下载PDF
专利视角下的美国空军核心技术演化分析 被引量:10
16
作者 李慧 孟玮 《情报理论与实践》 CSSCI 北大核心 2021年第2期41-49,共9页
[目的/意义]通过对美国空军公布的专利进行研究,揭示其不同阶段的重点研究方向,更好地把握技术变化,为相关决策提供参考。[方法/过程]引入时间维度将主题模型生成的"文档—主题"分布转换为"年份—主题"分布,结合t-... [目的/意义]通过对美国空军公布的专利进行研究,揭示其不同阶段的重点研究方向,更好地把握技术变化,为相关决策提供参考。[方法/过程]引入时间维度将主题模型生成的"文档—主题"分布转换为"年份—主题"分布,结合t-SNE降维并可视化来划分时间段。采用专利分类号与技术领域的映射关系和社会网络分析方法做粗粒度的技术领域演化及可视化分析,并综合运用LDA和JS散度对其中某一技术领域做细粒度的技术主题演化与可视化分析。[结果/结论]将美国空军公布的1958—2019年的专利划分为7个时间段,得到技术领域演化河流图以及"测量"技术领域的技术主题演化桑基图。结果表明该方法可以较好地识别美国空军不同阶段的核心技术演化过程,是从专利的角度研究国防技术发展趋势的一次积极探索。 展开更多
关键词 专利 在迪利克雷分布 国际专利分类号 技术演化 可视化
下载PDF
融合词向量和主题模型的领域实体消歧 被引量:8
17
作者 马晓军 郭剑毅 +3 位作者 王红斌 张志坤 线岩团 余正涛 《模式识别与人工智能》 EI CSCD 北大核心 2017年第12期1130-1137,共8页
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体... 针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优. 展开更多
关键词 实体消歧 词向量模型 领域知识库 潜在狄利克雷分布(lda)主题模型
下载PDF
基于共现关系的多源主题融合模型 被引量:3
18
作者 秦旭 杨文忠 +2 位作者 王雪颖 马国祥 王庆鹏 《计算机工程与应用》 CSCD 北大核心 2020年第10期157-162,共6页
主题检测是互联网舆情分析任务中不可或缺的工作,在话题发现、热点话题等方面会遇到大量的不同种类的文本,它们有着不同的特性,却包含着相同的主题。有效地利用不同源的特性具有重要的科研和实践意义。大多数主题模型都是检测单一来源... 主题检测是互联网舆情分析任务中不可或缺的工作,在话题发现、热点话题等方面会遇到大量的不同种类的文本,它们有着不同的特性,却包含着相同的主题。有效地利用不同源的特性具有重要的科研和实践意义。大多数主题模型都是检测单一来源的文档,但媒体消息都是从多种平台进行传播,而且消息长度不一,不同平台都有其各自的属性,从而导致难以进行统一的舆情监控。为此,提出了一个基于共现关系的多源主题融合模型(Multi-source Topic Fusion Model,MTFM),该模型将共现(同一内容在不同地方出现)纳入到多源主题融合模型中实现异类源的准确话题提取。实验结果表明,与当前用于不同源主题检测的经典模型相比较,MTFM提供了另一种挖掘主题的方法。 展开更多
关键词 多源主题融合模型 在迪利克雷分布(lda) K-MEANS 相似度
下载PDF
面向多源数据的可扩展主题建模分析框架 被引量:7
19
作者 唐爽 张灵箫 +2 位作者 赵俊峰 谢冰 邹艳珍 《计算机科学与探索》 CSCD 北大核心 2019年第5期742-752,共11页
随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼。主题建模是文本处理和数据挖掘中的一个非常重要的... 随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼。主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中。提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,并在此基础上实现了一个多源数据分析工具,最后通过两个数据集的实验证明了所提的多源数据分析框架的有效性。 展开更多
关键词 主题建模技术 潜在狄利克雷分布(lda) 结构化数据分析 可视化
下载PDF
Stack Overflow上机器学习相关问题的大规模实证研究 被引量:4
20
作者 万志远 陶嘉恒 +4 位作者 梁家坤 才振功 苌程 乔林 周巧妮 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第5期819-828,共10页
为了调查机器学习相关主题分布和发展趋势,从在线问答网站Stack Overflow上,利用过滤标签,从4 178多万帖子中提取出60 028个与机器学习相关的问题帖.通过分析问题帖,统计各个机器学习平台的讨论量,发现Scikit-learn、TensorFlow、Keras... 为了调查机器学习相关主题分布和发展趋势,从在线问答网站Stack Overflow上,利用过滤标签,从4 178多万帖子中提取出60 028个与机器学习相关的问题帖.通过分析问题帖,统计各个机器学习平台的讨论量,发现Scikit-learn、TensorFlow、Keras是前3位频繁被讨论的机器学习平台,占总讨论量的58%.为了进一步分析机器学习相关讨论主题,进行潜在狄利克雷分布(LDA)主题模型训练,提出自适应LDA中的主题数渐进搜索方法,采用主题一致性系数评估输出结果,获得主题最佳数量,从而发现9个讨论主题,分属3个类别:代码相关、模型相关、理论相关.基于主题中问题帖的浏览数、评论数,分析不同主题的流行度和回答困难程度. 展开更多
关键词 实证研究 机器学习 STACK OVERFLOW 潜在狄利克雷分布(lda) 主题一致性
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部