期刊文献+
共找到96篇文章
< 1 2 5 >
每页显示 20 50 100
基于LDA主题模型的在途驾驶风格识别方法
1
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 潜在狄利克雷分配(lda)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
下载PDF
Topic modeling for large-scale text data 被引量:1
2
作者 Xi-ming LI 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第6期457-465,共9页
This paper develops a novel online algorithm, namely moving average stochastic variational inference (MASVI), which applies the results obtained by previous iterations to smooth out noisy natural gradients. We analy... This paper develops a novel online algorithm, namely moving average stochastic variational inference (MASVI), which applies the results obtained by previous iterations to smooth out noisy natural gradients. We analyze the convergence property of the proposed algorithm and conduct a set of experiments on two large-scale collections that contain millions of documents. Experimental results indicate that in contrast to algorithms named 'stochastic variational inference' and 'SGRLD', our algorithm achieves a faster convergence rate and better performance. 展开更多
关键词 latent dirichlet allocation (lda topic modeling Online learning Moving average
原文传递
一种改进的LDA主题模型 被引量:47
3
作者 张小平 周雪忠 +3 位作者 黄厚宽 冯奇 陈世波 焦宏官 《北京交通大学学报》 CAS CSCD 北大核心 2010年第2期111-114,共4页
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关... 由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高. 展开更多
关键词 lda dirichlet分布 加权主题模型
下载PDF
基于LDA主题模型的文本相似度计算 被引量:98
4
作者 王振振 何明 杜永萍 《计算机科学》 CSCD 北大核心 2013年第12期229-232,共4页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 展开更多
关键词 主题模型 lda 文本相似度 GIBBS抽样
下载PDF
基于LDA模型的主题分析 被引量:34
5
作者 石晶 范猛 李万龙 《自动化学报》 EI CSCD 北大核心 2009年第12期1586-1592,共7页
在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片... 在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片段边界.依据词汇的香农信息提取片段主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵.实验表明,文本分析的结果明显好于其他方法,可以为下一步文本推理的工作提供有价值的预处理. 展开更多
关键词 主题分析 lda模型 文本分割 GIBBS抽样
下载PDF
一种并行LDA主题模型建立方法研究 被引量:12
6
作者 王旭仁 姚叶鹏 +1 位作者 冉春风 何发镁 《北京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期590-593,共4页
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行... 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高. 展开更多
关键词 MapReduce架构 并行计算 潜在狄利克雷分布模型 主题建模
下载PDF
基于LDA模型的专利信息聚类技术 被引量:22
7
作者 范宇 符红光 文奕 《计算机应用》 CSCD 北大核心 2013年第A01期87-89,93,共4页
针对传统专利情报采集的方式不能适应专利信息快速增加的问题,通过研究适用于专利信息聚类的主题模型和聚类算法,提出了将潜在狄利克雷分配(LDA)主题模型和OPTICS算法相结合的解决方案。该方案采用LDA主题模型将专利信息在词汇空间的高... 针对传统专利情报采集的方式不能适应专利信息快速增加的问题,通过研究适用于专利信息聚类的主题模型和聚类算法,提出了将潜在狄利克雷分配(LDA)主题模型和OPTICS算法相结合的解决方案。该方案采用LDA主题模型将专利信息在词汇空间的高维表达转换到在主题空间的低维表达,高效地实现了对专利信息的降维,进而采用OPTICS算法及k近邻准则对专利信息进行聚类分析,达到收集感兴趣的专利情报信息的目的。理论分析和实验验证表明,提出的解决方案不仅能通过降维,提高专利聚类效率,而且能对专利信息分析提供帮助。 展开更多
关键词 潜在狄利克雷分配主题模型 聚类分析 OPTICS算法 专利信息聚类 专利分析
下载PDF
基于LDA主题特征的自动文摘方法 被引量:24
8
作者 张明慧 王红玲 周国栋 《计算机应用与软件》 CSCD 2011年第10期20-22,46,共4页
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距... 近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。 展开更多
关键词 自动文摘 lda 主题模型 多文档
下载PDF
基于LDA模型的主题词抽取方法 被引量:47
9
作者 石晶 李万龙 《计算机工程》 CAS CSCD 北大核心 2010年第19期81-83,共3页
以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的... 以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。 展开更多
关键词 lda模型 GIBBS抽样 主题词抽取
下载PDF
一种基于LDA模型的主题句抽取方法 被引量:10
10
作者 王力 李培峰 朱巧明 《计算机工程与应用》 CSCD 2013年第2期160-164,257,共6页
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题... 在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 展开更多
关键词 隐含狄利克雷分配(lda) 主题模型 主题句抽取 信息融合
下载PDF
基于LDA模型的网络党建信息推送策略 被引量:5
11
作者 杨帆 何敏 +3 位作者 施继红 武浩 徐涛 李乐 《计算机工程》 CAS CSCD 北大核心 2016年第9期286-291,共6页
针对云南省基层党建综合服务平台推送服务扁平化、效率低等问题,基于潜在狄利克雷分配(LDA)主题模型设计党建信息推送策略。利用LDA模型对用户历史数据进行无监督聚类,根据党员反馈矩阵推测党员偏好,通过待推送信息与党员偏好的相关度... 针对云南省基层党建综合服务平台推送服务扁平化、效率低等问题,基于潜在狄利克雷分配(LDA)主题模型设计党建信息推送策略。利用LDA模型对用户历史数据进行无监督聚类,根据党员反馈矩阵推测党员偏好,通过待推送信息与党员偏好的相关度实现过滤式党建信息推送。以云岭先锋网手机报真实文本作为实验数据对该策略进行验证,结果表明,相比传统协同过滤和无差别推送方法,该策略更符合实际需求,能取得更稳定的推送效果。 展开更多
关键词 网络党建 信息推送 主题模型 党员偏好推断 潜在狄利克雷分配模型
下载PDF
基于LDA的改进K-means算法在文本聚类中的应用 被引量:21
12
作者 王春龙 张敬旭 《计算机应用》 CSCD 北大核心 2014年第1期249-254,共6页
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个... 针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。 展开更多
关键词 主题模型 K-MEANS 聚类中心 文本聚类 隐含狄利克雷分布
下载PDF
基于LDA模型的新闻话题的演化 被引量:29
13
作者 楚克明 李芳 《计算机应用与软件》 CSCD 2011年第4期4-7,26,共5页
新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,... 新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。 展开更多
关键词 潜在狄利克雷分配模型 话题关联 话题演化
下载PDF
混合词汇特征和LDA的语义相关度计算方法 被引量:5
14
作者 肖宝 李璞 蒋运承 《计算机工程与应用》 CSCD 北大核心 2017年第12期152-157,165,共7页
文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量... 文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量冗余概念的参与变成了一种高维度、低效率的计算方式,同时也忽略了文本所属主题因素对语义相关度计算的作用。引入LDA(Latent Dirichlet Allocation)主题模型,对ESA返回的相关度较高的概念转换为模型的主题概率向量,从而达到降低维度和提高效率的目的;将JSD距离(Jensen-Shannon Divergence)替换余弦距离的测量方法,使得文本语义相关度计算更加合理和有效。最后对不同层次的数据集进行算法的测试评估,结果表明混合词汇特征和主题模型的语义相关度计算方法的皮尔逊相关系数比ESA和LDA分别高出3%和9%以上。 展开更多
关键词 主题模型 词汇特征 显式语义分析(ESA) 隐含狄利克雷分布(lda) 语义相关度计算
下载PDF
基于LDA模型的微博话题发现技术研究 被引量:10
15
作者 李凤岭 朱保平 《计算机应用与软件》 CSCD 北大核心 2014年第10期24-26,66,共4页
微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图... 微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图,并通过PageRank算法将话题进行排名。实验结果表明,排名后返回给用户的话题的准确性明显高于未排名的结果。 展开更多
关键词 微博 话题 排名 lda模型
下载PDF
LDA单词图像表示的蒙古文古籍图像关键词检索方法 被引量:7
16
作者 白淑霞 鲍玉来 《现代情报》 CSSCI 北大核心 2017年第7期51-54,88,共5页
[目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于... [目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论 ]同时,该方法的性能比Bo VW方法有显著提高。 展开更多
关键词 隐含狄利克雷分配(lda) 主题模型 视觉语言模型 蒙古文古籍 关键词检索 查询似然模型
下载PDF
基于无监督LDA的水电工程施工安全事故致因分析 被引量:2
17
作者 陈述 孙孟文 +3 位作者 陈云 聂本武 李智 刘文濯 《中国安全科学学报》 CAS CSCD 北大核心 2023年第10期79-85,共7页
为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利... 为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利克雷分布(LDA)主题模型,提取事故主题及主题词;最后,对主题词进行社会网络分析,揭示事故要素间的潜在关系,智能输出水电工程施工安全事故成因。结果表明:LDA主题模型能快速挖掘出大量有效事故数据信息,并计算出安全意识、事故隐患、违章行为等5个事故主题。致因自动分析结果显示,违规违章操作、未掌握安全操作技术、材料设备问题、违反施工程序、作业环境条件不良是导致水电工程施工安全事故的最主要原因。加强施工人员的行为监管,提高事故主要致因的预防能力,有助于提升水电工程施工安全管控水平。 展开更多
关键词 水电工程 施工安全事故 无监督隐含狄利克雷分布(lda)主题模型 事故致因 社会网络分析 因子分析
下载PDF
时序化LDA的舆情文本动态主题提取 被引量:3
18
作者 万红新 彭云 郑睿颖 《计算机与现代化》 2016年第7期91-94,共4页
随着互联网的发展,网络上产生了大量的舆情文本,提取这些文本的主题可以获取舆情的话题热点和演化趋势。由于舆情文本数据量巨大,并且主题具有随时间动态变化的特点,提出一种加入时间约束先验的LDA主题模型TC-LDA(Time Constrained LDA)... 随着互联网的发展,网络上产生了大量的舆情文本,提取这些文本的主题可以获取舆情的话题热点和演化趋势。由于舆情文本数据量巨大,并且主题具有随时间动态变化的特点,提出一种加入时间约束先验的LDA主题模型TC-LDA(Time Constrained LDA)。TC-LDA可以将文本数据转化为主题向量,大大降低了文本表示的维度,同时加入时间约束知识后实现了LDA的时序化转换,可以提高LDA捕捉动态主题的能力。实验结果表明,TC-LDA在主题词提取的准确率和召回率上与同类主题模型比较,具有更好的效果。 展开更多
关键词 lda 主题模型 时间约束 主题词
下载PDF
基于LDA的问答网站话题抽取算法 被引量:2
19
作者 战学刚 王晓 《计算机应用与软件》 CSCD 2016年第4期95-98,共4页
为了帮助用户在使用问答网站时准确地描述所提问题的话题,对社会化问答网站问题及话题进行了建模,发现问题的潜在语义关系,提出一种基于潜在狄利克雷分布LDA(Latent Dirichlet Allocation)的话题抽取算法。该算法通过挖掘问题与问题之... 为了帮助用户在使用问答网站时准确地描述所提问题的话题,对社会化问答网站问题及话题进行了建模,发现问题的潜在语义关系,提出一种基于潜在狄利克雷分布LDA(Latent Dirichlet Allocation)的话题抽取算法。该算法通过挖掘问题与问题之间的潜在语义信息,找到潜在语义相类似的问题,在语义层面上抽取出话题集合,找到最符合的话题列表。在真实网站中的数据进行试验证实,应用该算法可以有效扩大话题抽取的准确率和召回率。 展开更多
关键词 lda 问答网站 协同过滤 话题模型
下载PDF
基于LDA和CTR的用户模型分析 被引量:1
20
作者 吴飞飞 姬东鸿 吕超镇 《计算机工程与应用》 CSCD 北大核心 2016年第6期50-54,共5页
个性化服务一直是研究的热点,但是如何构建完整的用户模型是一个颇有挑战性的问题。将基于主体模型LDA对用户模型进行预测,在用户和推荐项目的特征向量上采用CTR进行约束,使结果更为准确。在只需要少量人为因素下,由机器来训练最初的主... 个性化服务一直是研究的热点,但是如何构建完整的用户模型是一个颇有挑战性的问题。将基于主体模型LDA对用户模型进行预测,在用户和推荐项目的特征向量上采用CTR进行约束,使结果更为准确。在只需要少量人为因素下,由机器来训练最初的主题模型,在训练模型的基础上,通过选取100名用户的微博作为测试,用等级打分制来对推荐的项目进行打分,最终的结果显示,在新闻推荐上,微观满意度达到82.5%;而在名人推荐上,微观满意度达到了84.3%,综合以上,推荐服务的满意度还是令人满意的。 展开更多
关键词 隐形狄雷克雷分布(lda) 主题模型 基于主题模型的协同过滤(CTR) 用户模型 推荐
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部