期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种并行LDA主题模型建立方法研究 被引量:12
1
作者 王旭仁 姚叶鹏 +1 位作者 冉春风 何发镁 《北京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期590-593,共4页
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行... 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高. 展开更多
关键词 MapReduce架构 并行计算 潜在狄利克雷分布模型 主题建模
下载PDF
基于Hadoop平台的LDA算法的并行化实现 被引量:3
2
作者 张钊 张新峰 +1 位作者 郑楠 贵明俊 《计算机工程与科学》 CSCD 北大核心 2016年第2期231-239,共9页
随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处理大规模语料集的问题,提出基于MapReduce计算框架,采用Gibbs抽样... 随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处理大规模语料集的问题,提出基于MapReduce计算框架,采用Gibbs抽样方法的并行化LDA主题模型的建立方法。利用分布式计算框架MapReduce研究了LDA主题模型的并行化实现,并且考察了该并行计算程序的计算性能。通过对Hadoop并行计算与单机计算进行实验对比,发现该方法在处理大规模语料时,能够较大地提升算法的运行速度,并且随着集群节点数的增加,在加速比方面也有较好的表现。基于Hadoop平台并行化地实现LDA算法具有可行性,解决了单机无法分析大规模语料集中潜藏主题信息的问题。 展开更多
关键词 HADOOP MAPREDUCE lda主题模型 Gibbs 中文分词 并行计算
下载PDF
并行LDA主题模型在电力客服工单文本挖掘中的应用 被引量:4
3
作者 陈亮 王刚 王震 《科技创新导报》 2017年第12期245-248,250,共5页
为提升电力客户服务质量,在进行电力客服工单文本挖掘时,对工单文本首先进行切词,然后应用分布式内存计算框架构建并行LDA主题模型,对工单进行文本主题分析。使用国网公司某网省电力客服工单进行了主题分析,结合业务专家经验确定主体数k... 为提升电力客户服务质量,在进行电力客服工单文本挖掘时,对工单文本首先进行切词,然后应用分布式内存计算框架构建并行LDA主题模型,对工单进行文本主题分析。使用国网公司某网省电力客服工单进行了主题分析,结合业务专家经验确定主体数k=10较合适,结果表明分布式内存计算框架下的并行LDA主题模型可以应用于客服工单的文本挖掘。 展开更多
关键词 工单文本挖掘 并行lda 分布式内存计算
下载PDF
基于数据挖掘的机器英语翻译模型研究 被引量:2
4
作者 王雪 王娟 胡仁青 《电子设计工程》 2022年第15期167-171,共5页
为提升机器英语翻译的有效性、翻译精度以及机器翻译模型的邻域自适应能力,该文研究了基于数据挖掘的机器英语翻译模型。利用LDA模型挖掘平行语料内文本中的主题信息,利用词表上的多项式分布表示主题,判断文档集合内各文档主题所占比例... 为提升机器英语翻译的有效性、翻译精度以及机器翻译模型的邻域自适应能力,该文研究了基于数据挖掘的机器英语翻译模型。利用LDA模型挖掘平行语料内文本中的主题信息,利用词表上的多项式分布表示主题,判断文档集合内各文档主题所占比例,依据概率抽样主题相应词表的多项式分布获取具体单词,利用极大似然估计方法处理目标语言单语语料,并将平行语料作为训练目标,通过重要性采样以及全概率公式估计目标语言单语语料,建立机器英语翻译模型,选取束搜索方法采样获取估算期望值,实现英语语句翻译。模型测试结果表明,采用该模型翻译不同语料库内语句的语义信息的召回率高于96%,GLEU值高于58,邻域自适应能力较强。 展开更多
关键词 数据挖掘 机器英语 翻译模型 lda模型 平行语料
下载PDF
利用并行GPU对分层分布式狄利克雷分布算法加速 被引量:2
5
作者 温腊 芮建武 +1 位作者 何婷婷 郭亮 《计算机应用》 CSCD 北大核心 2013年第12期3313-3316,3330,共5页
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,... 分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。 展开更多
关键词 分层分布式狄利克雷分布 潜在狄利克雷分布 文本分类 分布式框架 并行图形处理器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部