期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种并行LDA主题模型建立方法研究
被引量:
12
1
作者
王旭仁
姚叶鹏
+1 位作者
冉春风
何发镁
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2013年第6期590-593,共4页
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行...
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高.
展开更多
关键词
MapReduce架构
并行计算
潜在狄利克雷分布模型
主题建模
下载PDF
职称材料
基于Hadoop平台的LDA算法的并行化实现
被引量:
3
2
作者
张钊
张新峰
+1 位作者
郑楠
贵明俊
《计算机工程与科学》
CSCD
北大核心
2016年第2期231-239,共9页
随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处理大规模语料集的问题,提出基于MapReduce计算框架,采用Gibbs抽样...
随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处理大规模语料集的问题,提出基于MapReduce计算框架,采用Gibbs抽样方法的并行化LDA主题模型的建立方法。利用分布式计算框架MapReduce研究了LDA主题模型的并行化实现,并且考察了该并行计算程序的计算性能。通过对Hadoop并行计算与单机计算进行实验对比,发现该方法在处理大规模语料时,能够较大地提升算法的运行速度,并且随着集群节点数的增加,在加速比方面也有较好的表现。基于Hadoop平台并行化地实现LDA算法具有可行性,解决了单机无法分析大规模语料集中潜藏主题信息的问题。
展开更多
关键词
HADOOP
MAPREDUCE
lda
主题模型
Gibbs
中文分词
并行计算
下载PDF
职称材料
并行LDA主题模型在电力客服工单文本挖掘中的应用
被引量:
4
3
作者
陈亮
王刚
王震
《科技创新导报》
2017年第12期245-248,250,共5页
为提升电力客户服务质量,在进行电力客服工单文本挖掘时,对工单文本首先进行切词,然后应用分布式内存计算框架构建并行LDA主题模型,对工单进行文本主题分析。使用国网公司某网省电力客服工单进行了主题分析,结合业务专家经验确定主体数k...
为提升电力客户服务质量,在进行电力客服工单文本挖掘时,对工单文本首先进行切词,然后应用分布式内存计算框架构建并行LDA主题模型,对工单进行文本主题分析。使用国网公司某网省电力客服工单进行了主题分析,结合业务专家经验确定主体数k=10较合适,结果表明分布式内存计算框架下的并行LDA主题模型可以应用于客服工单的文本挖掘。
展开更多
关键词
工单文本挖掘
并行
lda
分布式内存计算
下载PDF
职称材料
基于数据挖掘的机器英语翻译模型研究
被引量:
2
4
作者
王雪
王娟
胡仁青
《电子设计工程》
2022年第15期167-171,共5页
为提升机器英语翻译的有效性、翻译精度以及机器翻译模型的邻域自适应能力,该文研究了基于数据挖掘的机器英语翻译模型。利用LDA模型挖掘平行语料内文本中的主题信息,利用词表上的多项式分布表示主题,判断文档集合内各文档主题所占比例...
为提升机器英语翻译的有效性、翻译精度以及机器翻译模型的邻域自适应能力,该文研究了基于数据挖掘的机器英语翻译模型。利用LDA模型挖掘平行语料内文本中的主题信息,利用词表上的多项式分布表示主题,判断文档集合内各文档主题所占比例,依据概率抽样主题相应词表的多项式分布获取具体单词,利用极大似然估计方法处理目标语言单语语料,并将平行语料作为训练目标,通过重要性采样以及全概率公式估计目标语言单语语料,建立机器英语翻译模型,选取束搜索方法采样获取估算期望值,实现英语语句翻译。模型测试结果表明,采用该模型翻译不同语料库内语句的语义信息的召回率高于96%,GLEU值高于58,邻域自适应能力较强。
展开更多
关键词
数据挖掘
机器英语
翻译模型
lda
模型
平行语料
下载PDF
职称材料
利用并行GPU对分层分布式狄利克雷分布算法加速
被引量:
2
5
作者
温腊
芮建武
+1 位作者
何婷婷
郭亮
《计算机应用》
CSCD
北大核心
2013年第12期3313-3316,3330,共5页
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,...
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。
展开更多
关键词
分层分布式狄利克雷分布
潜在狄利克雷分布
文本分类
分布式框架
并行图形处理器
下载PDF
职称材料
题名
一种并行LDA主题模型建立方法研究
被引量:
12
1
作者
王旭仁
姚叶鹏
冉春风
何发镁
机构
首都师范大学信息工程学院
北京理工大学图书馆
出处
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2013年第6期590-593,共4页
基金
国家自然科学基金资助项目(61272446)
北京市属高等学校人才强教深化计划"中青年骨干人才"资助项目(PHR201008083)
文摘
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高.
关键词
MapReduce架构
并行计算
潜在狄利克雷分布模型
主题建模
Keywords
MapReduce architecture
parallel
computing
latent Dirichlet allocation (
lda
)model
topic modeling
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Hadoop平台的LDA算法的并行化实现
被引量:
3
2
作者
张钊
张新峰
郑楠
贵明俊
机构
北京工业大学电子信息与控制工程学院
数字社区教育部工程研究中心
城市轨道交通北京实验室
出处
《计算机工程与科学》
CSCD
北大核心
2016年第2期231-239,共9页
基金
北京市属高等学校高层次人才引进与培养计划项目(CIT&TCD201504018)
文摘
随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处理大规模语料集的问题,提出基于MapReduce计算框架,采用Gibbs抽样方法的并行化LDA主题模型的建立方法。利用分布式计算框架MapReduce研究了LDA主题模型的并行化实现,并且考察了该并行计算程序的计算性能。通过对Hadoop并行计算与单机计算进行实验对比,发现该方法在处理大规模语料时,能够较大地提升算法的运行速度,并且随着集群节点数的增加,在加速比方面也有较好的表现。基于Hadoop平台并行化地实现LDA算法具有可行性,解决了单机无法分析大规模语料集中潜藏主题信息的问题。
关键词
HADOOP
MAPREDUCE
lda
主题模型
Gibbs
中文分词
并行计算
Keywords
Hadoop
MapReduce
lda
topic model
Gibbs
Chinese word segmentation
parallel
computing
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
并行LDA主题模型在电力客服工单文本挖掘中的应用
被引量:
4
3
作者
陈亮
王刚
王震
机构
山东鲁能软件技术有限公司
出处
《科技创新导报》
2017年第12期245-248,250,共5页
基金
山东省自主创新及成果转化专项项目"电力行业大数据平台的研制及产业化应用"(2014ZZCX10105-1)
文摘
为提升电力客户服务质量,在进行电力客服工单文本挖掘时,对工单文本首先进行切词,然后应用分布式内存计算框架构建并行LDA主题模型,对工单进行文本主题分析。使用国网公司某网省电力客服工单进行了主题分析,结合业务专家经验确定主体数k=10较合适,结果表明分布式内存计算框架下的并行LDA主题模型可以应用于客服工单的文本挖掘。
关键词
工单文本挖掘
并行
lda
分布式内存计算
Keywords
Worksheet semantic analysis
parallel lda
Distributed memory computing
分类号
F407.61 [经济管理—产业经济]
下载PDF
职称材料
题名
基于数据挖掘的机器英语翻译模型研究
被引量:
2
4
作者
王雪
王娟
胡仁青
机构
西安交通工程学院
出处
《电子设计工程》
2022年第15期167-171,共5页
基金
西安交通工程学院2021年中青年基金项目(21KY-62)。
文摘
为提升机器英语翻译的有效性、翻译精度以及机器翻译模型的邻域自适应能力,该文研究了基于数据挖掘的机器英语翻译模型。利用LDA模型挖掘平行语料内文本中的主题信息,利用词表上的多项式分布表示主题,判断文档集合内各文档主题所占比例,依据概率抽样主题相应词表的多项式分布获取具体单词,利用极大似然估计方法处理目标语言单语语料,并将平行语料作为训练目标,通过重要性采样以及全概率公式估计目标语言单语语料,建立机器英语翻译模型,选取束搜索方法采样获取估算期望值,实现英语语句翻译。模型测试结果表明,采用该模型翻译不同语料库内语句的语义信息的召回率高于96%,GLEU值高于58,邻域自适应能力较强。
关键词
数据挖掘
机器英语
翻译模型
lda
模型
平行语料
Keywords
data mining
machine English
translation model
lda
model
parallel
corpus
分类号
TN01 [电子电信—物理电子学]
下载PDF
职称材料
题名
利用并行GPU对分层分布式狄利克雷分布算法加速
被引量:
2
5
作者
温腊
芮建武
何婷婷
郭亮
机构
中国科学院软件研究所基础软件国家工程研究中心
中国科学院大学
出处
《计算机应用》
CSCD
北大核心
2013年第12期3313-3316,3330,共5页
基金
国家科技支撑计划项目(2011BAH14B02)
核高基重大专项(2012ZX01039-004)
+1 种基金
中国科学院知识创新工程重要方向项目(KGCX2-YW-174)
新闻出版重大科技工程项目(GAPP-ZDKJ-ZK/23)
文摘
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。
关键词
分层分布式狄利克雷分布
潜在狄利克雷分布
文本分类
分布式框架
并行图形处理器
Keywords
Hierarchical Distributed Latent Dirichlet Allocation (HD-
lda
)
Latent Dirichlet Allocation (
lda
)
textclassification
distributed environment
parallel
Graphic Processing Unit (GPU)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种并行LDA主题模型建立方法研究
王旭仁
姚叶鹏
冉春风
何发镁
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2013
12
下载PDF
职称材料
2
基于Hadoop平台的LDA算法的并行化实现
张钊
张新峰
郑楠
贵明俊
《计算机工程与科学》
CSCD
北大核心
2016
3
下载PDF
职称材料
3
并行LDA主题模型在电力客服工单文本挖掘中的应用
陈亮
王刚
王震
《科技创新导报》
2017
4
下载PDF
职称材料
4
基于数据挖掘的机器英语翻译模型研究
王雪
王娟
胡仁青
《电子设计工程》
2022
2
下载PDF
职称材料
5
利用并行GPU对分层分布式狄利克雷分布算法加速
温腊
芮建武
何婷婷
郭亮
《计算机应用》
CSCD
北大核心
2013
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部