期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
基于潜在狄利克雷分布模型的多文档情感摘要 被引量:9
1
作者 荀静 刘培玉 +1 位作者 杨玉珍 张艳辉 《计算机应用》 CSCD 北大核心 2014年第6期1636-1640,共5页
针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重... 针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。 展开更多
关键词 在狄利克雷分布模型 主观句子 情感分析 多文档摘要
下载PDF
融合纹理结构的潜在狄利克雷分布铁路扣件检测模型 被引量:9
2
作者 罗建桥 刘甲甲 +1 位作者 李柏林 狄仕磊 《计算机应用》 CSCD 北大核心 2016年第2期574-579,共6页
针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了... 针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了图像的结构特点;然后,将标注信息嵌入LDA,由单词和标注共同推导图像主题,改进之后的主题分布考虑了图像结构;最后,以该主题分布训练分类器,检测扣件状态。相比LDA方法,正常扣件与失效扣件在TS_LDA主题空间中的区分度增加了5%~35%,平均漏检率降低了1.8%~2.4%。实验结果表明,TS_LDA能够提高扣件图像建模精度,从而更加准确地检测扣件状态。 展开更多
关键词 纹理结构 视觉单词 单词标注 在狄利克雷分布模型 铁路扣件检测
下载PDF
基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析 被引量:22
3
作者 苏莹 张勇 +1 位作者 胡珀 涂新辉 《计算机应用》 CSCD 北大核心 2016年第6期1613-1618,共6页
针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论... 针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。 展开更多
关键词 情感分析 主题模型 在狄利克雷分布 朴素贝叶斯 意见挖掘
下载PDF
潜在狄利克雷分布模型研究综述 被引量:25
4
作者 何伟林 谢红玲 奉国和 《信息资源管理学报》 CSSCI 2018年第1期55-64,共10页
潜在狄利克雷分布(LDA)模型是主题挖掘领域的重要方法之一,为深入了解该领域的研究进展,对2012到2016年5年期间该模型相关研究成果进行全面阐述和分析。系统地梳理LDA模型在词汇、时间演化、层次关系、情感分析、短文本、标签和比较性... 潜在狄利克雷分布(LDA)模型是主题挖掘领域的重要方法之一,为深入了解该领域的研究进展,对2012到2016年5年期间该模型相关研究成果进行全面阐述和分析。系统地梳理LDA模型在词汇、时间演化、层次关系、情感分析、短文本、标签和比较性文本挖掘等7个方面的模型扩展研究;总结LDA模型在主题探索、推荐系统、预测系统,过滤系统和图像处理等方面的应用研究;最后对该模型未来研究方向进行展望,包括完善评价体系、提高模型精确度和处理效率以及在模型中引入可视化技术等。 展开更多
关键词 在狄利克雷分布 概率主题模型 主题建模
下载PDF
分布式潜在狄利克雷分配研究综述
5
作者 过云燕 李建中 《智能计算机与应用》 2021年第9期200-205,共6页
作为主题模型中最重要的机器学习模型,潜在狄利克雷分配问题在包括自然语言处理和信息检索等各领域展现出不可替代的地位。求解潜在狄利克雷分配问题主要采用变分推断和马尔科夫链蒙特卡洛两类算法。目前,数据的增长速度早已远超硬件能... 作为主题模型中最重要的机器学习模型,潜在狄利克雷分配问题在包括自然语言处理和信息检索等各领域展现出不可替代的地位。求解潜在狄利克雷分配问题主要采用变分推断和马尔科夫链蒙特卡洛两类算法。目前,数据的增长速度早已远超硬件能力的增长速度,因此在大数据时代,分布式平台的使用成为大数据训练的主流解决方案。利用分布式系统加速对潜在狄利克雷的训练和推断,成为相关研究领域的热门问题。本文对分布式潜在狄利克雷分配算法的相关工作进行分类整理和评估,对未来该领域的研究方向具有引导作用。 展开更多
关键词 分布式系统 在狄利克雷分配 变分推断 马尔科夫链蒙特卡洛
下载PDF
民航管制安全风险主题时空分布规律研究
6
作者 陈芳 温抗抗 +1 位作者 张亚博 邹汶倩 《安全与环境学报》 CAS CSCD 北大核心 2024年第2期587-595,共9页
为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安... 为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安全风险主题的时空分布规律进行研究。结果表明:利用LDA主题模型识别出“管制员指令错误风险”等10个管制安全风险主题;“管制员指令错误风险”主题存在较弱的全局空间自相关性,在2018—2021年,全局Moran’s I总体呈现波动增长的趋势;在2018—2021年,“管制员指令错误风险”主题强度高值聚集的区域由西南向东南转移,高值聚集区域数量变少,且不稳定,低值聚集区域发生转移并在2020年后保持稳定。通过全局空间自相关分析和冷热点分析确定了2018—2021年中国民航不同管制区域的管制安全风险的时空分布格局,为局方进行差异化的安全监管提供决策支持。 展开更多
关键词 安全工程 文本挖掘 时空分布规律 潜在迪利克雷分布(lda) 空间自相关 空中交通管制
下载PDF
利用并行GPU对分层分布式狄利克雷分布算法加速 被引量:2
7
作者 温腊 芮建武 +1 位作者 何婷婷 郭亮 《计算机应用》 CSCD 北大核心 2013年第12期3313-3316,3330,共5页
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,... 分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。 展开更多
关键词 分层分布狄利克雷分布 在狄利克雷分布 文本分类 分布式框架 并行图形处理器
下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
8
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 在狄利克雷分配(lda)模型 GIBBS抽样 多关系主题
下载PDF
潜在狄利克雷分配模型在网络日志的应用
9
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 在狄利克雷分配(lda)模型 URL 分类
下载PDF
基于无监督LDA的水电工程施工安全事故致因分析 被引量:1
10
作者 陈述 孙孟文 +3 位作者 陈云 聂本武 李智 刘文濯 《中国安全科学学报》 CAS CSCD 北大核心 2023年第10期79-85,共7页
为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利... 为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利克雷分布(LDA)主题模型,提取事故主题及主题词;最后,对主题词进行社会网络分析,揭示事故要素间的潜在关系,智能输出水电工程施工安全事故成因。结果表明:LDA主题模型能快速挖掘出大量有效事故数据信息,并计算出安全意识、事故隐患、违章行为等5个事故主题。致因自动分析结果显示,违规违章操作、未掌握安全操作技术、材料设备问题、违反施工程序、作业环境条件不良是导致水电工程施工安全事故的最主要原因。加强施工人员的行为监管,提高事故主要致因的预防能力,有助于提升水电工程施工安全管控水平。 展开更多
关键词 水电工程 施工安全事故 无监督隐含狄利克雷分布(lda)主题模型 事故致因 社会网络分析 因子分析
下载PDF
基于LDA模型融合Catboost算法的文本自动分类系统设计与实现 被引量:2
11
作者 刘爱琴 郭少鹏 张卓星 《国家图书馆学刊》 北大核心 2023年第5期84-92,共9页
互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost... 互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。 展开更多
关键词 隐含狄利克雷分布(lda) 文本自动分类 SVM算法 Catboost算法
下载PDF
基于分布式LDA-Spark的微博用户兴趣挖掘
12
作者 赵星雷 肖诗斌 《北京信息科技大学学报(自然科学版)》 2017年第3期70-74,共5页
为了挖掘海量微博数据中潜在的语意信息,通过Gibbs采样方式,并结合Spark分布式计算框架,实现了一种LDA主题模型并行化的算法。该算法针对微博数据的特点,将3层贝叶斯概率模型改为用户-主题-词模型;为了满足LDA的并行化处理需求,采用了... 为了挖掘海量微博数据中潜在的语意信息,通过Gibbs采样方式,并结合Spark分布式计算框架,实现了一种LDA主题模型并行化的算法。该算法针对微博数据的特点,将3层贝叶斯概率模型改为用户-主题-词模型;为了满足LDA的并行化处理需求,采用了一种无冲突的数据分割方法将数据集分成了P×P个数据块,将分割好的数据块重新排序整合成P个子集,保证每个子集中均包含P个数据块,对每个子集进行并行采样。从困惑度、收敛速度及加速比3个方面对改进算法与标准LDA算法进行了对比实验,困惑度2种算法的结果接近;在收敛速度方面,改进算法较标准LDA慢,但在实际应用中对效率没有太大影响;加速比实验中,总词数为100万、work节点为8时,改进算法所用时间是标准LDA的16.78%。实验结果表明,改进算法能得到较为精确的模型,并在大数据环境下可以取得良好的加速效果。 展开更多
关键词 SPARK 分布式框架 在狄利克雷分布 微博 主题模型
下载PDF
基于LDA-BiLSTM的金融恐慌舆情分析与预测 被引量:1
13
作者 张思扬 匡芳君 《软件导刊》 2023年第10期79-83,共5页
针对金融恐慌舆情隐蔽性强、爆发速度快、网络用语不规范等特点,提出基于LDA-BiLSTM模型的金融恐慌舆情分析方法。以金融行业新闻网页、论坛、微博、博客等为数据来源,首先基于词性过滤的LDA方法,挖掘数据中的金融热门主题,然后通过BiL... 针对金融恐慌舆情隐蔽性强、爆发速度快、网络用语不规范等特点,提出基于LDA-BiLSTM模型的金融恐慌舆情分析方法。以金融行业新闻网页、论坛、微博、博客等为数据来源,首先基于词性过滤的LDA方法,挖掘数据中的金融热门主题,然后通过BiLSTM模型处理短文本语料库,并分析网民对热门主题的情感极性,甄别舆情预警信息内容。实验表明,基于LDA-BiLSTM模型预测金融恐慌舆情倾向的准确率达92.74%,可为管理者提供信息支持和舆情建议。 展开更多
关键词 金融恐慌 在狄利克雷分布 双向长短期记忆网络 舆情分析与预测
下载PDF
基于LDA主题模型的杭州市公园季节性公共服务价值
14
作者 侯力丹 卢群 林帅君 《中国城市林业》 2023年第3期109-116,132,共9页
季节对公园的公共服务价值具有显著影响,明确游客对于公园季节性公共服务价值的关注度及态度有助于提高公园的服务质量。文章以“大众点评”上游客对杭州市公园的评价文本为研究对象,基于LDA主题模型对公园季节性公共服务价值属性及游... 季节对公园的公共服务价值具有显著影响,明确游客对于公园季节性公共服务价值的关注度及态度有助于提高公园的服务质量。文章以“大众点评”上游客对杭州市公园的评价文本为研究对象,基于LDA主题模型对公园季节性公共服务价值属性及游客的关注度进行研究,并利用SnowNLP对评价文本中游客的情感变化进行分析。结果表明:春季和秋季游客主要关注以自然风光为主的游赏价值,夏季游客对公园的功能服务价值具有最高的关注度,冬季公园的休闲娱乐价值是游客最在意的方面,此外,游客对于不同季节的公园的公共服务价值普遍给予较为积极的评价,其中游赏价值、功能服务价值和休闲娱乐价值对游客的情感具有显著的影响。因此,公园的建设与发展应充分考虑公共服务价值随季节的变化,并根据游客诉求进行灵活调整。 展开更多
关键词 在狄利克雷分布主题模型 网络文本 简体中文文本处理 季节性公共服务价值 杭州市公园
下载PDF
基于词嵌入的科研主题排序研究
15
作者 何东彬 陶莎 +1 位作者 任延昭 朱艳红 《北方工业大学学报》 2024年第1期136-149,共14页
为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实... 为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义。针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中。实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法。 展开更多
关键词 主题模型 在狄利克雷分配(lda) 主题排序 科研主题 词嵌入
下载PDF
基于LDA模型的文本分类研究 被引量:55
16
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
下载PDF
基于权重微博链的改进LDA微博主题模型 被引量:9
17
作者 李鹏 于岩 +2 位作者 李英乐 李星 何赞园 《计算机应用研究》 CSCD 北大核心 2016年第7期2018-2021,共4页
社交网络尤其是微博中含有大量的短文本。短文本不同于传统的文本,其携带的语义特征信息密度低,很难对其进行准确的主题挖掘。针对这一问题,提出根据微博发布时间与原创、转发、评论微博等社交行为信息分配权重,使用背景知识丰富语义特... 社交网络尤其是微博中含有大量的短文本。短文本不同于传统的文本,其携带的语义特征信息密度低,很难对其进行准确的主题挖掘。针对这一问题,提出根据微博发布时间与原创、转发、评论微博等社交行为信息分配权重,使用背景知识丰富语义特征的微博链结构与基于此改进的LDA主题模型。实验结果表明,相比于标准的LDA模型,本模型的perplexity值更低,即具有较低的预测不确定度。 展开更多
关键词 短文本 主题挖掘 微博链 在狄利克雷分布 PERPLEXITY
下载PDF
基于LDA的新闻话题子话题划分方法 被引量:18
18
作者 赵爱华 刘培玉 郑燕 《小型微型计算机系统》 CSCD 北大核心 2013年第4期732-737,共6页
针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题... 针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率. 展开更多
关键词 在狄利克雷分布(lda) 子话题划分 主题特征词 KL距离 相似度计算
下载PDF
一种并行LDA主题模型建立方法研究 被引量:12
19
作者 王旭仁 姚叶鹏 +1 位作者 冉春风 何发镁 《北京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期590-593,共4页
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行... 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高. 展开更多
关键词 MapReduce架构 并行计算 在狄利克雷分布模型 主题建模
下载PDF
基于SIFT,K-Means和LDA的图像检索算法 被引量:12
20
作者 汪宇雷 毕树生 +1 位作者 孙明磊 蔡月日 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2014年第9期1317-1322,共6页
图像检索一直是信息检索领域的难题.提出了一种基于尺度不变特征变换(SIFT,Scale Invariant Feature Transform),K-Means和潜在狄利克雷分布(LDA,Latent Dirichlet Allocation)的图像检索算法.算法主要分为两个阶段.预备工作得到分类完... 图像检索一直是信息检索领域的难题.提出了一种基于尺度不变特征变换(SIFT,Scale Invariant Feature Transform),K-Means和潜在狄利克雷分布(LDA,Latent Dirichlet Allocation)的图像检索算法.算法主要分为两个阶段.预备工作得到分类完成的图库、概率分配参数表和基本词库;实现检索是在预备工作的基础上归类测试图片,然后在该类下搜索最相似图片.对比传统的基于文本或内容的检索方法,该算法在检索之前将图片库中所有图片按其本身特征进行自动分类,取代人工标注图像信息的过程,同时由于整个算法完全基于图像特征,故此方法不会引入人工因素的干扰.实验结果表明,该算法能够较为准确地将要检索的图片归为图片库对应的类别中,有效地提高图像检索效率. 展开更多
关键词 尺度不变特征变换(SIFT) K-MEANS 在狄利克雷分布(lda) 基于内容的图像检索 图像匹配
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部