基于张量分解的分布式主题分类模型

Improved Distributed Topic Classification Model Based on Tensor Decomposition

下载PDF

导出

摘要针对大规模数据分类时计算时间长以及分类精度下降等问题,提出使用张量分解求解LDA主题模型参数,实现对海量网络数据的采集、分类、挖掘.该方法使用矩量法将LDA模型求解转化为低维的张量分解问题,通过分解和反射进行参数的传递,运用大数据平台Spark的进行分布式计算.实验结果表明,改进的模型参数计算方法在时间效率和困惑度方面都得到了提升,并且分类信息更加直观,更加适用于大规模网络数据分类工作. Aiming at the problems of large computation time and low classification time, this study presents an improved parameter estimation model for LDA by using the method of tensor decomposition, which can collect, classify, and mine massive network data. Using the method of moments, the LDA model calculation is transformed into low-dimensional tensor decomposition, and the parameters are transferred by decomposition and reflection. The large data platform Spark is used for distributed computation. The experimental results show that the model has been improved in terms of running time and perplexity, and the classification information display is more intuitive, which is more suitable for large-scale network data classification.

作者马年圣卞艺杰唐明伟 MA Nian-Sheng;BIAN Yi-Jie;TANG Ming-Wei(Business School, Hohai University, Nanjing 211100, China;School of Management Science and Engineering, Nanjing Audit University, Nanjing 211815, China)

机构地区河海大学商学院南京审计大学管理科学与工程学院

出处《计算机系统应用》 2018年第6期151-157,共7页 Computer Systems & Applications

基金国家自然科学基金青年项目(71603114) 江苏省社会科学基金青年项目(16TQC004) 中国博士后基金面上项目(2015M581776)

关键词 LDA主题模型张量分解 SPARK 数据分类 LDA theme model tensor decomposition Spark data classification

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1唐晓波,向坤.基于LDA模型和微博热度的热点挖掘[J].图书情报工作,2014,58(5):58-63. 被引量：64
2桂思思,陆伟,黄诗豪,周鹏程.融合主题模型及多时间节点函数的用户兴趣预测研究[J].现代图书情报技术,2015(9):9-16. 被引量：2
3关鹏,王曰芬.基于LDA主题模型和生命周期理论的科学文献主题挖掘[J].情报学报,2015,34(3):286-299. 被引量：47
4李湘东,胡逸泉,黄莉.采用LDA主题模型的多种类型文献混合自动分类研究[J].图书馆论坛,2015,35(1):74-80. 被引量：8
5冯永,李华,钟将,叶春晓.基于自适应中文分词和近似SVM的文本分类算法[J].计算机科学,2010,37(1):251-254. 被引量：21

二级参考文献104

1庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
2龚思婷,孙建军.网络信息生命力评价——基于网络信息的增长与老化模型[J].情报杂志,2012,31(5):75-79. 被引量：9
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4田国良.数字图书馆之辨义[J].图书馆理论与实践,2005(1):28-31. 被引量：9
5宋丽哲,牛振东,余正涛,宋瀚涛,董祥军.一种基于混合模型的用户兴趣漂移方法[J].计算机工程,2006,32(1):4-6. 被引量：18
6薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].南京农业大学学报（社会科学版）,2005,5(4):85-92. 被引量：10
7冯冲,陈肇雄,黄河燕,关真珍.基于Multigram语言模型的主动学习中文分词[J].中文信息学报,2006,20(1):50-58. 被引量：6
8曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
9吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386

共引文献136

1李沿江,赵红霞,苏玲霞.新冠肺炎疫情期间微博话题“中医新冠肺炎”的关注热点分析——基于LDA模型的微博主题挖掘[J].亚太传统医药,2020,16(11):15-17. 被引量：3
2许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
3赵越,刘子平,朱琳.社交媒体中的西安城市形象——基于跨平台数据的研究[J].新闻知识,2023(1):30-42.
4陈琦,张君冬,郑婉婷,杨硕.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324. 被引量：7
5毕明霞,黄汉明,边银菊,李锐,陈银燕,赵静.天然地震与人工爆破波形信号HHT特征提取和SVM识别研究[J].地球物理学进展,2011,26(4):1157-1164. 被引量：26
6任剑锋,梁雪,李淑红.基于非线性流形学习和支持向量机的文本分类算法[J].计算机科学,2012,39(1):261-263. 被引量：10
7徐远方,李成城.基于SVM和词间特征的新词识别研究[J].计算机技术与发展,2012,22(5):134-136. 被引量：4
8张鸿彦.基于CCIPCA-LSSVM的文本自动分类算法[J].科学技术与工程,2013,21(10):2704-2709.
9郑瑞娟,张仰森.基于概念的Web文本分类方法及实现[J].北京信息科技大学学报（自然科学版）,2013,28(2):77-81.
10徐楠楠,王东风,韩璞.基于正向最大匹配算法的电力两票安全识别[J].计算机仿真,2014,31(1):145-148. 被引量：9

1杨奇.利用因式分解求解高中数学题[J].中学数学教学参考,2017,0(9X):69-70.
2张凯斐,王翠娥.数据挖掘技术在网络病毒预防中的应用[J].信息与电脑,2018,30(1):114-115.
3许清媛,刘韦声.基于爬虫和LeanCloud数据存储的双语阅读平台设计[J].电子设计工程,2018,26(2):35-38. 被引量：2
4李江宇,宋添树,张沁哲.基于LDA主题模型的格调挖掘[J].电脑与电信,2018(5):26-29.
5吴正江,陈如校,张霄宏.改进Adaboost下BP神经网络并行化训练方法[J].小型微型计算机系统,2018,39(5):1058-1062. 被引量：5
6龚念鹤.马头门参数计算[J].有色金属（矿山部分）,1979,39(1):39-40.
7钱铁云,王毅,张明明,刘俊恺.基于深度神经网络的入侵检测方法[J].华中科技大学学报（自然科学版）,2018,46(1):6-10. 被引量：23
8李曾,关玉明,刘纯祥,赵越,李军.适配功率电机齿槽转矩削弱方法研究[J].电机与控制应用,2017,44(12):74-80. 被引量：1
9祁燕,岳添骏,杨大为.基于用户打分和评论的推荐算法研究[J].沈阳理工大学学报,2018,37(2):11-17. 被引量：1
10张中华.基于大数据分析的无线网精准规划方法[J].中国新通信,2018,20(11):54-54. 被引量：3

计算机系统应用

2018年第6期

浏览历史

内容加载中请稍等...

基于张量分解的分布式主题分类模型

参考文献5

二级参考文献104

共引文献136

相关作者

相关机构

相关主题

浏览历史