分布式KNN算法在微信公众号分类中的应用被引量：4

Application of distributed KNN algorithm in WeChat subscription classification

下载PDF

导出

摘要针对微信公众号数据量大幅增长与从事微信活动的人们对其有效信息获取效率低下的问题,提出对微信公众号信息进行梳理并快速并行化分类以及打标签的方法。首先,该方法在介绍微信公众号实际应用的前提下,以经典K最近邻(KNN)分类算法为基础,实践并分析了单机KNN算法在效率上的不足;然后,采用Hadoop平台实现了基于MapReduce模型的KNN算法,对比了单机与分布式的效率以及对K值的调优,实验中的样本训练集通过人为指定,文本相似度的判别分为分词、特征词提取、权重计算、测试向量与训练向量夹角计算等步骤。在24个类别基础上,通过对1 000万条公众号数据分类实验,为每个公众号打上了单标签或多标签,优化后的分类准确率达到82%,其中与生活相关的公众号数量占比达70%以上。研究表明使用分类后的结果,信息针对特定人群传播,传播的转化率有所提升;分布式KNN算法在微信公众号数据处理方面比单机算法具有更高的效率和鲁棒性。 People who engage in We Chat commercial activities extract valuable information inefficiently when We Chat subscription data grows rapidly. To resolve the issue, a method of classifying and labeling the We Chat subscription data in parallel was proposed. Firstly, the practical applications of We Chat subscription were introduced, and the shortcomings of KNN classification algorithm on one single node was analyzed. Then, the distributed KNN algorithm on Hadoop platform using MapReduce application model was implemented, the efficiencies of stand-alone and distributed algorithms were contrasted and K value was tuned. In the experiment, the training sample set was specified, the text similarity between testing sample and training sample was determined by the steps bellow： word segmentation, feature words extraction, weight calculation, cosine coefficient calculation. Ten million records of truthful Web Chat subscription data were classified to 24 categories, and every We Chat subscription was set single label or multiple labels, the classification accuracy after optimization reached 82%, the number of the We Chat subscriptions associated with life accounted for more than 70%. The research shows the transformation rate of information has been improved by using the classification results, the distributed KNN algorithm has higher efficiency and robustness than the stand-alone algorithm for We Chat subscription data.

作者肖斌王锦阳任启强

机构地区西南石油大学计算机科学学院

出处《计算机应用》 CSCD 北大核心 2017年第A01期295-299,共5页 journal of Computer Applications

基金国家安全生产总局项目(sichuan-0008-2016AQ sichuan-0009-2016AQ)

关键词微信公众号 HADOOP平台 MAPREDUCE模型 K最近邻分类 WeChat subscription Hadoop platform MapReduce model K-Nearest Neighbor（KNN） classification

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Xiaoming Zhang,Zhipeng Qin,Xuwei Liu,Qianyun Hou,Baishuang Zhang,Jie Wu.Hadoop-Based Similarity Computation System for Composed Documents[J].Journal of Computer and Communications,2015,3(5):196-202. 被引量：1
2黄黎,顾筠.基于Hadoop平台的并行化数据分类算法研究[J].制造业自动化,2014,36(14):5-9. 被引量：4
3董春涛,李文婷,沈晴霓,吴中海.Hadoop YARN大数据计算框架及其资源调度机制研究[J].信息通信技术,2015,9(1):77-84. 被引量：25
4王金华,喻辉,产文,周向东,施伯乐.基于KNN+层次SVM的文本自动分类技术[J].计算机应用与软件,2016,33(2):38-41. 被引量：7
5岳金媛,徐金安,张玉洁.面向专利文献的汉语分词技术研究[J].北京大学学报（自然科学版）,2013,49(1):159-164. 被引量：16
6史椸,耿晨,齐勇.一种具有容错机制的MapReduce模型研究与实现[J].西安交通大学学报,2014,48(2):1-7. 被引量：4
7牛晓太.基于KNN算法和10折交叉验证法的支持向量选取算法[J].华中师范大学学报（自然科学版）,2014,48(3):335-338. 被引量：18
8李正杰,黄刚.基于Hadoop平台的SVM_KNN分类算法的研究[J].计算机技术与发展,2016,26(3):75-79. 被引量：7

二级参考文献73

1李青,焦李成,周伟达.基于向量投影的支撑向量预选取[J].计算机学报,2005,28(2):145-152. 被引量：37
2王强,王晓龙,关毅,徐志明.K-NN与SVM相融合的文本分类技术研究[J].高技术通讯,2005,15(5):19-24. 被引量：10
3Tseng Y H, Lin C J, Lin Y I. Text mining techniques for patent analysis. Information Processing and Management, 2007, 43:1216-1247.
4中国科学院计算技术研究所.ICTCLAS汉语分词系统[CP/OL].(2010-12-21)[2012-05-30].http:Nictclas.org/.
5Frantzi K, Ananiadou S, Mima H. Automatic recognition of multi-word terms: the C-value/NC- value method. Intl Journal on Digital Libraries, 2000, 3(2): 115-130.
6Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmen- ting and labeling sequence data // Proceedings of ICML-01. Berkshires of western Massachusetts, 2001: 282 289.
7He Y, Kayaal P M. Biological entity recognition with conditional random fields // Proceedings of AMIA Annual Symposium. Washington, DC, 2008:293-297.
8国家技术监督局.中华人民共和罔国家标准GB/T13715-92信息处理用现代汉语分词规范.北京:中围标准出版社,1993.
9CRF++: Yet Another CRF toolkit [CP/OL]. (2012-05 30) [2012-08-21]. http://crfpp.googlecode.com/svn/trunk/ doe/index.html.
10Hadoop[EB/OL].[2012-10-02]. http://hadoop.apache.org/ index.heml.

共引文献74

1蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
2李莉,刘知远,孙茂松.基于中英平行专利语料的短语复述自动抽取研究[J].中文信息学报,2013,27(6):151-157. 被引量：7
3周栋,刘建勋,王弦,张三蓉.基于关键词提取的专利在先技术搜索方法研究[J].山西大学学报（自然科学版）,2014,37(1):34-41. 被引量：2
4何宏璧,高鹏,张志霞.海量异构云中心数据存储模型及若干关键技术研究[J].中国电子商务,2014(11):10-11. 被引量：2
5陆韦,朱捷飞,崔德义,孟飞.基于“互联网+”的电网用电监察平台设计[J].自动化与仪器仪表,2019(1):103-105. 被引量：2
6陈丽琴.短期波束赋形系统中CQI反馈技术在资源调度中的应用研究[J].电子测量技术,2018,41(23):123-126. 被引量：2
7裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：15
8张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
9侯婷,吕学强,李卓.专利术语抽取的层次过滤方法[J].现代图书情报技术,2015(1):24-30. 被引量：6
10洪婕,张健,胡亮.基于领域本体知识库的专业搜索引擎查询推荐算法研究--以盐湖化工领域为例[J].情报学报,2014,33(10):1091-1098. 被引量：5

同被引文献28

1张宇,刘雨东,计钊.向量相似度测度方法[J].声学技术,2009,28(4):532-536. 被引量：130
2申玉宏.基于单片机及传感器对住院患者体温监测系统的研究[J].科技信息,2010(3). 被引量：1
3殷杭华,陈丽萍,滕姿,乐光学.基于HRCT模型的自主学习交流平台的设计与开发[J].嘉兴学院学报,2010,22(3):127-131. 被引量：1
4王长清,杨琳琳.基于ZigBee技术的体温监测系统的设计[J].河南师范大学学报（自然科学版）,2014,42(1):41-45. 被引量：6
5乌斯琴图亚,李海玲.内蒙古牧区蒙古族高血压患病情况及影响因素调查研究[J].内蒙古医科大学学报,2014,36(1):24-28. 被引量：5
6蒋凌燕,李中科.基于WebSocket和node.js的多终端数据采集系统研究[J].电脑知识与技术,2018,14(11):6-8. 被引量：2
7刘彩利.C/S和B/S混合体系结构的开发与应用[J].电子设计工程,2015,23(14):26-28. 被引量：13
8苗玥,唐思源,王枝梅.基于物联网的学生体温监测定位系统的研究与实现[J].电子测试,2015,26(9):82-84. 被引量：1
9周倩,王培玉,钱永刚,刘爱萍.内蒙古不同类型流动人口高血压现况调查[J].中华高血压杂志,2015,23(9):857-862. 被引量：8
10郑英,李香菊,王迷迷,张立珍.基于NTC和ZigBee技术的病房病人体温监测系统设计[J].现代电子技术,2016,39(4):26-28. 被引量：9

引证文献4

1张钊,陈向东.B/S+C/S架构和KNN算法的远程体温监护系统[J].单片机与嵌入式系统应用,2019,19(7):32-35. 被引量：6
2王晓东,王超,左风云,赵慧茹,马立晨,张宇鹏,吴雅琴.基于蒙古族农牧民高血压大数据的可视化分析与机器学习算法应用比较研究[J].中国数字医学,2019,14(11):24-28. 被引量：3
3吴房胜,何世清.基于B-S架构与KNN算法的自主学习交流平台设计[J].西昌学院学报（自然科学版）,2020,34(3):43-46. 被引量：2
4黄超,陈军华.基于改进K最近邻算法的中文文本分类[J].上海师范大学学报（自然科学版）,2019,48(1):96-101. 被引量：5

二级引证文献16

1张晓,曹林生,刘兴鹏,马长生.室上性心动过速时ST段压低对冠心病的诊断价值[J].临床心血管病杂志,2000,16(5):203-204. 被引量：6
2李万民,兰萍,余应坤,黄玉玺,李伟,姜博旺.基于GPS/GPRS的学生上下学安全监测系统[J].信息技术与信息化,2019,0(9):51-53. 被引量：1
3李旭红,王佳佳,张泉东,潘欣宇,曾晓文.基于多智能体的PC构件生产线智能调度系统[J].制造业自动化,2019,41(11):35-40. 被引量：2
4王晓东,王超,左风云,赵慧茹,马立晨,张宇鹏,吴雅琴.基于蒙古族农牧民高血压大数据的可视化分析与机器学习算法应用比较研究[J].中国数字医学,2019,14(11):24-28. 被引量：3
5徐国天.网络入侵检测中K近邻高速匹配算法研究[J].信息网络安全,2020(8):71-80. 被引量：2
6徐国天.一种高维向量空间K近邻快速搜索方法[J].小型微型计算机系统,2020,41(11):2274-2281. 被引量：5
7付志荣.基于B/S结构框架的计算机辅助艺术设计系统研究[J].长春师范大学学报,2021,40(2):70-76. 被引量：3
8柯艺雅,周小波.基于深度学习的多模态骨癌影像分类诊断系统研究[J].信息与电脑,2021,33(6):136-138. 被引量：1
9付吉菊.校园信息交流平台的设计与实现[J].吉林工程技术师范学院学报,2021,37(5):95-98.
10黄天海,褚永华,邹瞿超,王元吉,王志康.多院区发展背景下基于物联网技术的医疗设备管理实践[J].中国医疗设备,2022,37(1):37-42. 被引量：29

1朱坤,黄瑞章,张娜娜.一种基于MapReduce模型的高效频繁项集挖掘算法[J].计算机科学,2017,44(7):31-37. 被引量：9
2王巧华,伍岳庆,姚宇.基于经食道超声心动图超声数据的心脏病分类[J].计算机应用,2017,37(A01):220-222. 被引量：1
3谢忠红,张琳,孔佳玮.基于内容和支撑向量基算法的微博用户识别和分类[J].金陵科技学院学报,2017,33(2):9-12. 被引量：3
4杨琴.浅谈基于Apache Spark的网络安全入侵检测框架[J].通讯世界,2017,23(15):4-5.
5张爱科.基于云计算Hadoop平台下K-Means聚类方法的研究与改进[J].柳州职业技术学院学报,2017,17(3):104-109.
6杨业,李宏宁,冯洁.一种镜像立体匹配改进算法[J].上海理工大学学报,2017,39(3):269-274. 被引量：1
7侯榜焕,姚敏立,王榕,张峰干,戴定成.面向高光谱图像分类的空谱半监督局部判别分析[J].光学学报,2017,37(7):306-315. 被引量：11
8徐凤平.基于短文本理解和改进聚类的微博热点发现[J].新乡学院学报,2017,34(6):32-37.
9SD-WAN部署迅猛增长，MPLS不会消失[J].网络安全和信息化,2017,0(7):11-11.
10戚后林,顾磊.概率潜在语义分析的KNN文本分类算法[J].计算机技术与发展,2017,27(7):57-61. 被引量：2

计算机应用

2017年第A01期

浏览历史

内容加载中请稍等...

分布式KNN算法在微信公众号分类中的应用被引量：4

参考文献8

二级参考文献73

共引文献74

同被引文献28

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

分布式KNN算法在微信公众号分类中的应用 被引量：4

参考文献8

二级参考文献73

共引文献74

同被引文献28

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

分布式KNN算法在微信公众号分类中的应用被引量：4