医院网站日志挖掘数据预处理的研究被引量：1

Data Preprocessing of Hospital Web Log Mining

下载PDF

导出

摘要数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。 Data preprocessing is the basis of data mining.This paper took hospital website access records as an example,studied the concept and data preprocessing.It got a similarity matrix as algorithm input by using database technology and Matlab to eliminate data redundancy and complexity and setting up a metric of web page and user relevance.The user identification and page clustering criterion of the similarity matrix is focused.The result greatly reduces the data redundancy and dimension,improves the accuracy of preprocessing and increases the input information content of data mining algorithm.

作者蒙华苏静李立峰翟玉兰 MENG Hua;SU Jing;LI Lifeng;ZHAI Yulan(Computer Information Center,The First Aaffiliated Hospital,School of Information and Management,Guangxi Medical University,Nanning 530021,China;Teaching and Research Section,School of Information and Management,Guangxi Medical University,Nanning 530021,China)

机构地区广西医科大学第一附属医院计算机管理中心广西医科大学信息与管理学院教研科

出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2019年第8期144-148,共5页 Journal of Chongqing University of Technology：Natural Science

基金广西高校科学研究技术项目(KY2015LX045) 广西医科大学青年科学基金资助项目(GXMUYSF201511)

关键词医院网站日志挖掘数据预处理用户识别页面聚类相似度矩阵 hospital web log mining data preprocessing user identification page clustering similarity matrix

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1毛乾任,王朝斌.基于C4.5决策树的大学生笔记本电脑购买行为的数据挖掘[J].重庆理工大学学报（自然科学）,2015,29(2):76-81. 被引量：8
2许芳,李媛.新型的Web使用挖掘数据预处理方法[J].信息技术,2016,40(4):193-195. 被引量：2
3蔡艳婧,王强,程实.基于分布式集群的网络浏览行为大数据分析平台构建[J].中国电子科学研究院学报,2019,14(1):1-7. 被引量：18
4陈平,王利钢.基于数据挖掘联合模型的高职学生网络学习行为分析[J].牡丹江大学学报,2018,27(5):124-127. 被引量：10
5伍凯,贺正洪,张晶,赵敏.三种RBF网络函数逼近性能对比及应用研究[J].火力与指挥控制,2018,43(3):163-167. 被引量：5
6林丽娜,魏德志.EP-RBF神经网络在时间序列预测中的应用[J].重庆理工大学学报（自然科学）,2016,30(11):121-126. 被引量：3
7杨剑,宋超峰,宋文爱,张涛.基于遗传算法的模糊RBF神经网络对遥感图像分类[J].小型微型计算机系统,2018,39(3):621-624. 被引量：16
8王炎.数据挖掘技术下的个性化智能推荐系统设计[J].微型电脑应用,2019,35(2):119-121. 被引量：9
9李麟,徐琳.分布式异构网络网关数据交换系统设计（英文）[J].机床与液压,2018,46(12):145-150. 被引量：3
10袁艺,陈海光.web日志挖掘中会话识别方法[J].上海师范大学学报（自然科学版）,2016,45(5):593-598. 被引量：1

二级参考文献114

1段明秀.基于遗传算法的模糊RBF神经网络设计及应用[J].吉首大学学报（自然科学版）,2010,31(1):43-46. 被引量：3
2刘东旗,刘新中,卜令俊.基于无线传感网络的远程抄表系统信息智能传输的实现[J].电测与仪表,2009,46(S2):46-50. 被引量：5
3刘坤.基于遗传算法的间接自校正模糊神经网络控制[J].组合机床与自动化加工技术,2004(12):76-78. 被引量：3
4陈子军,王鑫昱,李伟.一种Web日志会话识别的优化方法[J].计算机工程,2007,33(1):95-97. 被引量：18
5肖本贤,王晓伟,刘一福.MPSO-RBF优化策略在锅炉过热系统辨识中的仿真研究[J].系统仿真学报,2007,19(6):1382-1385. 被引量：10
6俞勇.Web数据挖掘[M].北京:清华大学出版社,2009.
7Honkanen P, Olsen S, Myrland O. Preference-based Seg- mentation : A study of meal preferences among Norweigian teenager [ J]. Journal of consumer Behavior,2004,3 (3) : 235 - 250.
8Mobasher B. Web Usage Mining In John Wang, Encyclo- pedia of Data Warehousing and Mining[ M]. Idea Group, 2006.
9Jefrey Lijffijt, Panagiotis Papapetrou. A statistical signifi- cance testing approach to mining the most informative set of patterns [ J ]. Data Mining and Knowledge Discovery, 2014,28 ( 1 ) :238 - 263.
10林嘉.系统设计和基于用户行为分析[D].广州:中州大学,2013.

共引文献83

1王瓴.信息化医疗网络跨区域异构数据智能交换方法研究[J].科技通报,2020,36(4):51-55. 被引量：3
2耿德志.分布式集群环境下数据挖掘优化算法研究[J].信息通信,2019,0(12):65-66.
3汤罗圣,王云安,邓长青,於开炳,黄文涛.滑坡自动监测预警与应急处置分析[J].中外公路,2020,40(S02):101-104.
4易心.CIS的意义与作用[J].湖南包装,2000,15(1):41-43.
5王晓耘,张树华,鲁天琦,姜瑜斐.基于RFM分析与聚类算法的网络团购用户分类研究[J].生产力研究,2016(7):115-120. 被引量：5
6陈妮.基于C4.5的企业运营资金流向分析研究[J].自动化与仪器仪表,2017(5):104-105. 被引量：1
7张鹏翼,王丹雪,焦祎凡,陈秀雨,王军.基于用户浏览日志的移动购买预测研究[J].数据分析与知识发现,2018,2(1):51-63. 被引量：8
8阳小兰,钱程,朱福喜.基于云计算的大数据服务资源评价方法[J].计算机科学,2018,45(5):295-299. 被引量：14
9陈广胜,陈守玉,景维鹏,李超.基于遗传算法与全卷积网络的遥感影像像素级分类方法[J].小型微型计算机系统,2018,39(7):1590-1595. 被引量：3
10刘艳菊,李伯权,任行,刘彦忠,刘相娟.三维重建技术在义齿模型中的应用研究[J].现代信息科技,2018,2(5):186-188.

同被引文献5

1尤建新,孟银薇.基于Web数据挖掘的网站知识获取及应用——以大众点评网为例[J].上海大学学报（自然科学版）,2014,20(3):261-273. 被引量：6
2韦婷婷,方宏宇,宋世领,骆威,张建桃,熊俊涛.大数据背景下数据分析类岗位的招聘特征挖掘[J].现代计算机,2019,0(25):14-17. 被引量：5
3陈洲,陆南.基于K-Means算法的Web日志用户聚类研究[J].计算机与数字工程,2020,48(3):643-647. 被引量：5
4熊萱,李一,喻冬柯,张远.利用TCGA公共数据库挖掘乳腺癌预后相关长链非编码RNA生物标志物[J].华中科技大学学报（医学版）,2020,49(3):260-265. 被引量：3
5王书敏,张瑜.大数据环境下高职院校的数据安全问题[J].电子元器件与信息技术,2020,4(11):70-71. 被引量：1

引证文献1

1李木昌.基于大数据挖掘的职业院校官方网站安全对策[J].新型工业化,2020,10(11):110-111.

1杨文保,朱亚飞,卢峰,周泉,汪娟,查诺.日志挖掘分析在智能化网络运维中的应用研究[J].中国战略新兴产业（理论版）,2019,0(21):0125-0125.
2尤枫,张雅峰,赵瑞莲,马金慧.基于页面聚类的Web应用测试方法研究[J].计算机工程与应用,2018,54(5):51-56. 被引量：7
3邱丹.亚洲的超级App时代[J].服务外包,2019,0(6):42-45.
4张征,王宏志,丁小欧,李建中,高宏.社交网络中同一用户的识别[J].计算机科学,2019,46(9):93-98. 被引量：1
5张文静.新媒体在健康传播中的应用现状及发展趋势探讨[J].传播力研究,2019,3(25):120-120. 被引量：4
6叶德华.磁共振成像在肩袖损伤诊断中的临床应用[J].影像技术,2019,31(5):15-17.
7张冬梅.溶血标本对肝功能检验结果准确性的影响[J].世界最新医学信息文摘,2019,0(50):228-228.
8石凯.基于互信息和半监督学习的入侵检测研究[J].现代计算机,2019,0(23):18-23. 被引量：1
9张立川,梁新星,赵声贵,刘林红,盛汝国.某生物堆浸场主泵站冗余度评价和管道改造工业试验[J].云南冶金,2019,48(4):94-98.
10董辉.大数据时代统计模式变革的思考分析[J].市场周刊·理论版,2019(28):111-111.

重庆理工大学学报（自然科学）

2019年第8期

浏览历史

内容加载中请稍等...

医院网站日志挖掘数据预处理的研究被引量：1

参考文献12

二级参考文献114

共引文献83

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

医院网站日志挖掘数据预处理的研究 被引量：1

参考文献12

二级参考文献114

共引文献83

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

医院网站日志挖掘数据预处理的研究被引量：1