Web日志数据挖掘中数据预处理模型的研究与建立被引量：9

Research and Build of Data Preprocessing Model in Web Data Mining

下载PDF

导出

摘要数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。 Data preprocessing is the chief process in the Web log mining. This article advances a kind of popular model of data preprocessing, which divides data preprocessing into five steps： data cleaning, user identification, session identification and format conversion. This model has been tested on the tour Web,which has been proved to be completely feasible,good versatility and extensibility.

作者赵莹莹韩元杰

机构地区桂林电子科技大学

出处《现代电子技术》 2007年第4期103-105,共3页 Modern Electronics Technique

关键词 WEB日志挖掘数据挖掘数据预处理用户标识会话标识 Web log mining data mining data preprocessing user identification session identification

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Mark Sweiger,Mark R Madsen. Cliekstream Data Warehousing[M].北京：电子工业出版社，2004：36—39．
2赵伟,何丕廉,陈霞,谢振亮.Web日志挖掘中的数据预处理技术研究[J].计算机应用,2003,23(5):62-64. 被引量：62
3赵红玲,宋瀚涛,牛振东,刘桂山.Web日志挖掘中数据预处理的研究[J].计算机应用研究,2005,22(6):67-69. 被引量：20
4陈健,印鉴.Web使用挖掘技术研究综述[J].计算机工程,2005,31(9):4-6. 被引量：17

二级参考文献15

1(加)HanJ KamberM.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
2Büchner AG, Mulvenna MD. Discovering Internet Marketing Intelligence through Online Analytical Web Usage Mining [ J]. ACM SIGMOD Record, 1998,27(4) :54 -61.
3Cooley R,Tan Pangning,Srivastava J.Discovery of Interesting Usage Patterns from Web Data.Lecture Notes in Computer Science,Springer-Verlag,2000,1836: 163-182
4Cooley R,Mobasher B,Srivastava J.Data Preparation for Mining World Wide Web Browsing Patterns.Journal of Knowledge and Information Systems,1999,1(1):5-32
5Mobasher B,Cooley R,Srivastava J.Automatic Personalization Based on Web Usage Mining.Communications of the ACM,2000,43(8):142-151
6Buchner A,Mulvenna M D.Discovering Internet Marketing Intelligence Through Online Analytical Web Usage Mining.SIGMOD Record,1998 ,27(4):54-61
7Kamdaf T,Joshi A. On Creating Adaptive Web Servers Using Web Log Mining[ EB/OL ]. http ://citeseer. nj. nec. com/kamdm00creating.html,2002.
8Nanopoulos A, Katsaros D, Manolopoulos Y. Effective Prediction of Web-user Aeeesses:A Data Mining Approach[ EB/OL]. http ://citeseer. nj. nee. eom/nanopoulos01 effective. html,2001.
9Bartolini G, Redpath R. Web Usage Mining and Discovery of Association Rules from H'ITP Servers Logs [ EB/OL ]. http ://www. plato.linux. it/2 gbartolini/pdf/wum. pdf,2001.
10[加]HartJ KamberM.数据挖掘概念与技术[M].北京:机械工业出版社,2001..

共引文献90

1张玉霞,陈浩然.服务于网络广告的使用挖掘的主动数据收集技术[J].硅谷,2009,2(3):65-66. 被引量：1
2侯锟,刘斌.Web使用挖掘研究[J].电脑学习,2009(6):132-133.
3靳风荣,郑雪峰.Web日志挖掘的预处理过程及算法[J].微型电脑应用,2004,20(6):44-45. 被引量：5
4柳胜国.Web日志挖掘数据预处理方法研究[J].现代图书情报技术,2004(12):55-57. 被引量：2
5焦文彬,及俊川,丛培民.基于DTS的Web日志分析系统[J].微型机与应用,2004,23(12):32-33. 被引量：3
6党伟升,张力.基于文件服务器日志的测试用例设计[J].计算机工程,2005,31(20):80-81.
7王利.Web挖掘在个性化学习网站中的应用[J].福建电脑,2006(1):93-94. 被引量：1
8方成效,袁可风.Web日志挖掘的数据预处理研究[J].计算机与现代化,2006(4):79-81. 被引量：12
9周增国,庞有军.Cookie技术在Web日志挖掘预处理中的应用[J].大连大学学报,2006,27(2):59-62. 被引量：4
10潘有能.基于XML的Web日志挖掘研究[J].现代图书情报技术,2006(5):62-64. 被引量：2

同被引文献90

1郑明秀,杨明根.一阶马尔可夫链在点击流分析中的应用[J].西南民族大学学报（自然科学版）,2007,33(1):174-177. 被引量：4
2吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
3郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
4王勋,凌云,费玉莲.基于Web日志和缓存数据挖掘的个性化推荐系统[J].情报学报,2005,24(3):324-328. 被引量：14
5杨清莲,周庆敏,常志玲.Web挖掘技术及其在网络教学评价中的应用[J].南京工业大学学报（自然科学版）,2005,27(5):100-103. 被引量：12
6姚洪波,杨炳儒.Web日志挖掘数据预处理过程技术研究[J].微计算机信息,2006,22(06X):234-236. 被引量：17
7胡亚慧,赵红军,鲁汉榕,王海杰.关于提取Web用户浏览行为特征的研究[J].计算机工程与设计,2006,27(18):3416-3418. 被引量：5
8陈晓毅.高校精品课程网站建设的几点不足[J].科技情报开发与经济,2007,17(3):257-258. 被引量：40
9李双双,陈毅文.点击流:一种研究网上消费者的新范式[J].心理科学进展,2007,15(4):715-720. 被引量：4
10余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[C]//第三届学生计算语言学研讨会.沈阳:[出版者不详],2006.

引证文献9

1赵娜,田保慧,姜建国.基于加权矩阵聚类的Web日志挖掘算法[J].现代电子技术,2008,31(12):85-87. 被引量：1
2王长征.基于Web日志挖掘的网上教学质量评估方法研究[J].科技广场,2008(5):111-112.
3刘颖,彭赓,吕本富,陈杰,梅梅.基于Web日志的用户访问路径提取与分析[J].情报学报,2009,28(4):548-556. 被引量：7
4宋莹,沈奇威,王晶.基于Hadoop的Web日志预处理的设计与实现[J].电信工程技术与标准化,2011,24(11):84-89. 被引量：5
5于华,张文盛.基于Web日志的网站优化方案的设计与实现[J].办公自动化（综合月刊）,2012(6):23-24. 被引量：1
6汤伟,黄培磊,陈璐艺,冯皪魏.一种基于统计模型的动态Web日志事务分割算法[J].软件产业与工程,2014(1):35-38.
7程秀峰,毕崇武.移动用户信息行为研究进展[J].图书情报工作,2015,59(4):129-136. 被引量：3
8张拥华.基于云平台的分布式日志系统设计与实现[J].信息与电脑,2015,27(9):130-131. 被引量：1
9李建,曾新励.基于Hadoop的民航日志分析系统及应用[J].软件导刊,2017,16(1):100-103.

二级引证文献18

1张梅,赵晓平,王宇平,周洁.基于海量日志数据的系统吞吐量优化方案[J].区域治理,2018,0(35):217-218.
2熊熙.基于Web日志挖掘的个性化服务技术的研究[J].网络安全技术与应用,2010(6):61-64. 被引量：1
3刘颖,吕本富,彭赓.网络搜索对股票市场的预测能力:理论分析与实证检验[J].经济管理,2011,37(1):172-180. 被引量：44
4白如江,杨振瑜,王效岳.基于大规模搜索日志的中文长句查询分析研究[J].情报学报,2013,32(10):1090-1098. 被引量：2
5王继民,李雷明子,孟凡,郑玉凤.基于用户日志的移动搜索行为分析[J].图书情报工作,2013,57(19):102-106. 被引量：23
6赵洁,温润,周峰,金培权.基于Web用户日志的电子商务领域竞争对手分析——以11家电子商务网站为例[J].信息资源管理学报,2013,3(4):53-62. 被引量：4
7王继民,李雷明子,郑玉凤.基于日志挖掘的移动搜索用户行为研究综述[J].情报理论与实践,2014,37(3):134-139. 被引量：15
8周欣,陆康.基于图书馆数字资源访问系统的读者行为数据挖掘研究[J].现代情报,2016,36(1):51-56. 被引量：30
9蒋骁.移动阅读用户行为趋势与研究展望[J].图书馆工作与研究,2016(4):24-27. 被引量：16
10杨勇,任淑霞,冉娟,李春青.基于粒子群优化的k-means改进算法实现Web日志挖掘[J].计算机应用,2016,36(A01):29-32. 被引量：7

1沈晨鸣.基于数据仓库的数据预处理模型的算法研究[J].淮阴工学院学报,2005,14(5):44-46. 被引量：3
2罗艳霞.基于数据仓库的无线网络优化数据预处理[J].电脑编程技巧与维护,2010(24):70-71.
3陆丽娜,杨怡玲,管旭东,魏恒义.Web日志挖掘中的数据预处理的研究[J].计算机工程,2000,26(4):66-67. 被引量：57
4蒋石浩,林亚平.移动用户行为分析的数据预处理算法应用研究[J].计算机与数字工程,2010,38(1):28-31. 被引量：2
5周海洋,余剑.无线传感器网络中基于RSSI的测距研究[J].电子测量技术,2014,37(1):89-91. 被引量：14
6刘春余.双向转发检测(BFD)关键参数研究[J].数字技术与应用,2014,32(11):56-57. 被引量：2
7李玲.Web日志数据挖掘的个性化推荐系统的探析[J].科技风,2014(18):45-45. 被引量：1
8陈勇飞,王羡欠.Web日志数据挖掘技术及应用[J].硅谷,2009,2(4). 被引量：1
9丁达志,曹晓东,周勇.基于.NET的Web Services安全技术实现[J].电脑开发与应用,2006,19(2):31-34. 被引量：1
10卫剑钒,段云所,唐礼勇,陈钟.双主体安全协议的DoS动态防御[J].计算机研究与发展,2005,42(10):1673-1678.

现代电子技术

2007年第4期

浏览历史

内容加载中请稍等...

Web日志数据挖掘中数据预处理模型的研究与建立被引量：9

参考文献4

二级参考文献15

共引文献90

同被引文献90

引证文献9

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

Web日志数据挖掘中数据预处理模型的研究与建立 被引量：9

参考文献4

二级参考文献15

共引文献90

同被引文献90

引证文献9

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

Web日志数据挖掘中数据预处理模型的研究与建立被引量：9