数据挖掘技术在Web预取中的应用研究被引量：116

Applying Data Mining to Web Pre-Fetching

下载PDF

导出

摘要 WWW以其多媒体的传输及良好的交互性而倍受青睐 .虽然近几年来网络速度得到了很大的提高 ,但是由于接入 Internet的用户数量剧增以及 Web服务和网络固有的延迟 ,使得网络越来越拥挤 ,用户的服务质量得不到很好的保证 .为此文中提出了一种智能 Web预取技术 ,它能够加快用户浏览 Web页面时获取页面的速度 .该技术通过简化的 WWW数据模型表示用户浏览器缓冲器中的数据 ,在此基础上利用数据挖掘技术挖掘用户的兴趣关联规则 ,存放在兴趣关联知识库中 ,作为对用户行为进行预测的依据 .在用户端 ,智能代理负责用户兴趣的挖掘及基于兴趣关联知识库的 Web预取 ,从而对用户实现透明的浏览器加速 . WWW is popular for its multimedia transmission and friendly interactivity. Although the speed of network has been improved considerably in recent years, the rapid expansion of using the Internet, the inherited character of delay in the network and the Request/Response working mode of WWW still make the Internet traffic very slow and give no guarantee on the Quality of Service. Because HTTP has no states, the web server cannot know the users' demand and the users' requests cannot be predicted. Taking advantage of a cache mechanism and the time locality of WWW accesses, the browser can preserve the documents ever accessed in the local machine. By this means, for the documents in the local cache, the browser does not need to send the requests to the remote server or to receive the whole responses from the remote one. Pre-fetching uses the space locality of accesses. First, the users' access requests are predicted according to the users' current request. Secondly, the expected pages are fetched into the local cache when the user is browsing the current page. Finally, the users can access these pages downloaded from the local cache. And this can reduce the access delay to some degrees. Pre-fetching is one kind of active caches that can cache the pages which are still not requested by the user. The application of pre-fetching technology in the web can greatly reduce the waiting time after users have sent their requests. This paper brings forward an intelligent technique of web pre-fetching, which can speed up fetching web pages. In this technique, we use a simplified WWW data model to represent the data in the cache of web browser to mine the association rules. We store these rules in a knowledge base so as to predict the user's actions. In the client sides, the agents are responsible for mining the users' interest and pre-fetching the web pages, which are based on the interest association repository. Therefore it is transparent for the users to speed up the browsing.

作者徐宝文张卫丰

机构地区东南大学计算机科学与工程系武汉大学国家软件重点实验室

出处《计算机学报》 EI CSCD 北大核心 2001年第4期430-436,共7页 Chinese Journal of Computers

基金国家自然科学基金! (6 0 0 730 12 ) 教育部高等学校骨干教师资助计划资助

关键词 WWW 数据模型数据挖掘浏览器 Web 数据预取数据库知识库 Data structures Internet Quality of service Web browsers World Wide Web

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1张卫丰,徐宝文,周晓宇.Web页面中元素间交互技术研究[J].计算机工程,2000,26(8):62-64. 被引量：8
2张卫丰,徐宝文,周晓宇.Web页面中计数器技术研究[J].小型微型计算机系统,2000,21(10):1096-1099. 被引量：7
3张卫丰,徐宝文,许蕾,陈振强,赵凯华.利用Agent个性化搜索结果[J].小型微型计算机系统,2001,22(6):724-727. 被引量：20
4邹涛,王继成,朱华宇,金翔宇,张福炎.WWW上的信息挖掘技术及实现[J].计算机研究与发展,1999,36(8):1019-1024. 被引量：120
5张卫丰,徐宝文.Web搜索引擎框架研究[J].计算机研究与发展,2000,37(3):376-378. 被引量：48
6陈滢,徐宏炳,王能斌.WWW分布数据源研究——数据模型和查询语言[J].软件学报,1998,9(8):566-573. 被引量：11

二级参考文献18

1姚郑,高文.面向Agent的程序设计风范[J].计算机科学,1995,22(6):7-11. 被引量：13
2[1]The WWW Common Gateway Interface Version 1.1.Communications of ACM, 1986, 29(8):711-721
3[2]Sun Microsystems. JDK 1.1.6 Document. http://www.javasoft.com/products/jdk/1. 1/docs/index.html
4[3]ActiveX. http://www.folkarts.com/journals/activex
5王宁，数据库进展97’——全国第10界数据库会议论文集，1997年
6李水平，小型微型计算机系统，1998年，19卷，4期，74页
7Salton G，Commun ACM，1975年，18卷，11期，613页
8张晓辉,邵华,常桂然.WWW上的信息发现与搜索引擎技术[J].小型微型计算机系统,1998,19(6):66-71. 被引量：39
9李水平,陈意云,黄刘生.数据采掘技术回顾[J].小型微型计算机系统,1998,19(4):74-81. 被引量：38
10邹涛,王继成,朱华宇,金翔宇,张福炎.WWW上的信息挖掘技术及实现[J].计算机研究与发展,1999,36(8):1019-1024. 被引量：120

共引文献181

1张卫丰,徐宝文,周晓宇,许蕾,李东.元搜索引擎结果生成技术研究[J].小型微型计算机系统,2003,24(1):34-37. 被引量：7
2郭海凤.基于网页的图像检索技术研究[J].科技信息,2008(26):66-66.
3杨万春.基于访问控制的内部网搜索引擎[J].科技信息,2009(1).
4宋聚平,王永成.搜索引擎中的信息存储技术[J].计算机工程,2000,26(S1):716-720.
5戴文军,朱立谷,孙志伟,任勇,曾赛峰,郝玮.一种基于搜索引擎的对象存储系统的扩展技术[J].计算机研究与发展,2007,44(z1):126-129.
6卢小华.WWW信息挖掘技术及其在水利水电领域中的应用[J].湖北水力发电,2003(1):69-71.
7周涛,李军,陆惠玲.WEB数据挖掘技术研究[J].汉中师范学院学报,2004,22(3):86-90. 被引量：1
8冯华.基于网络文本分类技术的应用研究[J].科协论坛（下半月）,2009(11):40-40.
9金泰松,耿增民.一个面向电离辐射计量领域的Web挖掘平台[J].核标准计量与质量,2008,0(1):41-48.
10席俊杰,吴中,徐颖.制造业设备前期管理中网络信息挖掘研究[J].制造业自动化,2004,26(10):20-22. 被引量：1

同被引文献759

1石琳,王刊良.网上购物与网上学习中的个人化推荐系统的比较[J].清华大学学报（自然科学版）,2006,46(z1):1030-1035. 被引量：11
2郭亚周,高德远,高翔.模糊聚类分析在入侵检测系统中的应用研究[J].沈阳理工大学学报,2005,24(4):26-28. 被引量：26
3钟芳红.关于高校医院群体性突发疾病预防体系建设的思考[J].陕西师范大学学报（哲学社会科学版）,2005,34(S1):380-382. 被引量：3
4李兴国,于海峰,金芳芳.基于数据挖掘的银行业客户关系管理体系结构[J].合肥工业大学学报（自然科学版）,2004,27(7):725-729. 被引量：5
5张卫丰,徐宝文,周晓宇,许蕾,李东.元搜索引擎结果生成技术研究[J].小型微型计算机系统,2003,24(1):34-37. 被引量：7
6金志刚,杨晋生,胡琳.基于网络性能的智能预取技术[J].计算机工程,2000,26(S1):811-815. 被引量：3
7曹明,闪四清.基于web日志挖掘的数据预处理研究[J].科技资讯,2007,5(4):103-105. 被引量：5
8董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
9张慧颖,梁伟.基于用户访问模式挖掘的网页实时推荐研究[J].计算机应用,2004,24(6):70-73. 被引量：12
10马建红,王万森.基于数据仓库的保险管理系统的设计与实现[J].微机发展,2004,14(7):55-58. 被引量：9

引证文献116

1张辉,何庆勇,惠小珊,但文超,孟培培.蒲辅周先生治疗湿证用药规律的数据挖掘研究[J].世界科学技术-中医药现代化,2021,23(9):3195-3201. 被引量：1
2许又泉,李仁发,申寿云.E-Learning中个性化信息服务用户模型的研究[J].计算机时代,2007(1):68-69. 被引量：3
3周密,董其军.基于用户信息活动的智能数字图书馆研究[J].图书馆学研究,2002(8):59-62. 被引量：3
4许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
5董玉德,王志诚,王明保,李道伦.基于WEB课件中动态题库的设计与开发[J].安徽纺织职业技术学院学报,2003,2(1):1-5.
6杨创新.一种基于主题的Web预取算法研究[J].机电工程技术,2004,33(6):35-36.
7张丽,郭成城,晏蒲柳.基于结构相关性Markov模型的Web网页预取方法[J].计算机工程与应用,2004,40(21):163-166. 被引量：3
8向坚持,陈晓红,刘相滨,徐选华.基于Web Log的数据预处理研究[J].湖南师范大学自然科学学报,2004,27(4):33-36. 被引量：4
9叶新友,晁成春.数据挖掘技术在高校图书馆中的应用[J].新世纪图书馆,2005(1):50-51. 被引量：14
10韩真,曹新平.TOP-N选择Markov预测模型[J].计算机应用,2005,25(3):670-672. 被引量：2

二级引证文献400

1易云飞,覃俊.关联规则挖掘技术在高校人才培养模式中的应用[J].中南民族大学学报（自然科学版）,2007,26(2):83-86. 被引量：4
2许东.冬天来了光雕降了[J].办公自动化,2006(18):24-25.
3孙辉,陈晓云,马志新.基于语句-词条矩阵的聚簇式动态增长聚类算法[J].清华大学学报（自然科学版）,2005,45(S1):1814-1817. 被引量：1
4朱畅华,裴昌幸,李建东,彭爱华,肖海云.分布式网络测量和分析基础架构研究与实现[J].北京邮电大学学报,2004,27(z1):25-31. 被引量：8
5王伟军,陈婧.基于DSpace的企业知识服务平台建设初探[J].情报理论与实践,2008,31(6):920-923. 被引量：4
6徐宏斌,王燕.一种改进的静态取证数据挖掘算法[J].计算机时代,2009(4):7-8.
7傅鹤岗,陆艳军,曾刚.一种基于事件的Web程序测试模型[J].计算机应用,2009,29(3):695-698.
8刘雨.基于聚类的Markov预测模型的改进[J].河南财政税务高等专科学校学报,2009,23(2):81-85.
9龚静,薛德黔.Web用户群模糊聚类挖掘[J].郑州大学学报（理学版）,2009,41(2):48-51.
10许崇,陶宁,徐力,刘冬莉,赵升彬.浅析网页中WEB预取的特点及方法[J].硅谷,2009,2(18).

1陈锋敏.基于云端的Web数据挖掘预取技术研究[J].统计与决策,2010,26(22):161-162. 被引量：2
2马永驰,陈雪凝.一种Web预取的新思路[J].计算机与信息技术,2005(4):33-36.
3王荇,李慧.CRM中用Apriori算法评估客户兴趣度[J].科技风,2008(1):79-80.
4王中生,刘猛.基于重定向技术的Honeynet入侵模式算法研究[J].电子测量技术,2008,31(12):27-30. 被引量：1
5张新霞,王耀青.基于统计相关性的兴趣关联规则的挖掘[J].计算机工程与科学,2003,25(3):60-62. 被引量：3
6邓智龙,张海粟,黄立威.一种基于社区结构的用户兴趣关联规则发现方法[J].计算机应用研究,2012,29(5):1799-1801. 被引量：5
7陈冈,朱茜.Web网络用户兴趣关联系统的设计[J].计算机技术与发展,2014,24(11):199-202.
8王太成.Web数据挖掘在搜索引擎中的应用[J].西南民族大学学报（自然科学版）,2005,31(3):440-443. 被引量：4
9宋海声,杨鸿武,裴东.兴趣关联规则的挖掘[J].甘肃科技,2008,24(22):27-29.
10付霞,周欣,高升宇,孙萧寒.基于兴趣关联的对等网反垃圾邮件过滤模型[J].计算机工程与设计,2008,29(5):1112-1115.

计算机学报

2001年第4期

浏览历史

内容加载中请稍等...

数据挖掘技术在Web预取中的应用研究被引量：116

参考文献6

二级参考文献18

共引文献181

同被引文献759

引证文献116

二级引证文献400

相关作者

相关机构

相关主题

浏览历史

数据挖掘技术在Web预取中的应用研究 被引量：116

参考文献6

二级参考文献18

共引文献181

同被引文献759

引证文献116

二级引证文献400

相关作者

相关机构

相关主题

浏览历史

数据挖掘技术在Web预取中的应用研究被引量：116