期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
Conceptualizing Mining of Firm's Web Log Files 被引量:1
1
作者 Ruangsak TRAKUNPHUTTHIRAK Yen CHEUNG Vincent C.S.LEE 《Journal of Systems Science and Information》 CSCD 2017年第6期489-510,共22页
In this era of a data-driven society, useful data(Big Data) is often unintentionally ignored due to lack of convenient tools and expensive software. For example, web log files can be used to identify explicit informat... In this era of a data-driven society, useful data(Big Data) is often unintentionally ignored due to lack of convenient tools and expensive software. For example, web log files can be used to identify explicit information of browsing patterns when users access web sites. Some hidden information,however, cannot be directly derived from the log files. We may need external resources to discover more knowledge from browsing patterns. The purpose of this study is to investigate the application of web usage mining based on web log files. The outcome of this study sets further directions of this investigation on what and how implicit information embedded in log files can be efficiently and effectively extracted. Further work involves combining the use of social media data to improve business decision quality. 展开更多
关键词 web usage mining web log files Big Data machine learning business intelligence
原文传递
电子商务与Web数据挖掘 被引量:47
2
作者 邹显春 谢中 周彦晖 《计算机应用》 CSCD 北大核心 2001年第5期21-23,共3页
在电子商务中 ,运用数据挖掘技术对服务器上的日志文件等Web数据进行客户访问信息的Web数据挖掘 ,了解客户的访问行为 ,从而调整站点结构、市场策略等 ,使电子商务活动具有针对性。
关键词 电子商务 INTERNET web 数据挖掘 数据源
下载PDF
Web日志挖掘中的数据预处理研究 被引量:4
3
作者 卢健 刁雅静 《江苏科技大学学报(自然科学版)》 CAS 2012年第1期81-85,共5页
Web日志挖掘中,数据源(日志文件)的复杂性是挖掘所面临的主要问题之一.针对Web日志挖掘的数据预处理问题,全面梳理了数据预处理的全过程.针对日志文件数据量巨大的难题,使用Python语言程序高效的实现了数据清理.在用户识别、会话识别和... Web日志挖掘中,数据源(日志文件)的复杂性是挖掘所面临的主要问题之一.针对Web日志挖掘的数据预处理问题,全面梳理了数据预处理的全过程.针对日志文件数据量巨大的难题,使用Python语言程序高效的实现了数据清理.在用户识别、会话识别和路径完善中,在传统方法的基础上引入了启发性规则,通过实验数据验证了方法的有效性. 展开更多
关键词 web挖掘 web日志挖掘 数据预处理
下载PDF
Web挖掘技术研究 被引量:21
4
作者 张蓉 《计算机工程》 EI CAS CSCD 北大核心 2006年第15期4-6,共3页
随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该... 随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。 展开更多
关键词 web挖掘 日志文件 文档聚类 矢量空间模型 关联规则
下载PDF
基于Apriori的Web访问模式挖掘算法 被引量:3
5
作者 刘美玲 苏毅娟 《计算机与现代化》 2013年第10期1-5,共5页
简要介绍Apriori算法与Web访问路径的有向图表示方法,提出一种从Web日志文件中得到频繁访问模式的算法,该算法以Apriori算法为基础,并以访问路径序列的有序性特点作为候选集的剪枝策略,减少候选集的生成,提高算法的效率。在真实数据集... 简要介绍Apriori算法与Web访问路径的有向图表示方法,提出一种从Web日志文件中得到频繁访问模式的算法,该算法以Apriori算法为基础,并以访问路径序列的有序性特点作为候选集的剪枝策略,减少候选集的生成,提高算法的效率。在真实数据集和模拟数据集上分别进行实验,实验结果表明该算法是有效的,且适应性好。 展开更多
关键词 WFTP算法 web日志文件 数据挖掘 频繁访问路径 有序访问路径
下载PDF
浏览行为数据在Web用法挖掘中的应用 被引量:2
6
作者 杨凡丁 刘建平 严奉华 《浙江理工大学学报(自然科学版)》 2008年第6期689-693,708,共6页
网站用户的浏览行为的不确定性导致从现有的Web日志文件挖掘出的事务模式来预测用户行为越来越困难。引入一种新的数据类型浏览行为数据(BAD)用于提高Web用法挖掘的质量,BAD是一种特殊的浏览数据,如"复制","滚动",&... 网站用户的浏览行为的不确定性导致从现有的Web日志文件挖掘出的事务模式来预测用户行为越来越困难。引入一种新的数据类型浏览行为数据(BAD)用于提高Web用法挖掘的质量,BAD是一种特殊的浏览数据,如"复制","滚动","另存为",并且没有被日志文件所记录,并给出了BAD的定义。为了象Web日志文件一样记录BAD,介绍并使用一种现有的在线数据收集模块来捕获用户BAD。通过一个电子商务程序的实例说明BAD能增加现有Web事务挖掘算法的有效性。 展开更多
关键词 web用法挖掘 浏览行为数据 web日志文件 浏览行为
下载PDF
基于日志内容的Web系统评价 被引量:1
7
作者 陈汶滨 赵萍萍 王申申 《信息技术》 2010年第5期205-206,共2页
近年来随着计算机网络技术的迅猛发展,Web系统的应用渗入到社会的各个领域,在Web系统规模不断扩大的同时其复杂性也变得越来越高。由于Web应用系统具有异构、分布、并发和平台无关的特点。因此,对Web应用系统的软件质量管理,具有其特殊... 近年来随着计算机网络技术的迅猛发展,Web系统的应用渗入到社会的各个领域,在Web系统规模不断扩大的同时其复杂性也变得越来越高。由于Web应用系统具有异构、分布、并发和平台无关的特点。因此,对Web应用系统的软件质量管理,具有其特殊性。提出了一个针对Web应用系统质量评估的新方法,该方法利用Web系统日志文件中提取吞吐量和并发用户数目等相关信息,通过对这些信息的研究、分析、处理,得出对该Web应用系统的质量评价。 展开更多
关键词 软件质量 web应用系统 日志文件
下载PDF
基于Web日志文件的孤立点检测算法 被引量:2
8
作者 陈宝国 郑丽英 《计算机与数字工程》 2010年第5期35-37,共3页
Web挖掘是数据挖掘的重要研究分支之一。Web日志文件为Web挖掘提供了数据源,日志信息的孤立点检测是数据预处理的重要环节。介绍Web日志文件的构成,提出一种基于Web日志文件的孤立点检测算法,通过实验对算法进行进一步分析,并对其应用... Web挖掘是数据挖掘的重要研究分支之一。Web日志文件为Web挖掘提供了数据源,日志信息的孤立点检测是数据预处理的重要环节。介绍Web日志文件的构成,提出一种基于Web日志文件的孤立点检测算法,通过实验对算法进行进一步分析,并对其应用领域做简单概括。 展开更多
关键词 数据挖掘 web挖掘 孤立点检测 日志文件
下载PDF
一种新的基于交叉性Web日志的事务识别算法 被引量:3
9
作者 高卫华 谢康林 《计算机仿真》 CSCD 2005年第7期51-53,74,共4页
该文提出一种新的Web使用记录挖掘过程中的事务识别算法。该算法提出的背景是在采用基于最大向前引用和频繁遍历路径的方法进行Web用户访问模式挖掘时,通过对实验结果数据、源日志文件、用户使用互联网的特点以及互联网本身的局限进行... 该文提出一种新的Web使用记录挖掘过程中的事务识别算法。该算法提出的背景是在采用基于最大向前引用和频繁遍历路径的方法进行Web用户访问模式挖掘时,通过对实验结果数据、源日志文件、用户使用互联网的特点以及互联网本身的局限进行了详细地分析和考察,发现了交叉性日志的存在。源数据新特性的出现,使得原算法在性能上有了明显的下降,因此,提出了新的基于有向图深度优先遍历的算法思想。该文设计了有针对性的模拟实验,实验结果无论从冗余事务的减少量或者事务的平均长度上都证明了新算法的优越性。 展开更多
关键词 互联网使用记录挖掘 交叉性日志 最大向前引用 频繁遍历路径
下载PDF
Web用户聚类中访问路径差异性度量方法的研究
10
作者 牛晓晨 王劲松 邢高峰 《计算机应用与软件》 CSCD 北大核心 2013年第3期196-199,共4页
用户访问路径是Web用户聚类时度量用户兴趣度的参数之一。结合日志记录的特点,从参数的数学特征出发,设计一种基于二进制数表示的访问路径矩阵来度量用户的兴趣度,并给出新的相异度矩阵构造法。实验表明,所提出的访问路径矩阵是可行的,... 用户访问路径是Web用户聚类时度量用户兴趣度的参数之一。结合日志记录的特点,从参数的数学特征出发,设计一种基于二进制数表示的访问路径矩阵来度量用户的兴趣度,并给出新的相异度矩阵构造法。实验表明,所提出的访问路径矩阵是可行的,生成的相异度矩阵在表现用户访问路径差异上是准确的。 展开更多
关键词 web用户聚类 访问路径矩阵 相异度矩阵 日志文件
下载PDF
Web日志挖掘与Web结构挖掘相结合的挖掘过程
11
作者 刘丽娜 付帅 《电脑编程技巧与维护》 2014年第8期88-89,共2页
Web挖掘常常被分成Web内容挖掘、Web结构挖掘和Web使用挖掘三类。Web使用挖掘又称为Web日志挖掘,是指从万维网用户的导航行为中发现有价值的信息的一种数据挖掘技术。Web日志挖掘一般有4个步骤:数据预处理、挖掘过程、模式分析和知识发... Web挖掘常常被分成Web内容挖掘、Web结构挖掘和Web使用挖掘三类。Web使用挖掘又称为Web日志挖掘,是指从万维网用户的导航行为中发现有价值的信息的一种数据挖掘技术。Web日志挖掘一般有4个步骤:数据预处理、挖掘过程、模式分析和知识发现。数据预处理是对网站日志文件中的数据进行整理,清洗不完全的、杂乱的、噪声数据;模式分析是指提取用户不感兴趣的信息,并找到用户感兴趣的模式的过程;知识发现是指从日志文件中收集并发现有用知识的统计。主要介绍Web日志挖掘与Web结构挖掘相结合来完成挖掘过程及其应用。 展开更多
关键词 web挖掘 网络站点 点击率 日志文件 应用
下载PDF
Web日志挖掘中网站拓扑结构获取技术的研究
12
作者 牛晓晨 《电脑知识与技术》 2011年第1期4-6,共3页
网站拓扑结构在Web日志挖掘中的数据预处理阶段起着十分重要的作用,因此数据预处理阶段的一个关键问题就是如何获取网站拓扑结构。该文提出了一种通过Web服务器的日志文件来获取网站拓扑结构的方法。其中包括获取过程中遇到的问题及解... 网站拓扑结构在Web日志挖掘中的数据预处理阶段起着十分重要的作用,因此数据预处理阶段的一个关键问题就是如何获取网站拓扑结构。该文提出了一种通过Web服务器的日志文件来获取网站拓扑结构的方法。其中包括获取过程中遇到的问题及解决方案、关键算法和网站拓扑结构的存储结构等。 展开更多
关键词 拓扑结构 web日志挖掘 数据预处理 日志文件
下载PDF
Hadoop平台下的并行Web日志挖掘算法 被引量:6
13
作者 周诗慧 殷建 《计算机工程》 CAS CSCD 2013年第6期43-46,共4页
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算... 当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法。 展开更多
关键词 Hadoop框架 web挖掘 web日志 MapReduce编程模式 HADOOP分布式文件系统 并行FP-growth算法
下载PDF
基于Webalizer的Web服务器日志分析 被引量:4
14
作者 刘静 郭秀丽 《山东电子》 2004年第2期15-16,19,共3页
Webalizer是一个Web服务器日志分析工具 ,分析结果以列表和图片形式显示并保存成HTML文件格式 ,可以通过浏览器进行浏览 ,也可以将统计结果导出 。
关键词 webalizer web服务器 日志分析工具 HTML文件格式 网络管理 配置文件
下载PDF
Web使用挖掘在网络学习中的应用研究
15
作者 汪志云 《广东技术师范学院学报》 2011年第6期31-33,66,共4页
在讨论Web使用挖掘在网络学习中的应用过程中,提出一种改进的基于向量的聚类算法.在算法中,首先以学习站点的URL为行、以UserID为列建立页面用户关联矩阵,元素值为学习者的访问次数,然后使用欧氏距离进行度量向量之间的相似性,对列向量... 在讨论Web使用挖掘在网络学习中的应用过程中,提出一种改进的基于向量的聚类算法.在算法中,首先以学习站点的URL为行、以UserID为列建立页面用户关联矩阵,元素值为学习者的访问次数,然后使用欧氏距离进行度量向量之间的相似性,对列向量进行相似性分析得到相似学习者群体,对行向量进行相似性度量获得相关Web页面.分析表明,Web使用挖掘在网络学习中的应用是可行、有效的. 展开更多
关键词 日志文件 聚类算法 欧氏距离
下载PDF
基于Web技术的图书馆个性化服务模型
16
作者 布艳艳 《微型电脑应用》 2021年第7期166-169,共4页
为提升图书馆个性化服务效率与精度,提出了基于Web技术的图书馆个性化服务模型。该模型首先收集各类数据源,构成Web日志文件与Web数据库,并对源数据进行处理获取用户会话文件,然后采用FP-growth_S算法求出最大频繁项目集,依据最大频繁... 为提升图书馆个性化服务效率与精度,提出了基于Web技术的图书馆个性化服务模型。该模型首先收集各类数据源,构成Web日志文件与Web数据库,并对源数据进行处理获取用户会话文件,然后采用FP-growth_S算法求出最大频繁项目集,依据最大频繁项目集与可信度采用IN_FP算法挖掘用户会话文件,生成关联规则并排序,最后根据关联规则向用户推荐所需图书信息,实现图书馆个性化服务。结果表明,所提出的模型服务运行效率高,推荐范围广且准确性高,可对不同用户实施个性化推荐服务,实际应用效果明显。 展开更多
关键词 web技术 图书馆 个性化服务 数据收集 数据预处理 数据挖掘 日志文件
下载PDF
基于SQL的频繁项目集的研究 被引量:4
17
作者 王涛伟 胡锡伟 柴本成 《计算机工程与设计》 CSCD 北大核心 2006年第23期4494-4497,共4页
Apriori算法是关联规则中挖掘频繁项目集的典型算法。在Apriori算法的基础上,利用关系数据库管理系统的强大功能和SQL语言操作简单,效率高的特点,提出了基于SQL的Apriori算法。该算法实现简单快速,可有效缩小扫描数据库的大小。将该算... Apriori算法是关联规则中挖掘频繁项目集的典型算法。在Apriori算法的基础上,利用关系数据库管理系统的强大功能和SQL语言操作简单,效率高的特点,提出了基于SQL的Apriori算法。该算法实现简单快速,可有效缩小扫描数据库的大小。将该算法应用于经过数据预处理的Web日志文件数据库,实验结果显示该算法是有效的。 展开更多
关键词 数据挖掘 关联规则 频繁项目集 SQL 数据预处理 web日志文件
下载PDF
基于Bayes概率的用户兴趣发现 被引量:3
18
作者 李晓丽 杜振龙 +1 位作者 李明 余冬梅 《计算机工程与科学》 CSCD 2003年第5期17-19,26,共4页
本文结合网页结构,充分考虑用户在网页的滞留时间和页面切换,基于Bayes概率提出了一种能挖掘出优良的用户兴趣迁移模式及感兴趣的页面。采用本文提出的思想及算法,再结合人工智能策略,将能更好地辅助网站设计,并为电子商务的决策提供充... 本文结合网页结构,充分考虑用户在网页的滞留时间和页面切换,基于Bayes概率提出了一种能挖掘出优良的用户兴趣迁移模式及感兴趣的页面。采用本文提出的思想及算法,再结合人工智能策略,将能更好地辅助网站设计,并为电子商务的决策提供充分依据。 展开更多
关键词 网页结构 Bayes概率 用户兴趣发现 电子商务
下载PDF
一种基于ExLF日志文件的用户会话识别启发式算法 被引量:4
19
作者 冯林 何明瑞 罗芬 《计算机应用》 CSCD 北大核心 2005年第2期314-316,共3页
在详细介绍ExLF日志文件格式的基础上,定义了会话表;阐述了用户会话识别图的概念;给出了生成此会话识别图的一种启发式算法。最后,用一个例子验证了算法的有效性。
关键词 EXLF日志文件格式 web挖掘 用户会话识别图
下载PDF
面向服务工作流补偿机制的研究与实现 被引量:3
20
作者 张华 王茜 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第1期40-46,共7页
为了解决面向服务工作流中异常的动态补偿问题,在传统工作流异常处理理论的基础上,结合Web Services的事务处理的特点,提出了基于工作流执行日志实施补偿的策略.补偿过程包括补偿判断、补偿路线产生和补偿行为调用,异常管理器控制补偿... 为了解决面向服务工作流中异常的动态补偿问题,在传统工作流异常处理理论的基础上,结合Web Services的事务处理的特点,提出了基于工作流执行日志实施补偿的策略.补偿过程包括补偿判断、补偿路线产生和补偿行为调用,异常管理器控制补偿的执行过程.因为服务具有动态调用、动态执行特点,异常管理器需要在业务运行时依据工作流基本模式和事务依赖关系确定补偿范围,动态生成补偿路线并调用相应的补偿操作.为了验证补偿策略的可行性和正确性,实现了基于Web Services的原型系统WFCF.实验表明,该机制在失效补偿范围和补偿行为调用2个方面提高了工作流异常恢复的效率. 展开更多
关键词 工作流异常 补偿机制 执行日志 回滚 web服务
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部