-
题名基于Hadoop的Web日志分析系统设计
被引量:4
- 1
-
-
作者
褚龙现
陈婉冰
-
机构
平顶山学院软件学院
-
出处
《信息与电脑》
2020年第20期116-118,共3页
-
文摘
电子商务网站在运行过程中会产生海量的访问日志数据,通过分析Web日志可以获取有价值的信息,并为网站运营提供决策支持。针对传统日志分析系统处理大数据能力不足的问题,本文提出基于Hadoop分布式平台的日志分析系统,充分利用HDFS分布式存储能力和MapReduce并行计算能力实现日志向点击流数据处理,借助Hive数据仓库实现日志分析。
-
关键词
web日志
点击流
HADOOP
数据仓库
-
Keywords
web logs
click stream
Hadoop
data warehouse
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Web挖掘在网络广告点击欺诈检测中的应用
被引量:5
- 2
-
-
作者
李爱春
滕少华
-
机构
广东工业大学计算机学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2012年第3期957-962,共6页
-
基金
广东省自然科学基金项目(06021484
9151009001000007
+2 种基金
9451009001002777)
广东省科技计划基金项目(2008A060201011)
韶关市科技计划基金项目(2010CXY/C05)
-
文摘
为有效解决网络广告中存在的点击欺诈问题,提出了一种基于Web挖掘算法的解决方案,并设计了一套点击欺诈检测模型。该模型通过对点击流进行时序分析、离群点挖掘、非线性分析等操作,能有效检测或屏蔽各类点击欺诈,有效屏蔽无意识的无效点击,并且在不影响广告展示速度的基础上显著提高检测点击欺诈的效率。实验结果表明,该解决方案可以有效检测采用手动或者利用计算机程序的方法模仿正常用户进行点击欺诈的行为,表明了模型的可行性和方案的有效性。
-
关键词
点击欺诈
web数据挖掘
离群点
预测
网络广告
-
Keywords
click fraud web data mining outlier prediction online advertising
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名Web站点的点击流数据分析方法的设计与实现
- 3
-
-
作者
梁志恒
-
机构
沈阳师范大学科信软件学院
-
出处
《信息与电脑》
2019年第16期143-144,共2页
-
文摘
Web挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息,用于Web挖掘的最有效的数据就是点击流,现在对点击流数据进行建模和分析所采用的方法要么过分强调挖掘算法,要么过分强调实用性。基于此,笔者提供了一种将挖掘算法与商业智能(BI)相结合的统计建模方法。
-
关键词
web挖掘
点击流数据
点击流数据建模
点击流数据算法
-
Keywords
web mining
click stream data
click stream data modeling
click stream data algorithm
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于大规模日志分析的搜索引擎用户行为分析
被引量:117
- 4
-
-
作者
余慧佳
刘奕群
张敏
茹立云
马少平
-
机构
清华大学智能技术与系统国家重点实验室
搜狗公司研发中心
-
出处
《中文信息学报》
CSCD
北大核心
2007年第1期109-114,共6页
-
基金
国家重点基础研究(973)资助项目(2004CB318108)
国家自然科学基金资助项目(60223004
+3 种基金
60321002
60303005
60503064)
教育部科学技术研究重点资助项目(104236)
-
文摘
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。
-
关键词
计算机应用
中文信息处理
网络信息检索
搜索引擎
用户行为分析
点击信息分析
-
Keywords
computer application
Chinese information processing
web information retrieval
search engine
user behavior analysis
click through data analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种隐式关联页面的挖掘方法
被引量:1
- 5
-
-
作者
徐昊
谢文阁
-
机构
辽宁工业大学电子与信息工程学院
-
出处
《计算机系统应用》
2014年第9期167-169,共3页
-
文摘
点击流数据是分析互联网用户心理倾向的关键,用户感兴趣的页组关联就隐藏于WEB日志之中.网站页面间的隐式关联可以通过分析点击流数据实现.给出了一种挖掘关联页面的方法.关联页面发现算法采用了一种类似于Apriori的模型.算法克服了前人关联页面算法的一些缺点,能够更好地适应复杂的互联网环境.
-
关键词
web日志
隐式关联页面
点击流数据
-
Keywords
web log implied association page click stream data
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于网络点击数据的新闻收视率智能预测方法
- 6
-
-
作者
肖鑫鑫
-
机构
西安职业技术学院
-
出处
《自动化与仪器仪表》
2019年第9期136-139,143,共5页
-
基金
陕西省教育科学“十三五”规划2017年度课题:基于幼儿园主题活动类课程的高职学前专业实践教学体系构建(No.SGH17V061)
-
文摘
利用基于决策树的预测方法对新闻收视率进行预测时,不仅预测准确性低,预测稳定性也不好。针对上述问题,提出一种基于网络点击数据的新闻收视率智能预测方法。利用数据挖掘技术对某电视台某个时间段新闻的网络点击数据进行挖掘,并以此作为预测模型输入指标,构建BP神经网络预测模型,对输入指标进行归一化处理,实现新闻收视率的智能预测。结果表明:与基于决策树的新闻收视率智能预测方法相比,基于网络点击数据的新闻收视率智能预测方法达到预期的0.1的精准度,在预测准确性方面提高了8.89%,且预测曲线波动幅度较小,由此证明预测稳定性也有所提高。
-
关键词
网络点击数据
新闻收视率
预测
BP神经网络
-
Keywords
web click data
news ratings
prediction
BP neural network
-
分类号
TN948
[电子电信—信号与信息处理]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-