-
题名优先关联的Web日志数据逼真生成算法
被引量:2
- 1
-
-
作者
丘志鹏
肖如良
张锐
-
机构
福建师范大学软件学院
福建省公共服务大数据挖掘与应用工程研究中心
-
出处
《计算机系统应用》
2017年第3期126-133,共8页
-
基金
福建省科技计划重大项目(2016H6007)
-
文摘
字段关联的构建方法是Web数据逼真生成中的困难问题.提出一种基于MIC的字段优先关联的Web数据逼真生成算法.该算法与现有的方法完全不同:首先,提取真实Web日志数据集中相应字段间的MIC系数;然后,结合字段的重尾特性,采用SE分布对字段的重尾性进行建模;最后,建立字段关联模型,模拟出真实数据集中的字段间依赖性,从而逼真生成目标数据集.实验表明,生成的数据集能够保持合理的字段间的均衡性以及节点间的相似性.
-
关键词
字段关联
数据生成
MIC系数
重尾
-
Keywords
fields' relevance
data generation
maximal information coefficient
heavy tail
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名逼真生成表格式数据的非时间属性关联模型
- 2
-
-
作者
张锐
肖如良
倪友聪
杜欣
-
机构
福建师范大学软件学院
福建省公共服务大数据挖掘与应用工程研究中心
-
出处
《计算机应用》
CSCD
北大核心
2017年第9期2684-2688,共5页
-
基金
福建省科技计划重大项目(2016H6007)
福州市市校合作项目(2016-G-40)~~
-
文摘
针对数据仿真过程中表格数据属性间关联难的问题,提出一种刻画表格数据中非时间属性间关联特征的H模型。首先,从数据集中提取评价主体和被评价主体关键属性,进行两重频数统计,得到关于关键属性的4个关系对;然后,计算各关系对的最大信息系数(MIC)来评估各关系对的相关性,并采用拉伸指数分布(SE)对各关系对进行关系拟合;最后,设置评价主体和被评价主体的数据规模,根据拟合出的关系计算出评价主体的活跃度和被评价主体的流行度,通过活跃度总和等于流行度总和建立关联,得到非时间属性关联的H模型。实验结果表明,利用H模型能有效地刻画真实数据集中非时间属性间的关联特征。
-
关键词
数据仿真
关联
最大信息系数
拉伸指数分布
属性关联
-
Keywords
data simulation correlation Maximum Information Coefficient (MIC) Stretched Exponential (SE) distribution attribute correlation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于用户兴趣迁移的Web日志仿真生成算法
被引量:2
- 3
-
-
作者
彭行雄
肖如良
-
机构
福建师范大学软件学院
福建省公共服务大数据挖掘与应用工程研究中心
-
出处
《计算机应用》
CSCD
北大核心
2016年第12期3476-3480,3504,共6页
-
基金
福建省高校产学合作项目(2016H6007)~~
-
文摘
针对仿真生成算法采用静态分布模型生成Web日志,会造成与真实数据之间存在较大差异的问题,提出一种基于用户兴趣迁移的Web日志仿真生成(WLSG)算法。该算法首先对Web日志与时间的关系进行了建模;其次,模拟了用户在不同时间访问文件时用户的兴趣迁移;最后,也模拟了用户自适应访问当前时刻最感兴趣的文件。相对于现有的采用静态分布模型的仿真算法,所提算法能够提高自相似性指标约2.86%。实验结果表明,该算法通过用户的兴趣迁移来改变用户的访问序列,能够较好地模拟真实Web日志,有效地应用于Web日志的仿真生成。
-
关键词
兴趣迁移
时间序列
日志分析
自相似
仿真生成
-
Keywords
interest migration
time series
log analysis
self-similarity
simulation generation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于相邻请求的动态时间阈值会话识别算法
- 4
-
-
作者
曾令
肖如良
-
机构
福建师范大学软件学院
福建省公共服务大数据挖掘与应用工程研究中心
-
出处
《计算机应用》
CSCD
北大核心
2017年第11期3335-3338,共4页
-
基金
福建省科技计划重大项目(2016H6007)
福州市市校合作项目(2016-G-40)~~
-
文摘
在大数据平台的异常检测分析中,为提高会话序列建模的效率,提出一种基于相邻请求的动态调整时间间隔阈值的会话识别算法——DAITS算法。首先同时结合站点页面因子和用户访问页面时间的平均因子;然后在两者间加入合适的权重因子对时间阈值进行动态调整;最后根据判断是否超过该时间阈值来划分会话。实验结果表明,DAITS算法比传统使用固定阈值的方法在会话识别的精确率和查全率上提高了14.8%和13.2%,比动态调整阈值的方法在精确率和查全率上提高了6.2%和3.2%。
-
关键词
异常检测
会话识别
会话序列
相邻请求
动态时间阈值
-
Keywords
anomaly detection
session identification
session sequence
adjacent request
dynamic time threshold
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-