-
题名基于统计的无阻塞连接算法
- 1
-
-
作者
陈刚
顾进广
李思川
-
机构
武汉科技大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2010年第12期143-144,160,共3页
-
基金
国家自然科学基金(No.60803160)资助
-
文摘
数据流上的关系查询处理技术是数据库研究领域的一大热点。优化无阻塞连接算法的关键在于提高内存连接阶段的效率。当内存空间满时,需要将内存数据刷新到外存相应分区,良好的刷新策略对于改进算法的性能至关重要。利用数据分布的特征,对关系连接的输出流,使用基于统计的方法,查找使用频率最低的元组,将使用频率较低的元组刷新到外存,以提高内存数据的效率。基于统计分析策略提高了刷新策略的准确性和效率及算法的适用范围。
-
关键词
数据流
无阻塞连接
内存刷新策略
-
Keywords
Data stream
Non-blocking join
Memory flush strategy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Hadoop的分布式并行增量爬虫技术研究
被引量:4
- 2
-
-
作者
刘芳云
张志勇
李玉祥
-
机构
河南科技大学信息工程学院
-
出处
《计算机测量与控制》
2018年第10期269-275,308,共8页
-
基金
国家自然科学基金(61772174
61370220)
+1 种基金
河南省科技创新杰出人才计划项目(174200510011)
河南省高校科技创新团队支持计划项目(15IRTSTHN010)
-
文摘
面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率;但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量更新算法,利用监控技术监控网页变化情况,分析网页更新模式,增加新鲜度评估和降维处理,使用混合整数二次规划方法为发生更改的网页制定最优的刷新策略;实验证明,相比单机模式下定期频繁的刷新策略,该并行增量方法以原刷新代价的36.7%获得了79%的信息精确度,爬虫效率提高了167倍。
-
关键词
HADOOP集群
分布式爬虫
并行爬虫
增量爬虫
刷新策略
-
Keywords
Hadoop cluster
distributed crawler
parallel crawler
incremental crawler
refresh strategy
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名考虑非同步交易影响的金融高频协方差阵的估计及应用
- 3
-
-
作者
刘丽萍
唐晓彬
余孝军
-
机构
贵州财经大学数学与统计学院
对外经济贸易大学统计学院
-
出处
《系统工程》
CSSCI
北大核心
2018年第9期59-66,共8页
-
基金
国家社会科学基金资助项目(16CTJ013)
国家自然科学基金资助项目(71761005)
+1 种基金
2018全国统计科学研究项目(2018339)
贵州省教育厅青年科技人才成长项目(黔教合KY字[2018]160)
-
文摘
在大数据时代,高维高频金融数据的协方差阵在投资组合中扮演着重要角色。但当高维资产的交易频率存在显著差异时,非同步交易会导致"Epps"效应,严重影响协方差阵的估计效率。本文将结构矩阵填充模型(SMC)与VAR-LASSO模型相结合,建立SMC-VAR-LASSO模型来估计和预测高维高频数据的协方差阵。该模型将资产按照交易频率的高低分组,避免直接估计和预测所有资产间以及交易频率低的资产间的协方差阵,在解决非同步交易问题的同时,大大降低了数据损失量,提高了协方差阵的估计效率。将SMC-VAR-LASSO模型应用在投资组合中,并将其与VAR-LASSO模型进行比较后,发现:SMC-VAR-LASSO模型在投资组合中的应用效果更好,其提高了投资者的收益和经济效用,降低了风险。
-
关键词
金融高频协方差阵
SMC-VAR-LASSO模型
非同步交易
刷新时间策略
-
Keywords
Covariance Matrix of Financial High-frequency Data
SMC-VAR-LASSO Model
Non-synchronous Trading
Refresh Time Strategy
-
分类号
F222
[经济管理—国民经济]
-