-
题名基于Spark的分布式大数据分析算法研究
被引量:21
- 1
-
-
作者
宋泊东
张立臣
江其洲
-
机构
广东工业大学计算机学院
-
出处
《计算机应用与软件》
北大核心
2019年第1期39-44,共6页
-
基金
国家自然科学基金项目(61572142)
-
文摘
随着大数据时代的到来,数据计算的实时性和数据量面临许多挑战。为了满足庞大的数据量和大数据高速处理的要求,研究将Apache作为一种集成的资源管理系统。采用Apache Storm、Apache Spice及SARK RDD处理大型分布式实时数据流,使用Apache Kafka作为消息中间件来支持异步消息的通信。设计一种支持并行运算规则的分布式大数据分析处理算法。实验结果表明:该算法可有效降低海量数据的分析速度,且支持系统内各子系统间的异构信息沟通与数据存储,足以满足高频交易市场的短期趋势预测需求。在高频、大数据处理系统中具有较高的应用价值。
-
关键词
APACHE
Kafka
分布式
SPARK
RDD
N层
实时数据流
-
Keywords
Apache Kafka
Distributed
Spark RDD
n layer
Real-time data stream
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于改进协同过滤算法的用户页面兴趣度预测研究
被引量:4
- 2
-
-
作者
宋泊东
张立臣
-
机构
广东工业大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第11期3266-3268,共3页
-
基金
国家自然科学基金资助项目(61572142)
广东省自然科学基金资助项目(2015A030313490)
-
文摘
根据大数据稀疏性特征,把奇异值分解方法引入协作过滤算法中进行互联网站点用户的页面兴趣度的计算和验证,提出了一种基于改进协作过滤算法的用户页面兴趣度预测算法。该算法利用网络日志中的显性用户过往兴趣度评分数据发现用户页面兴趣度和其影响因素。MATLAB仿真结果显示:提出的基于改进协同过滤算法的用户页面兴趣度测量方法可有效克服海量数据的稀疏性,在预测准确性、测量速度方面都有很大的提高。
-
关键词
大数据
奇异值分解
用户兴趣度
协作过滤算法
数据稀疏性
-
Keywords
big data
singular value decomposition
user interest
collaborative filtering algorithm
data sparsity
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于轨迹的时空光谱特征语音情感识别算法
被引量:1
- 3
-
-
作者
朱艺伟
宋泊东
张立臣
-
机构
广东工业大学计算机学院
-
出处
《计算机系统应用》
2019年第3期146-151,共6页
-
基金
国家自然科学基金(61572142)
广东省自然科学基金(2015A030313490)~~
-
文摘
语音识别领域的发展日新月异.同时,现有的研究结果表明声学特性集中存在较多的互补信息.本文提出了一种基于轨迹的空间-时间谱特语音情感识别方法.其核心思想是从语音频谱图中获得空间和时间上的描述符,进行分类和维度情感识别.本方法采用了穷举特征提取的实验表明:与MFCCs和基频等特征提取方法相比,提出的方法在噪声条件下,更具鲁棒性.通过在4类情感识别实验中获得了可比较的非加权平均回馈,得到了较为准确的结果,语音激活检测方面也具有显著的改进.
-
关键词
情感识别
语音处理
时空描述符
融合
特征提取
-
Keywords
emotion recognition
speech processing
spatial-temporal descriptors
mel-filter bank energy
feature extraction
-
分类号
TN912.34
[电子电信—通信与信息系统]
-