1) Spark数据分析
课程介绍
本课程将关注spark的数据分析技术实际应用。
课程目标
l数据分析
培训对象
开发人员
课程长度
5天(30学时)
培训方式
案例分析、情景演练
课程内容
第1天 | |||||||||||||||||||||||||||||||||||||||||||||||
主题
|
Spark 的环境搭建与运行
|
大纲
|
Spark 的本地安装与配置
Spark 集群
Spark 编程模型
|
主题
|
数据分析系统商业案例
|
大纲
|
个性化
目标营销和客户细分
预测建模与分析
机器学习的系统架构
|
第2天
|
主题
|
Spark 上数据的获取、处理与准备
|
大纲
|
获取公开数据集
处理与转换数据
从数据中提取有用特征
|
主题
|
构建基于Spark 的推荐引擎
|
大纲
|
推荐模型的分类
提取有效特征
训练推荐模型
使用推荐模型
推荐模型效果的评估.
|
第3天
|
主题
|
Spark构建分类模型
|
大纲
|
分类模型的种类
从数据中抽取合适的特征
训练分类模型
使用分类模型
评估分类模型的性
改进模型性能以及参数调优.
|
主题
|
Spark构建回归模型
|
大纲
|
回归模型的种类
从数据中抽取合适的特征
回归模型的训练和应用
评估回归模型的性能
改进模型性能和参数调优.
|
第4天
|
主题
|
Spark构建聚类模型
|
大纲
|
聚类模型的类型
从数据中提取正确的特征
训练聚类模型
使用聚类模型进行预测
评估聚类模型的性能
|
主题
|
Spark应用于数据降维
|
大纲
|
降维方法的种类
从数据中抽取合适的特征
训练降维模型
使用降维模型
|
第5天
|
主题
|
Spark高级文本处理技术
|
大纲
|
处理文本数据有什么特别之处
从数据中抽取合适的特征
评估文本处理技术的作用
|
主题
|
SparkStreaming 在实时机器学习上的应用
|
大纲
|
在线学习.
流处理.
使用Spark Streaming 进行在线学习
|