1) 大数据处理技术培训
课程介绍
Hadoop实现了一个分布式文件系统(HadoopDistributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
课程目标
l掌握大数据方法体系
l掌握Hadoop原理技术
l熟悉各项大数据处理手段和工具的使用。
培训对象
全省互联网分析人员
课程长度
5天
课程内容
第1天 | |||||||||||||||||||||||||||||||||||||||||||||||
主题
|
Hadoop入门,了解什么是hadoop
|
大纲
|
1、Hadoop产生背景
2、Hadoop在大数据、云计算中的位置和关系
3、国内外Hadoop应用案例介绍
4、国内Hadoop的课程大纲介绍
5、Hadoop生态圈以及各组成部分的简介
6、Hadoop核心MapReduce
例子说明
|
主题
|
分布式文件系统HDFS
|
大纲
|
1、分布式文件系统DFS简介
2、HDFS的系统组成介绍
3、HDFS的组成部分详解
4、副本存放策略及路由规则
5、命令行接口
6、Java接口
7、客户端与HDFS的数据流讲解
8、HDFS的可用性(HA)
|
第2天
|
主题
|
初级MapReduce
|
大纲
|
1、如何理解map、reduce计算模型
2、剖析伪分布式下MapReduce作业的执行过程
3、序列化
4、MapReduce的类型与格式
5、MapReduce开发环境搭建
6、MapReduce应用开发
7、更多示例讲解,熟悉MapReduce算法原理
|
主题
|
高级MapReduce
|
大纲
|
1、使用压缩分隔减少输入规模
2、利用Combiner减少中间数据
3、编写Partitioner优化负载均衡
4、MapReduce优化
5、编程实战
|
第3天
|
主题
|
Hadoop集群与管理
|
大纲
|
1、Hadoop集群的搭建
2、Hadoop集群的监控
3、Hadoop集群的管理
4、集群下运行MapReduce程序
|
主题
|
HBase基础知识
|
大纲
|
1、HBase定义
2、HBase与RDBMS的对比
3、数据模型
4、系统架构
5、HBase上的MapReduce
6、表的设计
|
第4天
|
主题
|
HBase集群及其管理
|
大纲
|
1、集群的搭建过程讲解
2、集群的监控
3、集群的管理
|
主题
|
Zookeeper
|
大纲
|
1、zookeeper的功能
2、zookeeper集群搭建
3、查看zookeeper中数据的存储
|
第5天
|
主题
|
Hive
|
大纲
|
1、数据仓库基础知识
2、Hive定义
3、Hive体系结构简介
4、Hive集群
5、客户端简介
|
主题
|
HiveQL
|
大纲
|
1、HiveQL定义
2、HiveQL与SQL的比较
3、数据类型
4、表与表分区概念
5、表的操作与CLI客户端演示
6、数据导入与CLI客户端演示
7、查询数据与CLI客户端演示
8、数据的连接与CLI客户端演示
9、用户自定义函数(UDF)的开发与演示
|