员工培训网-企业培训首选服务平台!
孙增辉

使用python做数据分析

孙增辉:ISO体系培训讲师
ISO体系 大数据 云计算
常驻城市:北京 课酬费用:面议

课程大纲

1) 使用python做数据分析
课程介绍
1、 本课程是使用python做数据分析的课程
课程目标
l理解python的特征
l知晓python的结构
l会使用相应方法,完成部分数据分析工作
培训对象
有数据库基础知识
有编程基础知识
有统计学基本知识
有数据分析、数据挖掘、统计分析的基本概念
对数据分析感兴趣
课程长度
5天
课程内容

第1天

主题

Python的优点和不足

大纲

优点
1、python语言更接近自然语言
2、python是开放源码的自由软件
3、python可移植在各种平台上
4、python支持面向过程的函数编程,也支持面向对象的抽象编程
5、可扩展和可嵌入
6、各种功能丰富的库
7、编码规范。各种强制缩进方式提供了可读性。
不足
8、运行速度可能不理想。
9、python是开源软件,通过封装加密进行商业化,就是一个问题。
10,、繁多的标准库和第三方库

主题

重要的python库

大纲

1、NumPy (numerical python)
2、Pandas 处理结构化数据的大量数据结构和函数
3、Matplotlib 绘制数据图表
4、IPython交互式窗口,科学计算工具集的一部分
5、SciPy 专门解决科学计算中,标准问题域的包的集合。
6、Scikit-learn 机器学习库

主题

Python的安装和配置

大纲

1、anaconda
2、Windows系统下的安装
3、Linux系统下的安装

主题

Ipython基础

大纲

1、IPython交互式计算和开发环境
2、Ipython启动、简单命令
3、内省
4、使用历史命令
5、与操作系统交互
6、软件开发工具
7、ipython html notebook
8、用ipython提高代码开发效率
9、ipython高级功能

主题

Ipython编码效率与高级功能

大纲

1、利用python提高代码效率的几点提示
2、高级Ipython功能

第2天

主题
numpy数组和矢量计算
大纲
1、NumPy的ndarray:多维数组
2、通用函数 数组函数
3、利用数组进行数据处理
4、用于数组文件的输入输出
5、线性代数
6、随机数生产
7、随机漫步
主题
pandas 数据处理分析工具
大纲
1、pandas的数据结构介绍
2、基本功能
3、汇总和计算描述统计
4、处理缺失数据
5、层次化索引
6、其他有关pandas的话题
主题
数据加载 转储
大纲
1、读写文本格式的数据
2、二进制数据格式
3、使用HTML和WebAPI
4、使用数据库
5、使用excel文件
6、使用hadoop大数据
主题
简单数据清洗
大纲
1、合并数据集
2、重塑和轴向旋转
3、数据转换
4、字符串操作
主题
python的绘图和可视化
大纲
1、python的图形化工具生态系统
2、matplotlibAPI入门
3、pandas中的绘图函数
4、绘制地图

第3天

主题
数据的分组计算--分层样本

大纲

1、GroupBy技术
2、数据聚合
3、分组运算和转换
4、透视表和交叉表
主题
时间序列

大纲

1、日期和时间数据类型及工具
2、时间序列基础
3、日期的范围、频率以及移动
4、时区处理
5、时期及其算数运算
6、重采样及频率转换
7、时间序列绘图
8、移动窗口函数
9、性能和内存使用方面的注意事项

主题

numpy高级应用

大纲

1、ndarray对象的内部机制
2、高级数组操作
3、广播
4、ufunc高级应用
5、结构化和记录式数组
6、关于排序
7、numpy的matrix类
8、高级数组输入输出
9、性能建议
主题
蒙特卡洛模拟
大纲
1、纯python
2、用numpy向量化
3、用对数欧拉方法实现全向量化
4、图形化分析
5、技术分析
主题
统计学正态检验
大纲
1、正态性检验
2、基准案例
3、现实世界的数据

第4天

主题
金融应用 投资优化组合
大纲
1、基本理论
2、数据
3、投资组合优化
4、有效边界
5、资本市场线
主题
k 近邻算法
大纲
1、k近邻算法概述
2、准备数据:从文本文件中解析数据
3、分析数据:使用matplotlib创建散点图
4、准备数据:归一化数值
5、测试算法:作为完整程序验证分类器
6、使用算法:构建完整可用的系统
主题
决策树
大纲
1、决策树的构造
信息增益
划分数据集
递归构建决策树
2、使用matplotlib注解绘制树形图
matplotlib注解
构造注解树
3、测试和存储分类器
测试算法:使用决策树执行分类
使用算法:决策树的存储
主题
概率论朴素贝叶斯
大纲
1、基于贝叶斯决策理论的分类方法
2、条件概率
3、使用条件概率来分类
4、使用朴素贝叶斯进行文档分类
5、使用python进行文本分类
主题
Logistic 回归分析
大纲
1、基于Logistic回归和sigmoid函数的分类
2、基于最优化方法的 最佳回归系数确定
梯度上升法
训练算法:使用梯度上升找到最佳参数
分析数据:画出决策边界
训练算法:随机梯度上升
第5天
主题
支持向量机
大纲
1、SVM应用的一般框架
2、基于最大间隔分隔数据
3、寻找最大间隔
4、SMO高效优化算法
5、利用完整plattSMO算法加速优化
6、在复杂数据上应用核函数
主题
回归 -----预测数值型数据
大纲
1、用线性回归找到最佳拟合直线
2、局部加权线性回归
3、缩减系数来“理解”数据
岭回归
lasso
向前逐步回归
4、权衡偏差与方差
主题
树回归
大纲
1、复杂数据的局部性建模
2、连续和离散型特征的树的构建
3、将CART算法用于回归
构建树 运行代码
4、树剪枝
预剪枝 后剪枝
5、模型树
6、树回归与标准回归的比较
主题
大数据与mapreduce
大纲
1、mapreduce:分布式计算框架
2、hadoop流
3、mapreduce上的机器学习
4、在python中使用mrjob来自动化MapReduce
5、真的需要MapReduce吗?


孙增辉的其他课程

课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
课程时长:2天
有需求找员培
-- 1000+实战师资团队 --
极速匹配师资,定制方案
ISO体系相关培训师
ISO体系相关内训课
ISO体系相关公开课

讲师内训服务流程

1
匹配师资
根据企业需求匹配最佳讲师课程
2
课前沟通
安排讲师与企业负责人课前充分沟通
3
确定课程
讲师根据课前调研确定大纲并经企业确认
4
制作物料
我方打印课程讲义、桌牌等课程所需物料
5
讲师授课
安排讲师到场授课,企业组织学员参加
6
课后服务
课后回访学习情况并持续服务
邀请孙增辉老师内训
下载课程大纲
提交成功,我们会尽快联系您!