1) 使用python做数据分析
课程介绍
1、 本课程是使用python做数据分析的课程
课程目标
l理解python的特征
l知晓python的结构
l会使用相应方法,完成部分数据分析工作
培训对象
有数据库基础知识
有编程基础知识
有统计学基本知识
有数据分析、数据挖掘、统计分析的基本概念
对数据分析感兴趣
课程长度
5天
课程内容
第1天 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
主题
| Python的优点和不足
| 大纲
| 优点
1、python语言更接近自然语言
2、python是开放源码的自由软件
3、python可移植在各种平台上
4、python支持面向过程的函数编程,也支持面向对象的抽象编程
5、可扩展和可嵌入
6、各种功能丰富的库
7、编码规范。各种强制缩进方式提供了可读性。
不足
8、运行速度可能不理想。
9、python是开源软件,通过封装加密进行商业化,就是一个问题。
10,、繁多的标准库和第三方库
| 主题
| 重要的python库
| 大纲
| 1、NumPy (numerical python)
2、Pandas 处理结构化数据的大量数据结构和函数
3、Matplotlib 绘制数据图表
4、IPython交互式窗口,科学计算工具集的一部分
5、SciPy 专门解决科学计算中,标准问题域的包的集合。
6、Scikit-learn 机器学习库
| 主题
| Python的安装和配置
| 大纲
| 1、anaconda
2、Windows系统下的安装
3、Linux系统下的安装
| 主题
| Ipython基础
| 大纲
| 1、IPython交互式计算和开发环境
2、Ipython启动、简单命令
3、内省
4、使用历史命令
5、与操作系统交互
6、软件开发工具
7、ipython html notebook
8、用ipython提高代码开发效率
9、ipython高级功能
| 主题
| Ipython编码效率与高级功能
| 大纲
| 1、利用python提高代码效率的几点提示
2、高级Ipython功能
| 第2天
| 主题
| numpy数组和矢量计算
| 大纲
| 1、NumPy的ndarray:多维数组
2、通用函数 数组函数
3、利用数组进行数据处理
4、用于数组文件的输入输出
5、线性代数
6、随机数生产
7、随机漫步
| 主题
| pandas 数据处理分析工具
| 大纲
| 1、pandas的数据结构介绍
2、基本功能
3、汇总和计算描述统计
4、处理缺失数据
5、层次化索引
6、其他有关pandas的话题
| 主题
| 数据加载 转储
| 大纲
| 1、读写文本格式的数据
2、二进制数据格式
3、使用HTML和WebAPI
4、使用数据库
5、使用excel文件
6、使用hadoop大数据
| 主题
| 简单数据清洗
| 大纲
| 1、合并数据集
2、重塑和轴向旋转
3、数据转换
4、字符串操作
| 主题
| python的绘图和可视化
| 大纲
| 1、python的图形化工具生态系统
2、matplotlibAPI入门
3、pandas中的绘图函数
4、绘制地图
| 第3天
| 主题
| 数据的分组计算--分层样本
| 大纲
| 1、GroupBy技术
2、数据聚合
3、分组运算和转换
4、透视表和交叉表
| 主题
| 时间序列
| 大纲
| 1、日期和时间数据类型及工具
2、时间序列基础
3、日期的范围、频率以及移动
4、时区处理
5、时期及其算数运算
6、重采样及频率转换
7、时间序列绘图
8、移动窗口函数
9、性能和内存使用方面的注意事项
| 主题
| numpy高级应用
| 大纲
| 1、ndarray对象的内部机制
2、高级数组操作
|