- 本项目是一套以 Python 为分析语言的数据科学入门教程。
- 托管网站:https://ds-python.leovan.tech
- 仓库目录结构:
- base 目录:幻灯片相关配置文件
- docs 目录:其他资料
- 其他一级目录:
- 二级目录:
- *.pdf:本节课程幻灯片
- data:本节课程所需数据文件
- slide:本节课程幻灯片源代码
- 本项目遵守 CC BY-NC-SA 4.0 协议。
- 操作系统:Windows 10+ (x64),macOS 10.12+,Ubuntu 16.04+
- Python:最新版本 Anaconda Python 3 (下载地址)
- PyCharm:最新版本 (下载地址,Python IDE)
- Spyder:最新版本 (下载地址,Python IDE,Anaconda 已包含)
- Visual Studio Code:最新版本 (下载地址,用于代码浏览和编辑)
- Typora:最新版本 (下载地址,用于 Markdown 浏览)
- 《Python 编程从入门到实践》(Python Crash Course, A Hand-On, Project-Based Introduction to Programming),Eric Matthes 著,袁国忠 译
- 《流畅的 Python》(Fluent Python),Luciano Ramalho 著,安道、吴珂 译
- 《利用 Python 进行数据分析》(Python for Data Analysis:Data Wrangling with Pandas, Numpy and IPython),Wes McKinney 著,徐敬一 译
- 《机器学习实践》(Machine Learning in Action),Petter Harrington 著,李锐、李鹏、曲亚东、王斌 译
- 《Python 机器学习》(Python Machine Learning),Sebastian Raschka & Vahid Mirjalili 著,陈斌 译
- 《统计学习方法》李航 著
- 《机器学习》周志华 著
- 《深度学习》(Deep Learning),Ian Goodfellow, Yoshua Bengio & Aaron Courville 著,赵申剑、黎彧君、符天凡、李凯 译
- 数据科学概念
- 数据科学
- 数据产品
- 跨界
- 数据科学工具箱
- 数据科学常用工具
- 数据科学之战:Python 和 R
- 选择哪种语言
- 数据科学分工与流程
- 数据科学分工
- 数据分析和挖掘流程
- Python 相关环境配置
- Python 基础语法
- Python 数据结构
- Python 编码风格规范
- NumPy 简介
- NumPy 多维数组对象
- NumPy 面向数据编程
- pandas 简介
- pandas 数据载入和存储
- pandas 数据规整
- 数据可视化
- Matplotlib & Seaborn
- plotnine
- 基于 Web 的绘图库
- 探索性分析
- 描述性统计量
- 常用分布
- 实验设计
- 假设检验概念
- 常用假设检验
- 线性回归
- 一元线性回归
- 多元线性回归
- 广义线性回归
- 最小二乘法与梯度下降
- 数据预处理
- 数据清洗
- 缺失值,重复值,异常值处理
- 数据采样,数据集分割
- 特征变换和编码
- 无量纲化
- 分箱
- 分类特征编码
- 特征提取,选择和监控
- 特征提取
- 特征选择
- 特征监控
- 模型性能评估
- 回归问题
- 分类问题
- 聚类问题
- 模型生成和选择
- 过拟合问题
- 评估方法
- 偏差和方差
- 超参数优化
- 搜索算法
- 进化和群体算法
- 贝叶斯优化
- 逻辑回归
- 决策树
- Bagging
- Boosting
- Stacking
- 时间序列
- ARIMA 模型
- 季节性分析
- Prophet
- K-means
- 层次聚类
- 基于密度的聚类
- 可重复性研究
- Markdown
- reStructuredText & Sphinx
- Jupyter
- 版本控制
- 其他工具
- 人工神经网络
- 卷积神经网络
- 循环神经网络
- 深度学习框架