简单的几句话:万物皆数据,数据即信息
1.数据研究包括:存储,处理,分析,管理,应用
2.离散数据和连续数据需要选用各自适合的方法
3.数据量
数据范围 | 描述 |
---|---|
微数据 | 0-100行 |
小数据 | 100-1000 |
中数据 | 1000-20000 |
大数据 | 20000-1000000 |
4.不同后缀名文件特点
- Excel:行数上限108万
- Csv: 逗号分隔
- Tsv: Tab分隔
5.数据预处理原因
- 不同维度数据量纲差异过大
- 噪声
- 缺失值
- 存在冗余特征(需要数据降维)
5.1 数据空缺或重复
数据空缺率 | 处理方法 |
---|---|
少于5% | 删除行 |
5%-10% | 常数填充 |
10%-30% | 机器学习填充 |
超过30% | 删除列 |
5.2 异常点处理方法
- 常使用箱线图判断异常点
- 置空或者删除
- 如果置空,则需要填充值
5.3 数据规约(归一化)
情况 | 选择方法 |
---|---|
数据分布较为均匀 | Min-Max规约 |
数据存在明显的异常值 | 标准化规约 |
使用基于距离的算法 | 标准化规约 |
数据分布近似正态分布 | 标准化规约 |
需要保留原始数据的比例 | Min-Max规约或不规约 |
需要将数据映射到特定范围 | Min-Max规约 |
6.画图小技巧(话术)
- 色调柔和
- 绘图风格科研化
- 充分优化构图结构
7.构图要素(话术)
要素 | 描述 |
---|---|
线形 | 实线、虚线、点线等 |
线宽 | 曲线或折线的粗细程度 |
线的颜色 | 曲线或折线的颜色 |
标记 | 圆圈、叉号等,标示数据点 |
标记大小 | 数据点标记的大小 |
图例 | 解释图中不同曲线或数据的标签 |
坐标轴 | X轴和Y轴,包括刻度、标签和单位 |
标题 | 图表的主要标题 |
数据标签 | 在数据点附近显示具体数值的标签 |
背景颜色 | 图表的背景颜色 |
网格线 | 在图表上显示的网格线,辅助读取数据 |
字体样式 | 图中文字的字体、大小和样式 |