status
type
date
slug
summary
tags
category
password
icon
Total Videos
Link
Video Duration
对一组数据的理解
对一组数据的理解:一组数据表达一个或多个含义,通过摘要,有损的提取数据特征的过程,我们可以得到:
- 基本统计(含排序)
- 分布/累计统计
- 数据特征,相关性、周期等
- 数据挖掘(形成知识)
数据的排序
.sort_index()
方法在指定轴上根据索引进行排序,默认升序.sort_index(axis=0,ascending=True)
.sort_values()
方法在指定轴上根据数值进行排序,默认升序。Series.sort_values(axis=0,ascending=True)
DataFrame.sort_values(by,axis=0,ascending=True)
,by指axis轴上的某个索引或索引列表对于空值NaN,将统一放到排序末尾
数据的基本统计分析
适用于Series和DataFrame类型的基本统计分析函数
方法 | 说明 |
.sum | 计算数据的总和,按0轴计算,下同 |
.count() | 非NaN值的数量 |
.mean() .median() | 计算数据的算术平均值,算术中位数 |
.var() .std() | 计算数据的方差,标准差 |
.min() .max() | 计算数据的最小值,最大值 |
.describe() | 针对0轴(各列)的统计汇总 |
只适用于Series类型
方法 | 说明 |
.argmin() .argmax() | 计算数据最大值、最小值所在位置的索引位置(自动索引) |
.idxmin() .idxmax() | 计算数据最大值、最小值所在位置的索引(自定义索引) |
数据的累计统计分析
适用于Series和DataFrame类型
方法 | 说明 |
.cumsum() | 依次给出前1、2、…、n个数的和 |
.cumprod() | 依次给出前1、2、…、n个数的积 |
.cummax() | 依次给出前1、2、…、n个数的最大值 |
.cummin() | 依次给出前1、2、…、n个数的最小值 |
适用于Series和DataFrame类型的滚动计算(窗口计算)函数:
方法 | 说明 |
.rolling(w).sum() | 依次计算相邻w个元素的和 |
.rolling(w).mean() | 依次计算相邻w个元素的算术平均值 |
.rolling(w).var() | 依次计算相邻w个元素的方差 |
.rolling(w).std() | 依次计算相邻w个元素的标准差 |
.rolling(w).min() .max() | 依次计算相邻w个元素的最小值和最大值 |
数据的相关分析
相关分析:两个事物,表示为X和Y,若:
- X增大,Y增大,两个变量正相关
- X增大,Y减小,两个变量负相关
- X增大,Y无视,两个变量不相关
这是最浅显的相关分析,统计学上用协方差来显示事物的相关性:
协方差:
- 协方差>0,X和Y正相关
- 协方差<0,X和Y负相关
- 协方差=0,X和Y独立无关
Pearson相关系数:
r的取值范围为[-1,1],当取绝对值时有:
- 0.8-1.0极强相关
- 0.6-0.8强相关
- 0.4-0.6中等程度相关
- 0.2-0.4弱相关
- 0.0-0.2极弱相关或无相关
适用于Series和DataFrame类型的相关分析函数
方法 | 说明 |
.cov() | 计算协方差 |
.corr() | 计算相关系数矩阵,Pearson、Spearman、Kendall等系数 |
- 作者:铃溪
- 链接:https://lingxi.mozzai.top/article/c136b10a-eaa4-4d96-840a-22440c547d49
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。