status
type
date
slug
summary
tags
category
password
icon
Total Videos
Link
Video Duration

对一组数据的理解

对一组数据的理解:一组数据表达一个或多个含义,通过摘要,有损的提取数据特征的过程,我们可以得到:
  • 基本统计(含排序)
  • 分布/累计统计
  • 数据特征,相关性、周期等
  • 数据挖掘(形成知识)

数据的排序

.sort_index()方法在指定轴上根据索引进行排序,默认升序
.sort_index(axis=0,ascending=True)
.sort_values()方法在指定轴上根据数值进行排序,默认升序。
Series.sort_values(axis=0,ascending=True)
DataFrame.sort_values(by,axis=0,ascending=True),by指axis轴上的某个索引或索引列表
对于空值NaN,将统一放到排序末尾

数据的基本统计分析

适用于Series和DataFrame类型的基本统计分析函数
方法
说明
.sum
计算数据的总和,按0轴计算,下同
.count()
非NaN值的数量
.mean() .median()
计算数据的算术平均值,算术中位数
.var() .std()
计算数据的方差,标准差
.min() .max()
计算数据的最小值,最大值
.describe()
针对0轴(各列)的统计汇总
只适用于Series类型
方法
说明
.argmin() .argmax()
计算数据最大值、最小值所在位置的索引位置(自动索引)
.idxmin() .idxmax()
计算数据最大值、最小值所在位置的索引(自定义索引)

数据的累计统计分析

适用于Series和DataFrame类型
方法
说明
.cumsum()
依次给出前1、2、…、n个数的和
.cumprod()
依次给出前1、2、…、n个数的积
.cummax()
依次给出前1、2、…、n个数的最大值
.cummin()
依次给出前1、2、…、n个数的最小值
适用于Series和DataFrame类型的滚动计算(窗口计算)函数:
方法
说明
.rolling(w).sum()
依次计算相邻w个元素的和
.rolling(w).mean()
依次计算相邻w个元素的算术平均值
.rolling(w).var()
依次计算相邻w个元素的方差
.rolling(w).std()
依次计算相邻w个元素的标准差
.rolling(w).min() .max()
依次计算相邻w个元素的最小值和最大值

数据的相关分析

相关分析:两个事物,表示为X和Y,若:
  • X增大,Y增大,两个变量正相关
  • X增大,Y减小,两个变量负相关
  • X增大,Y无视,两个变量不相关
这是最浅显的相关分析,统计学上用协方差来显示事物的相关性:
协方差:
  • 协方差>0,X和Y正相关
  • 协方差<0,X和Y负相关
  • 协方差=0,X和Y独立无关
Pearson相关系数
r的取值范围为[-1,1],当取绝对值时有:
  • 0.8-1.0极强相关
  • 0.6-0.8强相关
  • 0.4-0.6中等程度相关
  • 0.2-0.4弱相关
  • 0.0-0.2极弱相关或无相关
适用于Series和DataFrame类型的相关分析函数
方法
说明
.cov()
计算协方差
.corr()
计算相关系数矩阵,Pearson、Spearman、Kendall等系数
notion image
2.1 numpy库入门1.1 pandas库入门
Loading...