Pandas最常用的7个统计函数详解

在数据分析的过程中,使用统计函数有助于我们理解和分析数据。Pandas作为一个最热门的Python数据处理库,提供了许多有用的统计函数,用于对数据进行汇总、分组、聚合和计算。

下面的表格是一些常见的统计函数:

函数名称 函数功能说明
describe() 生成数据集的描述性统计信息,包括计数、平均值、标准差、最小值、最大值和四分位数等。
mean() 计算序列或数据框的平均值。
median() 计算序列或数据框的中位数。
mode() 计算序列或数据框的众数。
var() 计算序列或数据框的方差。
std() 计算序列或数据框的标准差。
min() 计算序列或数据框的最小值。
max() 计算序列或数据框的最大值。
sum() 计算序列或数据框的总和。
count() 计算序列或数据框中的非缺失值数量。
quantile() 计算序列或数据框的分位数。
cumsum() 计算序列或数据框的累计和。
cumprod() 计算序列或数据框的累计积。
cummax() 计算序列或数据框的累计最大值。
cummin() 计算序列或数据框的累计最小值。
corr() 计算序列或数据框之间的相关系数矩阵。
cov() 计算序列或数据框之间的协方差矩阵。
skew() 计算序列或数据框的偏度。
kurtosis() 计算序列或数据框的峰度。
value_counts() 计算序列或数据框中每个值的出现次数。

接下来将为你介绍Pandas最常用的7个统计函数。

mean():计算序列或数据框的平均值

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.mean()) # 输出: 3.0

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.mean()) # 输出: A    2.0  B    5.0  dtype: float64

sum():计算序列或数据框的总和


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.sum()) # 输出: 15

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.sum()) # 输出: A    6  B    15  dtype: int64

count():计算序列或数据框中的非缺失值数量


import pandas as pd
import numpy as np

data = pd.Series([1, 2, np.nan, 4, 5])
print(data.count()) # 输出: 4

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, np.nan, 6]})
print(dataframe.count()) # 输出: A    3  B    2  dtype: int64

max():计算序列或数据框的最大值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.max()) # 输出: 5

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.max()) # 输出: A    3  B    6  dtype: int64

min():计算序列或数据框的最小值


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.min()) # 输出: 1

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.min()) # 输出: A    1  B    4  dtype: int64

std():计算序列或数据框的标准差


import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.std()) # 输出: 1.5811388300841898

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(dataframe.std()) # 输出: A    1.0  B    1.0  dtype: float64

var():计算序列或数据框的方差

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data.var()) #2.5

本文链接:https://my.lmcjl.com/post/20036.html

展开阅读全文

4 评论

留下您的评论.