一周学会Pandas2 Python数据处理与分析-Pandas2统计计算操作
锋哥原创的Pandas2 Python数据处理与分析 视频教程:
2025版 Pandas2 Python数据处理与分析 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili
Pandas2可以对Series与DataFrame进行快速的描述性统计,如求和、 平均数、最大值、方差等,这些是最基础也最实用的统计方法。对于 DataFrame,这些统计方法会按列进行计算,最终产出一个以列名为索引、以计算值为值的Series。
统计描述操作
df.describe()会返回一个有多行的所有数字列的统计表,每一行对应一个统计指标,有总数、平均数、标准差、最小值、四分位数、最大值等,这个表对我们初步了解数据很有帮助。
数学统计操作
Pandas2支持常用的数学统计方法,如平均数、中位数、众数、方差 等,还可以结合NumPy使用其更加丰富的统计功能。我们先来使用mean()计算一下平均数,DataFrame使用统计函数后会生成一个Series, 这个Series的索引为每个数字类型列的列名,值为此列的平均数。如果 DataFrame没有任何数字类型列,则会报错。
DataFrame.mean(axis=0, # 计算方向(行或列)skipna=True, # 是否跳过缺失值numeric_only=None, # 是否仅计算数值列level=None, # 针对分层索引的层级**kwargs
)
计算某列数值平均分数。df.列名.mean()
计算每一行的平均分数。df.mean(axis=1, numeric_only=True)
还可以设置索引,查询指定数据;
df.set_index('姓名').mean(axis=1, numeric_only=True).head(3)
统计函数操作
pandas
提供丰富的统计方法,用于快速计算数据的汇总指标。以下是常用方法:
方法 | 作用 | 语法示例 |
---|---|---|
sum() | 求和 | df.sum(axis=0) |
mean() | 平均值 | df.mean(skipna=True) |
median() | 中位数 | df.median() |
mode() | 众数(返回所有众数) | df.mode() |
std() | 标准差 | df.std() |
var() | 方差 | df.var() |
min() | 最小值 | df.min() |
max() | 最大值 | df.max() |
count() | 非缺失值数量 | df.count() |
quantile() | 分位数(如中位数) | df.quantile(0.5) |
describe() | 快速统计摘要 | df.describe() |
求语文的最高分,df.语文分数.max()