Pandas 简介
Pandas 是一个功能强大的开源 Python 库。Pandas 库用于数据操作和分析。Pandas 由数据结构和函数组成,可对数据执行有效的操作。
本免费教程将概述 Pandas,涵盖 Python Pandas 的基础知识。
Python 中的 Pandas 库是什么?
Pandas是一个功能强大且用途广泛的库,可简化Python中的数据操作任务。Pandas 非常适合处理表格数据,例如电子表格或SQL 表。
Pandas 库是数据分析师、科学家和工程师使用 Python 处理结构化数据的重要工具。
Python Pandas 用于什么?
Pandas 库通常用于数据科学,但你想知道为什么吗?这是因为 Pandas 库与其他用于数据科学的库一起使用。它建立在NumPy 库之上,这意味着 NumPy 的许多结构在 Pandas 中被使用或复制。
Pandas 生成的数据通常用作Matplotlib中的绘图函数、 SciPy中的统计分析和Scikit-learn中的机器学习算法的输入。
你一定想知道,为什么要使用 Pandas 库。Python 的 Pandas 库是分析、清理和操作数据的最佳工具。
以下是我们可以使用 Pandas 做的事情的列表。
- 数据集清理、合并和连接。
- 轻松处理浮点和非浮点数据中的缺失数据(表示为 NaN)。
- 可以从 DataFrame 和高维对象中插入和删除列。
- 强大的分组功能可对数据集执行拆分-应用-合并操作。
- 数据可视化。
Pandas 入门
让我们看看如何开始使用 Python Pandas 库:
安装 Pandas
使用 Pandas 的第一步是确保它是否安装在系统中。如果没有,那么我们需要使用pip 命令将其安装在我们的系统上。
请按照以下步骤安装 Pandas:
步骤 1:在搜索框中输入“cmd”并打开。
步骤 2:使用 cd 命令找到安装了python-pip 文件的文件夹。步骤 3:找到后,输入命令:
pip install pandas
导入 Pandas
在系统中安装了Pandas之后,需要导入该库。这个模块一般导入如下:
import pandas as pd
注意:此处,pd 是 Pandas 的别名。但是,使用别名导入库并不是必需的,它只是有助于在每次调用方法或属性时编写更少的代码。
Pandas 库中的数据结构
Pandas 通常提供两种数据结构来操作数据。它们是:
- 系列
- 数据帧
熊猫系列
Pandas Series是一个一维标记数组,能够保存任何类型的数据(整数、字符串、浮点数、Python 对象等)。轴标签统称为索引。
Pandas 系列只是 Excel 表中的一列。标签不需要唯一,但必须是可哈希类型。
该对象支持整数和基于标签的索引,并提供了大量执行涉及索引的操作的方法。
Pandas Series
创建一个系列
Pandas Series是通过从现有存储(可以是 SQL 数据库、CSV 文件或 Excel 文件)加载数据集来创建的。
可以从列表、字典、标量值等创建 Pandas 系列。
示例:使用 Pandas 库创建一个系列。
import pandas as pd
import numpy as np# Creating empty series
ser = pd.Series()
print("Pandas Series: ", ser) # simple array
data = np.array(['g', 'e', 'e', 'k', 's']) ser = pd.Series(data)
print("Pandas Series:\n", ser)
输出
Pandas Series:Series([], dtype: float64)
Pandas Series:
0 g
1 e
2 e
3 k
4 s
dtype: object
Pandas DataFrame
Pandas DataFrame是带有标记轴(行和列)的二维数据结构。
创建 DataFrame
Pandas DataFrame 是通过从现有存储(可以是 SQL 数据库、CSV 文件或 Excel 文件)加载数据集来创建的。
Pandas DataFrame 可以通过列表、字典、字典列表等创建。
示例:使用 Pandas 库创建 DataFrame
import pandas as pd # Calling DataFrame constructor
df = pd.DataFrame()
print(df)# list of strings
lst = ['Geeks', 'For', 'Geeks', 'is', 'portal', 'for', 'Geeks'] # Calling DataFrame constructor on list
df = pd.DataFrame(lst)
print(df)
输出:
空 DataFrame
列: []
索引: [] 0
0 Geeks
1 For
2 Geeks
3 is
4 portal
5 for
6 Geeks
-----------------------------------------------------------------------------------------------------------------
如何在 Python 中运行Pandas程序?
Pandas程序可以从任何文本编辑器运行,但建议使用Jupyter Notebook,因为 Jupyter 使您能够在特定单元而不是整个文件中执行代码。
Jupyter 还提供了一种可视化 Pandas DataFrame 和图表的简单方法。
-----------------------------------------------------------------------------------------------------------------
最后
本教程为掌握 Pandas 库提供了坚实的基础,从基本操作到高级技术。我们还通过示例介绍了 Pandas 数据结构(系列和 DataFrame)。
完成本教程后,您将全面了解什么是 Python Pandas。Pandas 有什么用途?以及如何使用 Python Pandas。
当你将这些技能应用到你的项目中时,你会发现 Pandas 如何增强你探索、清理和分析数据的能力,使其成为数据科学家工具包中不可或缺的工具。