python中数据处理库,机器学习库以及自动化与爬虫

Python 在数据处理、机器学习和自动化任务方面非常强大,它的库生态系统几乎涵盖了所有相关领域。我们将从以下几个部分来介绍 Python 中最常用的库:

  1. 数据处理库:Pandas、NumPy 等
  2. 机器学习库:Scikit-learn、TensorFlow、Keras 等
  3. 自动化与爬虫:Selenium、Requests、BeautifulSoup、Scrapy 等

一、Python 中的数据处理库

1.1 Pandas

Pandas 是 Python 最流行的数据处理库之一,专门用于处理结构化数据(如表格、CSV 文件等)。它引入了两种主要的数据结构:SeriesDataFrame,可以高效地进行数据操作。

Pandas 基本用法
  • 安装 Pandas

    pip install pandas
    
  • 创建 DataFrame

    import pandas as pddata = {'Name': ['Alice', 'Bob', 'Charlie'],'Age': [25, 30, 35],'Salary': [50000, 60000, 70000]}df = pd.DataFrame(data)
    print(df)
    
  • 读取和写入 CSV 文件

    # 读取 CSV 文件
    df = pd.read_csv('data.csv')# 写入 CSV 文件
    df.to_csv('output.csv', index=False)
    
  • 常见数据操作

    # 查看前几行数据
    print(df.head())# 过滤数据
    df_filtered = df[df['Age'] > 30]# 添加新列
    df['Bonus'] = df['Salary'] * 0.1# 分组并聚合
    grouped = df.groupby('Age').mean()# 缺失值处理
    df.fillna(0, inplace=True)  # 用 0 填充缺失值
    

1.2 NumPy

NumPy 是 Python 的数值计算库,专门用于处理大规模的数组和矩阵运算。Pandas 底层数据结构基于 NumPy。

NumPy 基本用法
  • 安装 NumPy

    pip install numpy
    
  • 创建数组

    import numpy as np# 创建一维数组
    arr = np.array([1, 2, 3])# 创建二维数组
    matrix = np.array([[1, 2], [3, 4]])
    
  • 数组运算

    # 数组元素相加
    arr_sum = arr + 2# 矩阵乘法
    mat_mul = np.dot(matrix, matrix)
    
  • 数组统计

    # 求和
    total = np.sum(arr)# 均值
    mean = np.mean(arr)# 标准差
    std_dev = np.std(arr)
    

1.3 数据可视化库:Matplotlib 与 Seaborn

Matplotlib 是一个基础的数据可视化库,Seaborn 则是在 Matplotlib 之上构建的更高级别的库,提供了更简洁美观的绘图接口。

  • 安装 Matplotlib 和 Seaborn
    pip install matplotlib seaborn
    
Matplotlib 示例
import matplotlib.pyplot as plt# 生成简单的折线图
x = [1, 2, 3, 4]
y = [10, 20, 25, 30]plt.plot(x, y)
plt.xlabel('X axis')
plt.ylabel('Y axis')
plt.title('Simple Line Plot')
plt.show()
Seaborn 示例
import seaborn as sns# 加载示例数据集
tips = sns.load_dataset("tips")# 生成一个散点图
sns.scatterplot(x="total_bill", y="tip", data=tips)
plt.show()

二、Python 中的机器学习库

2.1 Scikit-learn

Scikit-learn 是一个功能强大的机器学习库,包含了经典的机器学习算法、数据预处理工具和模型评估功能。它特别适合用来构建和训练传统机器学习模型,如回归、分类、聚类等。

  • 安装 Scikit-learn
    pip install scikit-learn
    
Scikit-learn 基本用法
  • 加载数据集

    from sklearn.datasets import load_irisiris = load_iris()
    X = iris.data
    y = iris.target
    
  • 训练模型

    from sklearn.model_selection import train_test_split
    from sklearn.ensemble import RandomForestClassifier# 分割数据集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)# 创建模型并训练
    clf = RandomForestClassifier()
    clf.fit(X_train, y_train)# 预测
    y_pred = clf.predict(X_test)
    
  • 评估模型

    from sklearn.metrics import accuracy_scoreaccuracy = accuracy_score(y_test, y_pred)
    print(f"Accuracy: {accuracy}")
    

2.2 TensorFlow 和 Keras

TensorFlow 是一个流行的开源深度学习框架,Keras 是一个基于 TensorFlow 的高级神经网络库,提供了更加简洁的 API。它们被广泛用于构建和训练深度神经网络模型。

  • 安装 TensorFlow 和 Keras
    pip install tensorflow
    
TensorFlow/Keras 基本用法
  • 构建简单的神经网络模型
    import tensorflow as tf
    from tensorflow.keras import layers# 构建模型
    model = tf.keras.Sequential([layers.Dense(64, activation='relu', input_shape=(4,)),layers.Dense(64, activation='relu'),layers.Dense(3, activation='softmax')
    ])# 编译模型
    model.compile(optimizer='adam',loss='sparse_categorical_crossentropy',metrics=['accuracy'])# 训练模型
    model.fit(X_train, y_train, epochs=10)# 评估模型
    loss, accuracy = model.evaluate(X_test, y_test)
    print(f"Test accuracy: {accuracy}")
    

2.3 PyTorch

PyTorch 是另一个流行的深度学习框架,因其动态计算图和灵活性而受到研究人员的青睐。

  • 安装 PyTorch
    pip install torch
    
PyTorch 示例
import torch
import torch.nn as nn
import torch.optim as optim# 构建一个简单的线性模型
class SimpleModel(nn.Module):def __init__(self):super(SimpleModel, self).__init__()self.linear = nn.Linear(1, 1)def forward(self, x):return self.linear(x)# 初始化模型、损失函数和优化器
model = SimpleModel()
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)# 训练模型(假设你有数据 X 和 y)
for epoch in range(100):optimizer.zero_grad()outputs = model(torch.tensor([[1.0]]))  # 输入为 1loss = criterion(outputs, torch.tensor([[2.0]]))  # 期望输出为 2loss.backward()optimizer.step()print("模型训练完成")

三、自动化与爬虫

3.1 自动化工具

Selenium

Selenium 是一个自动化 Web 浏览器的工具,广泛用于自动化测试和 Web 爬虫。

  • 安装 Selenium

    pip install selenium
    
  • 使用 Selenium 自动化浏览器操作

    from selenium import webdriver# 启动浏览器
    driver = webdriver.Chrome()# 打开网页
    driver.get("https://www.example.com")# 查找元素并进行操作
    element = driver.find_element_by_name("q")
    element.send_keys("Selenium")
    element.submit()# 关闭浏览器
    driver.quit()
    

3.2 网络请求库:Requests

Requests 是一个简单且功能强大的 HTTP 请求库,适合进行 API 请求和基本的 Web 爬取任务。

  • 安装 Requests

    pip install requests
    
  • 发送 HTTP 请求

    import requests# 发送 GET 请求
    response = requests.get('https://api.example.com/data')# 解析 JSON 数据
    data = response.json()
    print(data)
    

3.3 BeautifulSoup

**Beautiful

Soup** 是一个用于解析 HTML 和 XML 的库,通常与 Requests 搭配使用,适合抓取网页数据。

  • 安装 BeautifulSoup

    pip install beautifulsoup4
    
  • 解析网页并提取数据

    from bs4 import BeautifulSoup
    import requests# 发送请求
    response = requests.get('https://example.com')# 解析 HTML
    soup = BeautifulSoup(response.content, 'html.parser')# 提取标题
    title = soup.title.string
    print(f"页面标题: {title}")
    

3.4 Scrapy

Scrapy 是一个用于构建强大 Web 爬虫的框架,适合大规模数据抓取任务。

  • 安装 Scrapy

    pip install scrapy
    
  • Scrapy 基本示例

    scrapy startproject myspider
    

    进入项目目录后,编辑 spiders 目录中的爬虫脚本。

    import scrapyclass QuotesSpider(scrapy.Spider):name = "quotes"start_urls = ['http://quotes.toscrape.com/']def parse(self, response):for quote in response.css('div.quote'):yield {'text': quote.css('span.text::text').get(),'author': quote.css('small.author::text').get(),}next_page = response.css('li.next a::attr(href)').get()if next_page is not None:yield response.follow(next_page, self.parse)
    
    • 运行爬虫
      scrapy crawl quotes
      

总结

Python 拥有强大的库生态,涵盖了数据处理、机器学习、自动化以及 Web 爬虫等多个领域。你可以通过 Pandas 和 NumPy 高效处理数据,用 Scikit-learn 和 TensorFlow 构建机器学习模型,并通过 Selenium 和 Requests 等库实现 Web 自动化和爬虫任务。结合这些工具,可以轻松完成从数据采集到分析、建模和自动化的全流程。

如果你想进一步探索这些库,可以尝试更多实战项目,并结合具体的需求来选择合适的工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/146557.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

适用于 Windows 的 7 大数据恢复工具,可靠的数据恢复工具可有效地恢复丢失的文件

数据丢失可能是一种令人沮丧的经历,无论是由于意外删除、磁盘格式化还是系统崩溃。幸运的是,Windows 用户可以使用几种可靠的数据恢复工具来有效地恢复丢失的文件。以下是前七名数据恢复工具的综述,包括奇客数据恢复产品: 适用于 …

大数据新视界 --大数据大厂之 Node.js 与大数据交互:实现高效数据处理

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

物理学基础精解【7】

文章目录 平面方程直角坐标及基本运算 参考文献 平面方程 直角坐标及基本运算 向量的四则运算 下面由文心一言自动生成 向量的四则运算主要包括加法、减法、数乘(标量乘法)和数量积(点积或内积),但通常不直接称为“除…

CANopen通讯协议笔记

CANopen通讯协议笔记 CANopen 通信对象编号CANopen整体框架网络管理(NMT)主要任务上线报文心跳报文过程数据对象(PDO)SDO服务数据对象对象字典概述 CANopen 通信对象编号 CANopen报文传输采用 CAN 标准帧格式。 这里的CAN-ID也叫…

互联网全景消息(5)之RocketMq快速入门(下)

一、RocketMQ的存储设计 1.1 Domain Model 1.1.1 Message Message是RocketMQ消息引擎中的主体。messageId是全局唯一的。MessageKey是业务系统(生产者)生成的,所以如果要结合业务,可以使用MessageKey作为业务系统的唯一索引。 1.1.2 Topic subTopics==Message Queue,其实…

0基础学习HTML(十)表格

HTML 表格 HTML 表格由 <table> 标签来定义。 HTML 表格是一种用于展示结构化数据的标记语言元素。 每个表格均有若干行&#xff08;由 <tr> 标签定义&#xff09;&#xff0c;每行被分割为若干单元格&#xff08;由 <td> 标签定义&#xff09;&#xff0c…

计算机毕业设计之:基于微信小程序的校园流浪猫收养系统

博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师&#xff0c;我在计算机毕业设计开发方面积累了丰富的经验。同时&#xff0c;我也是掘金、华为云、阿里云、InfoQ等平台…

YOLOV8 OpenCV + usb 相机 实时识别

1 OpenCV 读相机 import cv2cap cv2.VideoCapture(0) while (1):# get a frameret, frame cap.read()# show a framecv2.imshow("capture", frame)if cv2.waitKey(1) & 0xFF ord(q):# cv2.imwrite("/opt/code/image/fangjian2.jpeg", frame)#passb…

前端-js例子:tab切换

实现效果&#xff1a; 实现步骤&#xff1a; 1. body内容元素 <div class"container"><ul class"top_title"><li class"first" index"1">title1</li><li index"2">title2</li><li …

Prime1 靶机渗透 ( openssl 解密 ,awk 字符串处理,信息收集)

简介 Prime1 的另一种解法 起步 从初级shell开始 反弹 shell 路径 http://192.168.50.153/wordpress/wp-content/themes/twentynineteen/secret.php 其内的 shell 为 <?php eval("/bin/bash -c bash -i >& /dev/tcp/192.168.50.147/443 0>&1"…

Vue使用axios二次封装、解决跨域问题

1、什么是 axios 在实际开发过程中&#xff0c;浏览器通常需要和服务器端进行数据交互。而 Vue.js 并未提供与服务器端通信的接口。从 Vue.js 2.0 版本之后&#xff0c;官方推荐使用 axios 来实现 Ajax 请求。axios 是一个基于 promise 的 HTTP 客户端。 关于 promise 的详细介…

专为汽车功能应用打造的 MLX90376GGO、MLX90377GGO、MLX90377GDC-ADB-280 Triaxis®磁位置传感器 IC

一、MLX90376 Triaxis堆叠式高性能位置传感器芯片&#xff08;模拟/PWM/SENT/SPC&#xff09; MLX90376GGO-ABA-600 MLX90376GGO-ABA-630 MLX90376GGO-ABA-680 MLX90376是一款磁性绝对位置传感器芯片&#xff0c;适用于要求具备抗杂散磁场干扰性能的360旋转汽车应用。它提供…

Matlab进阶绘图第68期—带分组折线段的分区柱状图

上一篇文章分享了分区柱状图的绘制方法&#xff1a; 带分组折线段的分区柱状图是在原始分区柱状图的基础上&#xff0c;再添加分组折线段&#xff0c;用以增加一个对象的表达。 由于Matlab中未收录的带分组折线段的分区柱状图的绘制方法&#xff0c;因此需要大家自行解决。 本…

C++进阶(2):多态

多态的概念 多态分为编译时多态(静态多态)和运行时多态(动态多态)。**编译时多态&#xff1a;**主要就是我们前面讲的函数重载和函数模版。之所以叫编译时多态&#xff0c;是因为实参传给形参的参数匹配是发生在编译时完成的&#xff08;ps&#xff1a;通常把编译时一般归为静…

Java项目实战II基于Java+Spring Boot+MySQL的网上租贸系统设计与实现(开发文档+源码+数据库)

目录 一、前言 二、技术介绍 三、系统实现 四、论文参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 "随着…

面试-设计模式

策略模式 定义了一组算法&#xff0c;分别封装起来&#xff0c;这些算法直接可以相互替换 设计模式的开闭原则&#xff1a;对修改关闭&#xff0c;对扩展开放 装饰模式 将某种算法作为一个装饰品添加到对象身上&#xff0c;同时可以自由穿戴更换装饰品 两个主要的角色&…

游戏淡入淡出效果

一、制作UIdocument 注&#xff1a;是全黑的&#xff1b;并且Picking Mode设置为Igore 通过调节display中的值&#xff0c;实现淡入淡出效果 二、建立空物体 增加uiDocument 拖入相关的物体 注&#xff1a;层级必须设置为最高&#xff0c;此处为20&#xff0c;这个效果必须遮…

MySQL深入原理

MySQL深入原理 索引、事务、日志原理、InnoDB引擎、缓存、锁 有4个数据库是属于MySQL自带的系统数据库&#xff1a; ​ mysql MySQL 系统自带的核心数据库&#xff0c;它存储了MySQL的用户账户和权限信息&#xff0c;一些存储过程、事件的定义信息&#xff0c;一些运行过程中…

波分技术基础 -- Liquid OTN

什么是Liquid OTN 传统OTN技术主要定位于骨干网和城域网应用&#xff0c;主要用于承载大于1Gbits/s速率业务&#xff0c;在OTN下沉到城域/接入网后&#xff0c;面临如下问题&#xff1a;管道弹性不足&#xff08;最小管道ODU0&#xff09;、连接数少、带宽调整不够灵活等挑战。…

yolov5/8/9模型在COCO分割数据集上的应用【代码+数据集+python环境+GUI系统】

yolov5/8/9模型在COCO分割数据集上的应用【代码数据集python环境GUI系统】 yolov5/8/9模型在COCO分割数据集上的应用【代码数据集python环境GUI系统】 1.COCO数据集介绍 COCO数据集&#xff0c;全称为Microsoft Common Objects in Context&#xff0c;是微软于2014年出资标注的…