爬虫——Requests库的使用

在爬虫开发中,HTTP请求是与服务器进行交互的关键操作。通过发送HTTP请求,爬虫可以获取目标网页或接口的数据,而有效地处理请求和响应是爬虫能够高效且稳定运行的基础。Requests库作为Python中最常用的HTTP请求库,因其简洁、易用和强大的功能,广泛应用于爬虫开发中。本章将详细介绍如何使用Requests库进行HTTP请求的处理,以及如何应对各种实际问题,如设置请求头、处理Cookies、设置超时和重试机制等。

第一节:Requests库的使用

1.1 发送GET和POST请求

Requests库支持多种HTTP请求方式,其中最常用的是GET请求和POST请求。GET请求通常用于获取网页或接口数据,而POST请求则用于向服务器发送数据。掌握这两种请求的使用方式是进行网页抓取的基础。

1.1.1 发送GET请求

GET请求是HTTP协议中最常见的请求方式,用于请求指定的资源或数据。使用Requests发送GET请求非常简单,只需要调用requests.get()方法,并传入目标URL。

import requests# 发送GET请求
response = requests.get('https://www.example.com')# 获取响应内容
print(response.status_code)  # 状态码
print(response.text)          # 网页内容

注意

  • response.status_code 返回HTTP响应的状态码,200表示请求成功。
  • response.text 返回的是响应的内容,即网页的HTML源代码。
1.1.2 发送POST请求

POST请求用于向服务器提交数据,通常用于表单提交或API数据创建。使用requests.post()方法可以发送POST请求,常见的请求体格式有JSON、form-data等。

import requests# 准备要发送的数据
data = {'username': 'myuser','password': 'mypassword'
}# 发送POST请求
response = requests.post('https://www.example.com/login', data=data)# 获取响应内容
print(response.status_code)
print(response.text)

对于JSON格式的POST请求,可以设置请求头为application/json,并将数据以JSON格式发送:

import requests
import json# 准备要发送的JSON数据
data = {'username': 'myuser','password': 'mypassword'
}# 发送POST请求
response = requests.post('https://www.example.com/login', json=data)print(response.status_code)
print(response.json())  # 返回JSON格式的响应

关键点

  • 使用data=发送表单数据(application/x-www-form-urlencoded)。
  • 使用json=发送JSON数据(application/json)。
  • response.json()用于解析返回的JSON格式响应,返回Python字典。
1.2 处理Cookies和Headers

在爬虫中,常常需要模拟浏览器行为,这时处理Cookies和Headers是非常重要的。通过设置请求头(Headers)和Cookies,爬虫能够模仿真实用户访问网站的行为,避免被反爬虫机制阻止。

1.2.1 设置请求头(Headers)

请求头是HTTP请求中的一部分,包含了请求的元信息,如User-AgentContent-TypeAuthorization等。正确地设置请求头能够帮助爬虫绕过一些简单的反爬虫措施。

import requests# 设置自定义请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}# 发送GET请求,带上请求头
response = requests.get('https://www.example.com', headers=headers)print(response.status_code)
print(response.text)

常见的请求头:

  • User-Agent: 用于标识客户端浏览器类型。
  • Accept: 告诉服务器客户端能接受哪些格式的数据(如application/jsontext/html等)。
  • Authorization: 用于认证,通常携带API的访问Token。
  • Referer: 表示当前请求的来源页面。
1.2.2 处理Cookies

Cookies是服务器在浏览器端存储的小块数据,用于保持会话状态。通过Requests发送请求时,可以手动传递Cookies,或者在会话中自动管理Cookies。

传递Cookies

import requests# 设置Cookies
cookies = {'sessionid': '1234567890abcdef'
}# 发送GET请求,带上Cookies
response = requests.get('https://www.example.com', cookies=cookies)print(response.status_code)
print(response.text)

自动处理Cookies: 通过requests.Session()Requests库会自动管理Cookies,包括存储和传递Cookies。

import requests# 创建会话对象
session = requests.Session()# 发送请求时,自动保存并传递Cookies
response = session.get('https://www.example.com')print(response.status_code)
print(response.text)# 关闭会话
session.close()

会话(Session)

  • 会话对象requests.Session()用于在多个请求之间保持某些参数(如Cookies、Headers)的一致性。
  • 可以在同一个会话中发送多个请求,requests.Session()会自动管理Cookies,模拟持续的用户会话。
1.3 设置超时和重试机制

在爬虫中,网络请求的超时和重试机制是非常重要的,它能帮助我们确保爬虫在遇到网络波动时不会一直等待,或者避免频繁请求失败导致程序崩溃。

1.3.1 设置请求超时

设置超时可以防止爬虫因为请求阻塞过长时间而无法继续执行。当网络连接过慢或者目标网站响应时间过长时,设置超时是十分必要的。

import requests# 设置超时为5秒
response = requests.get('https://www.example.com', timeout=5)print(response.status_code)
print(response.text)

超时参数

  • timeout 参数接受一个整数或元组(连接时间,响应时间)。例如,timeout=(3, 5) 表示连接超时为3秒,响应超时为5秒。
1.3.2 设置重试机制

爬虫请求有时会因为临时的网络问题或服务器响应过慢而失败。为此,我们可以实现自动重试机制,在请求失败时自动重试。

可以使用requests.adapters.HTTPAdapterurllib3的重试功能来实现重试机制。

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry# 创建一个Session对象
session = requests.Session()# 配置重试策略
retry = Retry(total=3,           # 最大重试次数backoff_factor=1,  # 重试的延迟时间间隔(每次重试等待时间为backoff_factor * (2 ^ (重试次数 - 1)))status_forcelist=[500, 502, 503, 504]  # 对哪些HTTP状态码进行重试
)# 配置重试策略到Session
adapter = HTTPAdapter(max_retries=retry)
session.mount('http://', adapter)
session.mount('https://', adapter)# 发送请求
response = session.get('https://www.example.com')print(response.status_code)
print(response.text)# 关闭会话
session.close()

重试策略参数

  • total:最大重试次数。
  • backoff_factor:控制重试间隔时间的因子。
  • status_forcelist:指定哪些HTTP状态码触发重试,通常500、502、503、504等服务器错误码会触发重试。
1.4 错误处理与异常捕获

在实际开发中,我们还需要处理各种请求可能遇到的异常情况。Requests库提供了丰富的错误处理机制,可以捕获网络异常、超时异常等。

import requests
from requests.exceptions import RequestException, Timeouttry:response = requests.get('https://www.example.com', timeout=5)response.raise_for_status()  # 如果返回状态码不是200,抛出异常
except Timeout:print("请求超时")
except RequestException as e:print(f"请求错误:{e}")
else:print("请求成功")print(response.text)

常见异常:

  • requests.exceptions.Timeout:请求超时。
  • requests.exceptions.RequestException:所有Request异常的基类。

小结

通过Requests库的使用,我们可以轻松地发送GET和POST请求,模拟浏览器请求,管理Cookies和Headers,并处理请求的超时和重试机制。掌握这些技能,可以帮助爬虫开发者更好地与目标网站进行交互,处理复杂的请求和响应,从而提高爬虫的效率和稳定性。在后续章节中,我们将继续深入讨论如何解析和提取网页中的数据,进一步提升爬虫的功能和性能。

我们收集了很多相关的视频开发课程,具体可以访问编程课程 - 好看资源网

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/16455.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用EasyExcel生成多列表组合填充的复杂Excel示例

作者:Funky_oaNiu 一、(需求)生成的表格效果:二、搞一个模板文件三、建立对应的表格实体类四、开始填充五、Vue3前端发起请求下载六、官方文档及AI问答 一、(需求)生成的表格效果: 其中只有顶部…

三、计算机视觉_02计算机视觉领域的四大基本任务

0、前言 计算机视觉是人工智能领域的一个重要分支,它是一个跨学科的领域,涉及计算机科学、人工智能、机器学习、图像处理、神经科学等多个学科的知识 计算机视觉使用计算机技术来模拟人类视觉系统的功能,使计算机能够从图像或多维数据中提取…

Docker: ubuntu系统下Docker的安装

安装依赖 操作系统版本 Ubuntu Kinetic 22.10Ubuntu Jammy 24.04 (LTS)Ubuntu Jammy 22.04 (LTS)Ubuntu Focal 20.04 (LTS)Ubuntu Bionic 18.04 (LTS) CPU架构支持 ARMx86_64 查看我们的系统版本信息 uname -a通过该命令查得cpu架构是x86_64的; cat /etc/*re…

【已解决】 Tomcat10.1.x使用JSTL标签库

IDEA创建Java EE项目,使用Spring Spring MVC MyBatis框架,使用maven管理依赖。项目当前的环境是: Tomat 10.1.28Maven 3.6.3JDK 17 项目的功能:读取数据库的report表中的数据,返回一个List集合对象reportList在JSP…

LeetCode74. 搜索二维矩阵(2024冬季每日一题 6)

给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 target 在矩阵中,返回 true ;否则,返回 false 。…

数据分析24.11.13

Excel 函数 求和 函数 sum() sumif() SUMIF(range, criteria, [sum_range]) sumifs() average() count() max() min() 逻辑 函数 if() iferror() 查询函数 VLOOKUP()

DveOps-Git-版本控制

1. 概述 分布式版本控制系统 版本控制 2. Git极速上手指南 官方传送门:Git - Branching and Merging 2.1 安装 ## windows https: git-scm.com/download/## Linux(CentOS/Fedora/Rocky Linux/RHEL) yum install -y git ## MacOS brew install git## Ubuntu/Debian apt in…

DevOps工程技术价值流:加速业务价值流的落地实践与深度赋能

DevOps的兴起,得益于敏捷软件开发的普及与IT基础设施代码化管理的革新。敏捷宣言虽已解决了研发流程中的诸多挑战,但代码开发仅是漫长价值链的一环,开发前后的诸多问题仍亟待解决。与此同时,虚拟化和云计算技术的飞跃,…

Tensorflow基本概念

简介:本文从Graph讲到Session,同时讲解了tf.constant创建tensor的用法和variable需要初始化的知识点,可以给你打好一个学习Tensorflow的基础。本文都是基于TensorFlow1.14.0的版本下运行。 本专栏将会系统的讲解TensorFlow在1.14.0版本下的各…

【React】响应事件

1.添加事件处理函数 按照如下三个步骤&#xff0c;即可让它在用户点击时显示消息&#xff1a; 在 Button 组件 内部 声明一个名为 handleClick 的函数。实现函数内部的逻辑&#xff08;使用 alert 来显示消息&#xff09;。添加 onClick{handleClick} 到 <button> JSX …

初遇Python-----python/anaconda/PyCharm安装应用问题

作为一名医学生,小编之前从未用过python,一直将R视为数据分析的利器,至于到底R好用还是Python好用,一直是广大网友们争论的热点,小编资历尚浅,对此就不予评价了。最近需要对部分数据进行建模工作,奈何三方工具完全基于python语言编写的,迫不得已小编也只能挠头学习了。本…

基于reads的宏基因组与宏转录组医学分析流程正式上线!

随着生物医学领域的快速发展&#xff0c;宏基因组学和宏转录组学正逐渐成为研究微生物群落及其在人体健康与疾病中作用的关键技术。然而&#xff0c;医学研究样品往往存在微生物含量较低的情况&#xff0c;这给数据分析带来了挑战。为了解决这一难题&#xff0c;并适应不断增长…

使用Aria2实现离线下载

最近有需要BT下载&#xff0c;但有的资源很冷门&#xff0c;速度很慢&#xff0c;总不能一直开着电脑下载&#xff0c;于是想到部署个离线下载。想起之前用雨云服务器拿来部署兰空图床感觉效果不错&#xff0c;发现内存剩的还挺多&#xff0c;所以继续压榨一下&#x1f60f; 提…

第三百二十三节 Java线程教程 - Java同步器

Java线程教程 - Java同步器 同步器对象与一组线程一起使用。 它维护一个状态&#xff0c;根据它的状态&#xff0c;它让一个线程通过或强迫它等待。 本节将讨论四种类型的同步器&#xff1a; SemaphoresBarriersLatchesExchangers 信号量 信号量用于控制可以访问资源的线程…

HTB:Active[WriteUP]

目录 连接至HTB服务器并启动靶机 1.How many SMB shares are shared by the target? 使用nmap对靶机TCP端口进行开放扫描 2.What is the name of the share that allows anonymous read access? 使用smbmap通过SMB服务对匿名用户共享权限情况进行扫描 3.Which file has…

vue3【组件封装】S-icon 图标 ( 集成 iconify )

1. 安装依赖 npm i -D iconify/jsonnpm i --save-dev iconify/vue2. 组件封装 src/components/S-icon.vue <script setup lang"ts"> // 搜索图标 https://icon-sets.iconify.design/ import { Icon } from iconify/vue defineProps({icon: {type: String,requ…

AI视觉小车基础--1.开发前的准备

1. 结束开机大程序 为了能够方便体验小车的APP功能&#xff0c;系统中增加了一个程序&#xff0c;此程序集合了APP的控制功能和玩法&#xff0c;所以称做“大程序”&#xff0c;而且在主板系统开机时&#xff0c;此程序会自动启动&#xff0c;所以称做“开机自启动大程序”。 开…

6.传输层协议、ACL

TCP和UDP协议 TCP/IP协议组的传输层协议 TCP(Transmission Control Protocol ) 传输控制协议 UDP&#xff08;User Datagram Protocol &#xff09; 用户数据报协议 TCP协议 TCP是面向连接的、可靠的进程到进程通信的协议 TCP提供全双工服务&#xff0c;即数据可在同一时间双…

避免数据丢失!在NAS上保存Docker容器配置的正确姿势

引言 如果你使用NAS来管理家庭或小型企业的数据,那么Docker容器一定不陌生。它能快速部署各种应用,比如Jellyfin、Plex等多媒体服务器。然而,很多人却踩过一个坑:NAS关机重启后,Docker容器的配置居然丢了!辛苦搭建的环境瞬间化为乌有。别担心,今天就来分享一套实用的技…

【Java的动态代理】

Java中有两种实现动态代理的方式jdk动态代理和CGLIB动态代理 jdk动态代理: 基于接口的动态代理, 目标对象必须实现接口cglib动态代理: 基于字节生成技术(ASM代码生成库), 能在运行时对java类和接口进行扩展实现 那么动态代理这个技术到底能帮我们干啥? 个人感觉这个技术在框…