【Python爬虫实战】DrissionPage 与 ChromiumPage:高效网页自动化与数据抓取的双利器

  🌈个人主页:易辰君-CSDN博客
🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html

目录

前言

一、DrissionPage简介

(一)特点

(二)安装

(三)基本用法

(四)常见操作示例

二、ChromiumPage简介

(一)特点

(二)安装 ChromiumPage 和依赖

(三)基本用法

(四)常见操作

(五)适用场景

(六)ChromiumPage总结

三、总结


前言

在数据抓取与自动化测试领域,处理静态和动态网页的需求日益增加。传统的工具如 requestsselenium 虽然各有优势,但往往需要根据需求在二者之间切换,增加了代码的复杂度。DrissionPage 则创新性地整合了这两种模式,提供了统一的 API,使得静态和动态网页的处理变得更加简洁高效。此外,DrissionPageChromiumPage 模块结合了 Playwright 的强大性能,专为处理复杂的动态网页而设计,让开发者可以在无头浏览器中高效执行 JavaScript、进行模拟操作,为网页自动化和数据抓取提供了理想的解决方案。


一、DrissionPage简介

DrissionPage 是一个基于 Python 的网页自动化和数据抓取库,结合了 requestsselenium 两种工具的优势,为开发者提供了统一的 API,从而简化了静态和动态网页的处理。通过 DrissionPage,可以轻松切换不同的操作模式,适用于从简单的数据抓取到复杂的网页自动化操作。

(一)特点

(1)双模式支持:提供了两种模式,分别是 requests 模式和 selenium 模式。

  • requests 模式:适合加载速度快的静态网页抓取。

  • selenium 模式:适合处理动态网页和需要用户操作的网页,比如点击按钮、表单输入等。

(2)统一 APIDrissionPage 提供的 API 简洁且一致,无论是 requests 还是 selenium 模式,使用的接口基本一致,从而简化了代码的切换和维护。

(3)简化浏览器控制:在 selenium 模式下,可以自动加载页面、执行脚本、模拟用户操作(点击、输入等),便于实现自动化浏览器任务。

(4)智能解析与提取:集成了便捷的 CSS 选择器支持,可轻松定位页面元素,适用于快速数据提取和处理。

(二)安装

使用 pip 进行安装:

pip install drissionPage

此外,如果需要使用 selenium 模式,需要确保系统安装了对应的浏览器驱动(如 Chrome 的 chromedriver),或者使用 webdriver-manager 自动管理驱动。

(三)基本用法

以下是一个快速入门示例,展示如何使用 DrissionPage 切换模式来获取网页内容:

from drissionPage import Drission# 初始化 Drission 对象
drission = Drission()# 使用 requests 模式获取静态网页内容
page = drission.requests.get('https://example.com')
print(page.text)  # 输出网页文本内容# 切换到 selenium 模式,适用于动态网页
drission.change_mode('selenium')
page = drission.get('https://example.com')
print(page.page_source)  # 输出完整的网页源码

(四)常见操作示例

  • 定位和获取元素
# 在 requests 模式下查找元素
element = page.ele('h1')
print(element.text)
  • 自动化操作(在 selenium 模式下)
drission.change_mode('selenium')
page = drission.get('https://example.com')# 点击元素
page.ele('button#submit').click()# 输入文本
page.ele('input#name').input('example text')

二、ChromiumPage简介

ChromiumPageDrissionPage 库中的一个功能模块,专门用于控制基于 Chromium 的无头浏览器(headless browser),可以用于在 Python 中实现浏览器自动化和动态网页的数据抓取。ChromiumPage 使用 Playwright 作为底层引擎,能够高效地加载页面、执行 JavaScript 代码,并且可以无缝地处理动态内容(例如 AJAX 加载的内容)。

(一)特点

  • 高性能:基于 Playwright 引擎的无头浏览器,相比 Selenium 更轻量且性能更好。

  • 跨平台兼容Playwright 支持在 Windows、MacOS 和 Linux 上运行,并且适用于多种浏览器内核(包括 Chromium、Firefox 等)。

  • 处理动态内容:可以执行 JavaScript、模拟点击、输入等操作,适合动态网页的数据抓取。

  • API 简单易用:提供了简洁的 API,使得操作元素、提取数据变得更加直观。

(二)安装 ChromiumPage 和依赖

ChromiumPage 依赖 Playwright,因此在安装 DrissionPage 后,还需要安装 Playwright 并下载浏览器二进制文件:

pip install drissionPage[playwright]
python -m playwright install

(三)基本用法

以下是一个简单的例子,展示了如何使用 ChromiumPage 来访问网页、查找元素和执行自动化操作:

from drissionPage import ChromiumPage# 初始化 ChromiumPage 对象
page = ChromiumPage()# 访问网页
page.get('https://example.com')# 查找元素并获取文本
element = page.ele('h1')
print(element.text)# 模拟点击按钮
page.ele('button#submit').click()# 在输入框中输入文本
page.ele('input#name').input('Hello, World!')

(四)常见操作

定位元素:可以使用 CSS 选择器或 XPath 定位页面中的元素。

# 查找单个元素
element = page.ele('div.classname')# 查找多个元素
elements = page.eles('p')
for e in elements:print(e.text)

获取动态内容:在页面加载完成后,可以轻松获取由 JavaScript 动态生成的内容。

page.get('https://example.com')
content = page.ele('div#dynamic-content').text
print(content)

自动化操作:点击按钮、选择下拉框、输入文本等操作都可以在 ChromiumPage 中实现,比如登录表单填写

page.ele('input#username').input('my_username')
page.ele('input#password').input('my_password')
page.ele('button#login').click()

截图与 PDF 生成

可以轻松保存页面截图和生成 PDF 文件。

# 保存截图
page.screenshot('screenshot.png')# 保存页面为 PDF
page.pdf('page.pdf')

(五)适用场景

  • 数据抓取:适合处理需要 JavaScript 渲染的动态网页。

  • 自动化测试:能够模拟用户的操作,用于自动化测试。

  • 网页自动化操作:适用于登录操作、数据提交等任务。

(六)ChromiumPage总结

ChromiumPage 是一个强大的网页自动化和数据抓取工具,通过与 Playwright 的结合,可以实现高效、跨平台的浏览器自动化。无论是用于数据抓取还是自动化测试,它都提供了丰富的 API,适合需要处理动态网页内容的任务。


三、总结

DrissionPageChromiumPage 的结合,使得 Python 用户能够轻松应对多种网页自动化与数据抓取任务。从简单的数据抓取到复杂的用户交互、从静态页面到动态内容,这两个工具模块通过统一、简洁的 API 极大地降低了开发者的工作量。无论是需要更高性能的动态页面处理,还是简化自动化测试流程,DrissionPage 都是一个强大的利器,尤其在需要高效处理动态内容的场景下,ChromiumPage 的表现尤为出色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/7342.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Halcon基于laws纹理特征的SVM分类

与基于区域特征的 SVM 分类不同,针对图像特征的 SVM 分类的算子不需要直接提取 特征,下面介绍基于 Laws 纹理特征的 SVM 分类。 纹理在计算机视觉领域的图像分割、模式识别等方面都有着重要的意义和广泛的应 用。纹理是指由于物体表面的物理属性不同所…

Netty篇(入门编程)

目录 一、Hello World 1. 目标 2. 服务器端 3. 客户端 4. 流程梳理 💡 提示 5. 运行结果截图 二、Netty执行流程 1. 流程分析 2. 代码案例 2.1. 引入依赖 2.2. 服务端 服务端 服务端处理器 2.3. 客户端 客户端 客户端处理器 2.4. 代码截图 一、Hel…

从0开始学习机器学习--Day14--如何优化神经网络的代价函数

在上一篇文章中,解析了神经网络处理分类问题的过程,类似的,在处理多元分类问题时,神经网络会按照类型分成多个输出层的神经元来表示,如下: 处理4个分类问题时的神经网络 我们可以看到,相较于之…

除草机器人算法以及技术详解!

算法详解 图像识别与目标检测算法 Yolo算法:这是目标检测领域的一种常用算法,通过卷积神经网络对输入图像进行处理,将图像划分为多个网格,每个网格生成预测框,并通过非极大值抑制(NMS)筛选出最…

Android MavenCentral 仓库更新问题

MavenCentral 仓库更新问题 前言正文一、Maven central repository的账户迁移二、获取加密账户信息三、问题和解决方式① 问题1② 解决1③ 问题2④ 解决2 前言 在去年的3、4月份的时候我发布了一个开源库EasyView,在MavenCentral上,可以说当时发布的时候…

腾讯为什么支持开源?

今天看到一条新闻,感觉腾讯在 AI 大模型方面确实挺厉害的,符合它低调务实的风格,在不知不觉中一天竟然开源了两个核心的,重要的 AI 大模型。 据新闻报道,11月 5 日,腾讯混元宣布最新的 MoE 模型“混元 Larg…

学习了,踩到一个坑!

前言 踩坑了啊,最近踩了一个 lombok 的坑,有点意思,给你分享一波。 我之前写过一个公共的服务接口,这个接口已经有好几个系统对接并稳定运行了很长一段时间了,长到这个接口都已经交接给别的同事一年多了。 因为是基…

『Django』APIView基于类的用法

点赞 关注 收藏 学会了 本文简介 上一篇文章介绍了如何使用APIView创建各种请求方法,介绍的是通过函数的方式写接口。 本文要介绍 Django 提供的基于类(Class)来实现的 APIView 用法,代码写起来更简单。 APIView基于类的基…

CentOS系统查看CPU、内存、操作系统等信息

Linux系统提供了一系列命令可以用来查看系统硬件信息,如CPU的物理个数、核数、逻辑CPU数量、内存信息和操作系统版本。 查看物理CPU、核数和逻辑CPU 在多核、多线程的系统中,了解物理CPU个数、每个物理CPU的核数和逻辑CPU个数至关重要。超线程技术进一步…

DNS配置

1.搭建dns服务器能够对自定义的正向或者反向域完成数据解析查询。 2.配置从DNS服务器,对主dns服务器进行数据备份。 options {listen-on port 53 { 192.168.111.130; };directory "/var/named";allow-query { any;};zone "openlab.com&qu…

【WebRTC】WebRTC的简单使用

目录 1.下载2.官网上的使用3.本地的使用 参考: 【webRTC】一、windows编译webrtc Windows下WebRTC编译 1.下载 下载时需要注意更新python的版本和网络连接,可以先试试ping google。比较关键的步骤是 cd webrtc-checkout set https_proxy127.0.0.1:123…

使用axois自定义基础路径,自动拼接前端服务器地址怎么办

请求路径: http://localhost:5173/http://pcapi-xiaotuxian-front-devtest.itheima.net/home/category/head 很明显多拼接了路径地址 查看基础路径文件发现: //axios基础封装 import axios from axiosconst httpInstance axios.create({baseURL: /h…

第J5周:DenseNet+SE-Net实战

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 任务: ●1. 在DenseNet系列算法中插入SE-Net通道注意力机制,并完成猴痘病识别 ●2. 改进思路是否可以迁移到其他地方呢 ●3. 测试集acc…

力扣最热一百题——杨辉三角

目录 题目链接:118. 杨辉三角 - 力扣(LeetCode) 题目描述 示例 提示: 解法一:利用特性构建杨辉三角 1. 结果存储结构: 2. 初始化和循环遍历每一层: 3. 构建每一层: 4. 填充中间的元素&…

道品科技智慧农业中的自动气象检测站

随着科技的进步,智慧农业已经成为现代农业发展的重要方向。农业自动气象检测站作为智慧农业的一个关键组成部分,发挥着不可或缺的作用。本文将从工作原理、功能特点、应用场景以及主要作用等方面对农业自动气象检测站进行深入探讨。 ## 一、工作原理 农…

Android——多线程、线程通信、handler机制

Android——多线程、线程通信、handler机制 模拟网络请求&#xff0c;会阻塞主线程 private String getStringForNet() {StringBuilder stringBuilder new StringBuilder();for (int i 0; i < 100; i) {stringBuilder.append("字符串" i);}try {Thread.sleep(…

练习LabVIEW第三十三题

学习目标&#xff1a; 刚学了LabVIEW&#xff0c;在网上找了些题&#xff0c;练习一下LabVIEW&#xff0c;有不对不好不足的地方欢迎指正&#xff01; 第三十三题&#xff1a; 用labview编写一个判断素数的程序 开始编写&#xff1a; LabVIEW判断素数&#xff0c;首先要搞…

我要精通前端-布局方式理解总结

一、浮动 1、传统网页布局的三种方式 ​CSS 提供了三种传统布局方式(简单说,就是盒子如何进行排列顺序)&#xff1a; 1.普通流&#xff08;标准流&#xff09; 2.浮动 3.定位 这三种布局方式都是用来摆放盒子的&#xff0c;盒子摆放到合适位置&#xff0c;布局自然就完成了…

C-DTL698电表 转 IEC61850 协议项目案例

目录 1 案例说明 2 VFBOX网关工作原理 3 准备工作 4 配置VFBOX网关 5 用IEC61850协议转发数据 6 网关使用多个逻辑设备和逻辑节点的方法 7 其他说明 8 案例总结 1 案例说明 设置网关采集DLT698电表数据数据把采集的数据转成IEC61850协议转发给其他系统。 2 VFBOX网关…

斗破QT编程入门系列之二:GUI应用程序设计基础:UI文件(四星斗师)

斗破Qt目录&#xff1a; 斗破Qt编程入门系列之前言&#xff1a;认识Qt&#xff1a;Qt的获取与安装&#xff08;四星斗师&#xff09; 斗破QT编程入门系列之一&#xff1a;认识Qt&#xff1a;初步使用&#xff08;四星斗师&#xff09; 斗破QT编程入门系列之二&#xff1a;认识…