网页自动化测试和爬虫:Selenium库入门与进阶


网页自动化测试和爬虫:Selenium库入门与进阶

在现代Web开发和数据分析中,自动化测试和数据采集成为了开发流程中的重要部分。Python 的 Selenium 库是一种强大的工具,不仅用于网页自动化测试,也在网页爬虫中得到了广泛的应用。本文将带你从 Selenium 的基础用法入手,逐步深入到进阶技巧,帮助你轻松应对网页自动化任务。

一、Selenium简介与安装

Selenium 是一个浏览器自动化工具,可以模拟用户操作,如点击按钮、填入表单、滚动页面等。它支持多种浏览器(如 Chrome、Firefox 等),使其成为自动化测试和动态页面数据采集的强力工具。

1. 安装Selenium

使用 pip 安装 Selenium:

pip install selenium

另外,还需下载相应浏览器的驱动程序,比如 chromedrivergeckodriver。以 Chrome 为例,你可以从 ChromeDriver官网 下载对应的驱动,并将其路径加入到系统 PATH 中。

2. 快速启动

以下代码展示了如何用 Selenium 启动一个浏览器并访问指定网页。

from selenium import webdriver# 启动 Chrome 浏览器
driver = webdriver.Chrome()# 访问网页
driver.get("https://www.example.com")# 输出网页标题
print(driver.title)# 关闭浏览器
driver.quit()

二、基本操作:定位元素

Selenium 提供了多种方式来定位页面中的元素,从最常用的 idclass name 到更高级的 CSS 选择器和 XPath。以下是一些常见的元素定位方法:

from selenium.webdriver.common.by import By# 按 ID 查找元素
element = driver.find_element(By.ID, "element_id")# 按 class name 查找元素
element = driver.find_element(By.CLASS_NAME, "element_class")# 按 name 查找元素
element = driver.find_element(By.NAME, "element_name")# 使用 CSS 选择器
element = driver.find_element(By.CSS_SELECTOR, ".class > #id")# 使用 XPath
element = driver.find_element(By.XPATH, "//tag[@attribute='value']")

三、模拟用户操作

1. 输入文本

可以用 .send_keys() 向输入框内输入文本内容,例如登录页面中的账号和密码:

# 找到输入框并输入文本
input_box = driver.find_element(By.ID, "username")
input_box.send_keys("my_username")

2. 点击按钮

按钮可以通过 .click() 方法触发点击事件。

# 点击登录按钮
login_button = driver.find_element(By.ID, "login")
login_button.click()

3. 清空文本框

使用 .clear() 方法可以清除文本框中的内容:

input_box.clear()

四、等待与超时

有时页面加载或元素显示需要一定时间,Selenium 提供了三种等待方式,以确保操作在元素完全加载后再执行:

1. 隐式等待

隐式等待在定位元素时会等待设定时间,使 Selenium 有足够时间找到元素。

driver.implicitly_wait(10)  # 10秒

2. 显式等待

显式等待允许我们设定特定条件,例如等待元素可点击或可见。

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC# 等待某个按钮可点击
button = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.ID, "button_id")))
button.click()

3. 强制等待

强制等待可以暂停代码执行指定时间,但通常不推荐长期使用,因为它不够灵活。

import timetime.sleep(5)  # 强制等待5秒

五、处理弹窗、iframe和多窗口

1. 处理弹窗(Alert)

弹窗可以通过 alert 方法接受或取消。

alert = driver.switch_to.alert
alert.accept()  # 接受弹窗
alert.dismiss()  # 取消弹窗

2. 切换到 iframe

如果需要操作 iframe 内的元素,需先切换到该 iframe。

# 切换到 iframe
iframe = driver.find_element(By.ID, "iframe_id")
driver.switch_to.frame(iframe)# 操作 iframe 内部的元素
# ...# 切换回默认内容
driver.switch_to.default_content()

3. 处理多窗口

在多窗口环境中,可以使用 window_handles 切换窗口。

# 获取所有窗口句柄
handles = driver.window_handles# 切换到新窗口
driver.switch_to.window(handles[1])

六、网页爬虫应用:抓取动态数据

Selenium 强大的自动化功能,使其在数据爬取中非常适合处理需要用户交互的页面。以下是一个使用 Selenium 抓取动态内容的简单示例:

from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys# 打开网页并输入搜索关键词
driver.get("https://www.google.com")
search_box = driver.find_element(By.NAME, "q")
search_box.send_keys("Selenium 教程")
search_box.send_keys(Keys.RETURN)# 获取搜索结果
results = driver.find_elements(By.CSS_SELECTOR, "h3")
for result in results:print(result.text)

七、使用无头浏览器

无头浏览器允许我们在没有浏览器窗口的情况下运行 Selenium,提高运行速度和效率,尤其适合服务器端应用。

from selenium.webdriver.chrome.options import Options# 设置无头模式
options = Options()
options.add_argument("--headless")
driver = webdriver.Chrome(options=options)driver.get("https://www.example.com")
print(driver.title)
driver.quit()

八、进阶技巧

1. 滚动页面

某些页面加载内容的方式是通过滚动触发的。可以使用 JavaScript 指令来实现页面滚动。

# 滚动到底部
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")# 滚动至某个元素
target = driver.find_element(By.ID, "target_id")
driver.execute_script("arguments[0].scrollIntoView();", target)

2. 模拟鼠标悬停

在一些页面中,悬停可以显示更多内容,使用 ActionChains 可以实现鼠标悬停操作。

from selenium.webdriver.common.action_chains import ActionChainselement = driver.find_element(By.ID, "hover_element")
ActionChains(driver).move_to_element(element).perform()

3. 模拟键盘操作

Selenium 可以模拟键盘事件,如全选、复制、粘贴等:

from selenium.webdriver.common.keys import Keysinput_box = driver.find_element(By.ID, "input_box")
input_box.send_keys(Keys.CONTROL, 'a')  # 全选
input_box.send_keys(Keys.CONTROL, 'c')  # 复制
input_box.send_keys(Keys.CONTROL, 'v')  # 粘贴

九、Selenium 使用建议

  1. 减少等待时间:尽量使用显式等待,避免使用固定时长的强制等待,以提高执行效率。
  2. 无头模式:在爬取数据时使用无头模式,以节省资源并加快速度。
  3. 异常处理:使用 try-except 块捕捉可能的异常,以确保代码在出现错误时不会停止。
  4. 避免频繁刷新:对于动态内容尽量避免使用频繁的页面刷新,可能会导致网站将请求封锁。

十、总结

Selenium 是一个功能全面的网页自动化测试工具,既可用于网页功能的自动化测试,又能在网页爬虫中抓取动态数据。掌握了以上基本与进阶技巧,相信你已经可以用 Selenium 轻松应对各种网页交互场景。在实际项目中,通过合理地使用等待和浏览器选项,Selenium 可以成为非常高效、稳定的数据获取和测试工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/4880.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

俯仰 (pitch) 偏摆 (yaw) 翻滚 (roll)

pitch():俯仰,将物体绕X轴旋转(localRotationX) yaw():航向,将物体绕Y轴旋转(localRotationY) roll():横滚,将物体绕Z轴旋转(localRotationZ&…

es数据同步(仅供自己参考)

数据同步的问题分析: 当MySQL进行增删改查的时候,数据库的数据有所改变,这个时候需要修改es中的索引库的值,这个时候就涉及到了数据同步的问题 解决方法: 1、同步方法: 当服务对MySQL进行增删改的时候&…

从0开始学习Linux——Yum工具

往期目录: 从0开始学习Linux——简介&安装 从0开始学习Linux——搭建属于自己的Linux虚拟机 从0开始学习Linux——文本编辑器 上一个章节我们简单了解了Linux中常用的一些文本编辑器,本次教程我们将学习yum工具。 一、Yum简介 Yum(全名…

高级AI记录笔记(一)

学习位置 B站位置:红豆丨泥 UE AI 教程原作者Youtube位置:https://youtu.be/-t3PbGRazKg?siRVoaBr4476k88gct素材自备 提前将动画素材准备好 斧头蓝图 斧头武器插槽 混合空间 就是改了一下第三人称模版的动画蓝图 行为树中不用Wait实现攻击完…

ffmpeg的下载与安装

废话不多说, 下载地址,得找官网,不然得注意是不是有夹带私活。 FFmpeg 这个是目前的最新版本; 下载的时候看下自己要的版本,我的是Windows10; 解压后的版本长这样: 接下来进行环境变量的配置&…

【http协议笔记】-- 浏览器简单分析get、post请求

环境:为了了解http协议的交互方式,使用edge浏览器简单分析协议内容,给刚入门的小伙伴分享一下,方便大家学习。 以菜鸟教程的网站为例子: 分析post: 请求url: 请求参数: 请求相应&a…

SpringBoot【实用篇】- 热部署

文章目录 目标:1.手动启动热部署2.自动启动热部署4.禁用热部署 目标: 手动启动热部署自动启动热部署热部署范围配置关闭热部署 1.手动启动热部署 当我们没有热部署的时候,我们必须在代码修改完后再重启程序,程序才会同步你修改的信息。如果我们想快速查…

vue3相对vue2有哪些改变?

https://blog.csdn.net/weixin_44475093/article/details/112386778 https://blog.csdn.net/userDengDeng/article/details/114941956 一、vue3的新特性: 1、速度更快 vue3相比vue2 重写了虚拟Dom实现编译模板的优化更高效的组件初始化undate性能提高1.3~2倍SSR速度…

数据库概论实验一

声明:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 本文章对数据库概论实验一_求出一箱(每箱装100个)零件的重量 并将输出结果-CSDN博客文章浏览阅读2.7k次,点赞4次,收藏25次。实验数据库,表…

绿色能源发展关键:优化风电运维体系

根据QYResearch调研团队最新发布的《全球风电运维市场报告2023-2029》显示,预计到2029年,全球风电运维市场的规模将攀升至307.8亿美元,并且在接下来的几年里,其年复合增长率(CAGR)将达到12.5%。 上述图表及…

gerrit 搭建遇到的问题

1、启动Apache,端口被占用 : AH00072: make sock: could not bind to address (0S 10048)通常每个套接字地址(协议/网络地址/端口)只允许使用一次。: AH00072: make sock: could not bind to address 0.0.0.:443 a AH00451: no listening sockets available, shutti…

栈和队列相关题 , 用队列实现栈, 用栈实现队列 ,设计循环队列 C/C++双版本

文章目录 1.用队列实现栈2.用栈实现队列3. 设计循环队列 1.用队列实现栈 225. 用队列实现栈 思路: 使用两个队列,始终保持一个队列为空。 当我们需要进行压栈操作时,将数据压入不为空的队列中(若两个都为空,则随便压…

关于STM32在代码中的而GPIO里面的寄存器(ODR等)不需要宏定义的问题

1.GPIO为什么需要宏定义地址 在 STM32 这样的微控制器中,硬件寄存器的地址是固定的并且特定于每个外设(比如 GPIOA、GPIOB 等)。为了方便代码访问这些硬件寄存器,我们通常会使用宏定义来指定每个外设的基地址。这样做有几个理由&a…

kimi智能助手,5大高阶玩法,95%的人还不知道

01 智能搜索:精准定位,一键获取最佳答案 Kimi,作为您的AI助手,拥有卓越的网络搜索能力。 我们能够迅速穿梭于信息海洋,为您筛选出五篇精选网络文章,并提供直接的网址链接。 Kimi的总结能力同样出色,特别适合那些追求效率、不愿深陷长篇文章的用户。 02 PDF速读:快速把…

关于数学建模的一些介绍

为了更好了解世界,我们可以通过数学来描述许多特定的现象,而数学模型就是现实世界的理想化,不过它永远不能完全精确地表示现实世界。 在这篇文章中,我将介绍一些数学建模的基本概念以及相应的基础知识,而关于更具体的…

远翔升压恒流芯片FP7209X与FP7209M什么区别?做以下应用市场摄影补光灯、便携灯、智能家居(调光)市场、太阳能、车灯、洗墙灯、舞台灯必看!

一,概述 FP7209是台湾远翔一款非同步升压LED驱动IC,封装有2种,分别是SOP-8L(EP), TSSOP-14L(EP)。控制外部开关NMOS。 输入低启动电压2.8V,可支持单节锂电池供电。工作电压5V,VFB反馈电压0.25V,反馈电压低…

算法日记 18 day 二叉树

最后三题,二叉树就结束啦!!! 题目:修剪二叉搜索树 669. 修剪二叉搜索树 - 力扣(LeetCode) 给你二叉搜索树的根节点 root ,同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树…

hashcat使用

0.介绍 Hashcat 软件是一款非常强大的、开源的、号称世界上最快的密码破解软件,配合强大的字典,可以破译超过百分之九十的密码。Hashcat 目前支持各类公开算法高达240类,市面上公开的密码加密算法基本都支持,有 Microsoft LM 哈希…

mysql 安装 windows

新版安装 新版本安装 如果出现initializing database无法安装 则用我当前版本传送门 如MySQL 安装时没有developer default 选项 解决方法传送门 如果上述还不行 可以选择full 汉化下载 传送门

基于Redis缓存机制实现高并发接口调试

创建接口 这里使用的是阿里云提供的接口服务直接做的测试,接口地址 curl http://localhost:8080/initData?tokenAppWithRedis 这里主要通过参数cacheFirstfalse和true来区分是否走缓存,正常的业务机制可能是通过后台代码逻辑自行控制的,这…