影刀RPA实战:网页爬虫之药品数据

1 实战目标

这次给大家带来的实战示例是采集中国医药信息平台上的药品数据,主要获取药品名称,介绍,药品类型,处方类型,医保类型,参考价格,药品成分,性状,适应病症,用法用量等。我们依然使用excel将这些需要的数据字段展示出来

需要准备的影刀知识:

  • 网页元素操作
  • 流程判断与循环
  • excel操作
  • 列表及文本字符串处理

2 影刀机器人采集药品数据

2.1 打开药品数据网

2.2 循环每一页药品数据

2.2.1 进入列表页面

2.2.2 获取分页数据

获取总页码,便于我们使用循环,依次采集每个页面的药品数据

开始循环分页采集,演示中,我们只采集第一页

2.2.3 获取药品数据列表

使用循环相似元素,将本页面的药品数据放入到一个列表中

2.2.4 下一页数据

通过以上的操作步骤,我们可以获取到每一页的药品数据,然后,我们依次点击,进入详情页来正式采集药品数据

3.3药品详情页采集药品数据

药品数据都是在详情页面中获取的,前边我们已经做好了准备工作,现在我们正式开始,详情页大体可以看成2个部分,我们通过观察可以发现,这个2个部分都很有规律,可以使用循环相似元素指令获取,不用通过获取元素信息指令单个采集。

3.3.1  进入详情页

我们先设置一个列表变量,存放采集的数据,每次采集完成后,将其写入excel

3.3.2  药品采集

采集药品名称与介绍

采集类型与参考价

这里有个判断,主要是过滤我们不需要采集的信息

其他说明采集

通过以上的采集,我们把想要的数据都写入到一个列表中,准备写入。

3.4 保存数据到excel

新建excel文件,设置好字段

数据写入excel中,自动保存

最终展示:

3 数据采集后思考

数据采集后的数据处理是一个关键步骤,它直接影响到数据分析的质量和最终结果的准确性。以下是一些数据处理的思考和最佳实践:

3.1 数据清洗

  • 处理缺失值:通过删除、填充或插值等方法处理缺失数据。
  • 去除重复:识别并删除重复记录,确保数据的唯一性。
  • 纠正错误:修正明显的错误或不一致的数据,如错误的格式、拼写错误等。

3.2 数据转换

  • 格式统一:将数据转换成统一的格式,便于分析和处理。
  • 归一化:对数据进行标准化或归一化处理,使其整洁,统一。

3.3 数据存储

  • 选择合适的存储格式和数据库,如关系型数据库、NoSQL数据库或数据仓库。
  • 同时需要考虑数据检索是否方便

3.4 持续维护

  •  随着时间的推移和数据的更新,定期维护和更新数据处理流程。

3.5 遵守法规

  • 确保数据处理过程遵守相关的数据保护法规和行业标准。

通过这些步骤,可以确保数据采集后的数据处理既高效又准确,为数据分析和决策提供坚实的基础。

4 最后

最后,国庆马上到了,祝大家开开心心,快快乐乐!

感谢大家,请大家多多支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145854.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

SAP B1 Web Client MS Teams App集成连载四

过程/Procedure: 1.通过点击选项卡旁边的下拉箭头,可以重新配置、重命名和移除现有选项卡。 You can reconfigure, rename and remove an existing tab by clicking the drop down arrow alongside the tab. 要重新配置选项卡,请选择“设置”…

HTML-DOM模型

1.DOM模型 window对象下的document对象就是DOM模型。 DOM描绘了一个层次化的节点树,每一个节点就是一个html标签,而且每一个节点也是一个DOM对象。 2.操作DOM 2.1.获取DOM对象常用方法 获取DOM对象的常用方法有如下几种: getElementById(…

无线麦克风哪个好,麦克风哪个品牌音质最好,领夹麦克风推荐

​无线领夹麦克风作为直播、视频录制等场景必备的设备之一,用起来很方便,功能多样且易于操作,在音频设备领域占据着重要地位。但当前市场乱象较为严重,有许多商家纷纷打起价格战,忽视了产品质量,造成耐用性…

李沐 多层感知机【动手学深度学习v2】

学习XOR 同或操作:相同为1,不同为0。 先进入蓝色和黄色分类器,最后进入灰色分类器来得到最终的结果。 单隐藏层 输入为x1~x4,加入隐藏层后,x1~x4需要先进入h1~h5,该隐藏层再作为输入,连接下一层…

【24华为杯数模研赛赛题思路已出】国赛E题思路丨附参考代码丨免费分享

2024年华为杯研赛E题解题思路 E题 高速公路应急车道紧急启用模型 问题1 1. 某路段(长度约5000m,行车道2应急车道1)上有四个视频观测点(见示意图1)。请基于该路段四个视频数据解决如下问题: (…

任天堂发言人:不会透露起诉《幻兽帕鲁》开发商细节

任天堂在昨天突然宣布将起诉《幻兽帕鲁》开发商 Pocketpair,除了引起许多玩家不满外,更多的是所有人的疑惑:因为实际上大家内心里觉得任天堂出手是理所当然的,但是为什么是在游戏发布数月后才选择起诉?此次诉讼是“专利…

解决引入ethereumjs-wallet报错Uncaught ReferenceError: process is defined

最近在学习web3.0开发DApp的视频教程,遇到用助记词生成秘钥对报错Uncaught ReferenceError: process is defined。具体报错如下截图: 在网上搜了好几个小时都没找到解决方法。突然在学习的视频论坛找到有哥们说是引入的包不兼容问题导致报这个错。我试了…

集合框架(一):Collection集合的遍历方式

一.迭代器遍历Collection集合 package com.njau.d2_collection_traverse;import java.util.ArrayList; import java.util.Collection; import java.util.Iterator;/*** 目标:Collection集合的遍历方式一:使用迭代器Iterator对象遍历Collection集合*/ pub…

嵌入式常用硬件电路设计及分析 — 通信篇

目录 一、简介 二、RS232通信 1、硬件电路设计 2、硬件电路设计分析 (1)常规电路 (2)EMC设计使用注意事项 3、DB9接头定义 三、RS485通信 1、硬件电路设计 2、硬件电路设计分析 (1)自动收发电路…

【C++】C++入门概念(一)

C关键字 C总计63个关键字,C语言32个关键字 ps:下面我们只是看一下C有多少关键字,不对关键字进行具体的讲解。后面我们学到以后再详细讨论。 命名空间 在C/C中,变量、函数和后面要学到的类都是大量存在的,这些变量、…

神州数码社招校招入职北森测评笔试:语言理解、图形推理、材料计算

神州数码入职测评使用的是北森CATA-能力倾向计算机自适应测评 国内唯一被国际计算机自适应测验协会(IACAT)收录产品,基于企业大量招聘下对认知能力考察的需求,通过最新的测评技术手段,快速高效,评价候选人的认知能力,平均作答时…

Linux环境Docker安装Mongodb

Linux环境Docker安装Mongodb 环境要求拉取指定版本镜像创建映射目录(相当于数据存放于容器外,容器被删除不会影响数据)启动容器 进入mongo命令行为指定db创建新用户查看mongodb的容器id进入命令行查看所有db切换db为指定db创建新用户使用新账…

CZ 即将回归,这四个月币安疯狂上币用意何在?

随着币安创始人赵长鹏(CZ)即将在2024年9月29日刑满释放,市场上对于他的回归以及币安未来战略方向的讨论愈演愈烈。自今年4月,CZ因违反美国反洗钱法被判四个月监禁后,币安并没有停下发展的步伐,反而在CZ缺席…

【python设计模式7】行为型模式2

目录 策略模式 模板方法模式 策略模式 定义一个个算法,把它们封装起来,并且使它们可以相互替换。本模式使得算法可独立于使用它的客户而变化。角色有:抽象策略、具体策略和上下文。 from abc import abstractmethod, ABCMeta from datetim…

2024华为杯C题详细完整思路和视频讲解

文章目录 一、背景问题描述数据描述问题问题一: 励磁波形分类问题二: 斯坦麦茨方程(Steinmetz-equation)修正问题三: 磁芯损耗因素分析问题四问题五 参考文献补充磁芯损耗分离模型磁芯损耗经验计算模型 特别注意事项问…

毕业设计选题:基于ssm+vue+uniapp的捷邻小程序

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…

稀土抗菌剂:厨房用品中的安全卫士

稀土抗菌剂的抗菌机制是基于稀土的光催化半导体特性,通过光生氧自由基ROS机理杀灭细菌;稀土化合物与细菌表面静电结合,造成直接的杀灭;稀土化合物破坏细胞膜通透性,造成破损导致细胞质流出杀灭细菌;稀土离子跨膜后与细…

使用Lantern和LangChain构建RAG应用:一步步指南

使用Lantern和LangChain构建RAG应用:一步步指南 在本文中,我们将介绍如何使用Lantern和LangChain创建一个高效的RAG(检索增强生成)应用。我们将详细讲解环境设置,数据库配置,代码实现,以及如何…

表盘针头位置检测系统源码分享

表盘针头位置检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer…

【软设】 系统开发基础

【软设】 系统开发基础 一.软件工程概述 (了解一下大概的流程就行) 1. 可行性分析与项目开发计划 目的:评估项目的经济性、技术性和运营性,判断项目是否值得投资和开发。确定开发时间、预算、所需资源等。 可行性分析&#xff…