国家博物馆数据的爬取（包括xlsx文件、csv文件、图片爬取）

1、请求html数据

右键检查这里静态的数据被注释掉了，只能读取一条数据

import json
import pandas as pd
import requests
from bs4 import BeautifulSoup
import csv
from urllib.parse import quote
# 起始网址
header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0'
}
WRL='https://www.chnmuseum.cn/portals/0/web/zt/cangpin'
url='https://www.chnmuseum.cn/portals/0/web/zt/cangpin/json/cangpin2/cangpin_1.js?_=173143'
# 用于存储所有数据
# 假设 url 和 header 已经定义过
html_url = requests.get(url, headers=header)
my_data = html_url.text[11:-1]  # 根据需要调整字符串切片
my_data = json.loads(my_data)["objs_1"]
print(my_data)

这里的header是在html源码数据里面的，右键检查，查看

在这里插入图片描述

2、查看数据对数据进行提取（对img进行转码和拼接）

这里必须转码，不能存在中文字符
在这里插入图片描述

需要提取的数据:

在这里插入图片描述

#提取 rname、rera 和 image
rnames_list = [item['rname'] for item in</

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/13938.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

国家博物馆数据的爬取（包括xlsx文件、csv文件、图片爬取）

1、请求html数据

2、查看数据对数据进行提取（对img进行转码和拼接）

相关文章

云技术基础介绍

常用的c++新特性--＞day09

新的服务器Centos7.6 安装基础的环境配置(新服务器可直接粘贴使用配置)

RAG与知识库搭建，手把手教你构建RAG系统

【数据结构】10.线索二叉树

java实现中小企业的erp系统

企业软文营销如何以差异化卖点助力品牌市场曝光？媒介盒子分享

探索Pillow库：Python图像处理的瑞士军刀

快速入门Selenium自动化测试

Java基础-内部类与异常处理

HCIP—MSTP（多生成树协议）

光控资本：中字头，多股涨停！融资客大举加仓

项目功能--项目介绍（健康管理系统）

【深度学习目标检测|YOLO算法4-4】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析——工业领域

Warped Universe游戏即将在Sui上推出，为玩家提供多样化的游戏体验

【数据运营】数据治理与运营新纪元：全面解析数据治理平台与运营体系建设方案

PyCharm2024.2.4安装

【无人机设计与控制】线性和非线性模型预测MPC、NMPC四旋翼无人机轨迹跟踪

如何用Java爬虫“偷窥”淘宝商品类目API的返回值

2024最新网络安全自学路线，内容涵盖3-5年技能提升