1、请求html数据
右键检查
这里静态的数据被注释掉了,只能读取一条数据
import json
import pandas as pd
import requests
from bs4 import BeautifulSoup
import csv
from urllib.parse import quote
# 起始网址
header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0'
}
WRL='https://www.chnmuseum.cn/portals/0/web/zt/cangpin'
url='https://www.chnmuseum.cn/portals/0/web/zt/cangpin/json/cangpin2/cangpin_1.js?_=173143'
# 用于存储所有数据
# 假设 url 和 header 已经定义过
html_url = requests.get(url, headers=header)
my_data = html_url.text[11:-1] # 根据需要调整字符串切片
my_data = json.loads(my_data)["objs_1"]
print(my_data)
这里的header是在html源码数据里面的,右键检查,查看
2、查看数据对数据进行提取(对img进行转码和拼接)
这里必须转码, 不能存在中文字符
需要提取的数据:
#提取 rname、rera 和 image
rnames_list = [item['rname'] for item in</