请求传参使用场景
使用场景:如果爬取解析的数据不在同一张页面中。
在Boss网站中,岗位的名称和关于岗位的描述是不在一个页面的。所以我们需要的信息在不同的页面中,所以要用到请求传参。
请求传参的方法页不难。
在boss.py
文件的parse函数中,最后一行为:
在Request中callback回调为另外一个处理岗位详情页的函数。
添加参数meta字典,封装已经写好部分数据的item到另外一个函数parse_detail中。
#手动请求的发送
#请求传参:meta={},可以将meta字典传递给请求对应的回调函数
yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item})
然后再在这个函数parse_detail中处理我们需要的另一个数据。
#回调函数接受itemdef parse_detail(self,response):item = response.meta['item']job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()job_desc = ''.join(job_desc)# print(job_desc)item['job_desc'] = job_descyield item
boss.py爬虫文件完整代码
此代码已失效,主要学习请求传参。
# -*- coding: utf-8 -*-
import scrapy
from bossPro.items import BossproItemclass BossSpider(scrapy.Spider):name = 'boss'# allowed_domains = ['www.xxx.com']start_urls = ['https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position=']url = 'https://www.zhipin.com/c101010100/?query=python&page=%d'page_num = 2#回调函数接受itemdef parse_detail(self,response):item = response.meta['item']job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()job_desc = ''.join(job_desc)# print(job_desc)item['job_desc'] = job_descyield item#解析首页中的岗位名称def parse(self, response):li_list = response.xpath('//*[@id="main"]/div/div[3]/ul/li')for li in li_list:item = BossproItem()job_name = li.xpath('.//div[@class="info-primary"]/h3/a/div[1]/text()').extract_first()item['job_name'] = job_name# print(job_name)detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="info-primary"]/h3/a/@href').extract_first()#对详情页发请求获取详情页的页面源码数据#手动请求的发送#请求传参:meta={},可以将meta字典传递给请求对应的回调函数yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item})#分页操作if self.page_num <= 3:new_url = format(self.url%self.page_num)self.page_num += 1yield scrapy.Request(new_url,callback=self.parse)