请求传参.

请求传参使用场景

使用场景：如果爬取解析的数据不在同一张页面中。

在Boss网站中，岗位的名称和关于岗位的描述是不在一个页面的。所以我们需要的信息在不同的页面中，所以要用到请求传参。
请求传参的方法页不难。
在boss.py文件的parse函数中，最后一行为：
在Request中callback回调为另外一个处理岗位详情页的函数。
添加参数meta字典，封装已经写好部分数据的item到另外一个函数parse_detail中。

#手动请求的发送
#请求传参：meta={}，可以将meta字典传递给请求对应的回调函数
yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item})

然后再在这个函数parse_detail中处理我们需要的另一个数据。

   #回调函数接受itemdef parse_detail(self,response):item = response.meta['item']job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()job_desc = ''.join(job_desc)# print(job_desc)item['job_desc'] = job_descyield item

boss.py爬虫文件完整代码

此代码已失效，主要学习请求传参。

# -*- coding: utf-8 -*-
import scrapy
from bossPro.items import BossproItemclass BossSpider(scrapy.Spider):name = 'boss'# allowed_domains = ['www.xxx.com']start_urls = ['https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position=']url = 'https://www.zhipin.com/c101010100/?query=python&page=%d'page_num = 2#回调函数接受itemdef parse_detail(self,response):item = response.meta['item']job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()job_desc = ''.join(job_desc)# print(job_desc)item['job_desc'] = job_descyield item#解析首页中的岗位名称def parse(self, response):li_list = response.xpath('//*[@id="main"]/div/div[3]/ul/li')for li in li_list:item = BossproItem()job_name = li.xpath('.//div[@class="info-primary"]/h3/a/div[1]/text()').extract_first()item['job_name'] = job_name# print(job_name)detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="info-primary"]/h3/a/@href').extract_first()#对详情页发请求获取详情页的页面源码数据#手动请求的发送#请求传参：meta={}，可以将meta字典传递给请求对应的回调函数yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item})#分页操作if self.page_num <= 3:new_url = format(self.url%self.page_num)self.page_num += 1yield scrapy.Request(new_url,callback=self.parse)