Python爬虫----python爬虫基础

一、python爬虫基础-爬虫简介

1、现实生活中实际爬虫有哪些？

2、什么是网络爬虫？

3、什么是通用爬虫和聚焦爬虫？

4、为什么要用python写爬虫程序

5、环境和工具

二、python爬虫基础-http协议和chrome抓包工具

1、什么是http和https协议

2、http请求过程

3、url详解

4、常用的请求方法:

5、请求头常见参数:

6、常见响应状态码:

7、浏览器抓包工具

一、python爬虫基础-爬虫简介

1、现实生活中实际爬虫有哪些？

（1）搜索引擎（百度、谷歌、360）

（2）购物助手：可以自动查看历史价格，通过爬虫实现爬取电商平台价格数据。

（3）数据分析与研究：根据爬虫程序爬取数据并对数据进行分析。

（4）抢票软件：

2、什么是网络爬虫？

爬虫是一个模拟人类请求网站行为的程序、可以自动请求网页，并将数据抓取出来，然后使用一定的规则把有用的数据筛选出来。

3、什么是通用爬虫和聚焦爬虫？

通用爬虫‌（General Purpose Web Crawler 或 Scalable Web Crawler）的目标是覆盖整个互联网或尽可能广泛的网络空间进行数据抓取。它们主要用于搜索引擎，如Baidu、Google和Yahoo，目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用爬虫的爬行范围和数量巨大，通常采用并行工作方式，但需要较长时间才能刷新一次页面‌。

‌聚焦爬虫‌（Focused Crawler 或 Topical Crawler）则是选择性地爬行那些与预先定义好的主题相关的页面。与通用爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，从而极大地节省了硬件和网络资源，保存的页面数量少且更新快，能够很好地满足特定人群对特定领域信息的需求‌。

4、为什么要用python写爬虫程序

（1）PHP:PHP是世界是最好的语言，但他天生不是做这个的，而且对多线程、异步支持不是很好，并发处理能力。爬虫是工具性程序，对速度和效率要求比较高。

（2）Java：生态圈很完善，是Python爬虫最大的竞争对手。但是Java语言本身很笨重，代码量很大。重构成本比较高，任何修改会导致代码大量改动。爬虫要经常修改采集代码。

（3）C/C++:运行效率是无敌的。但是学习和开发成本高。写个小爬虫程序可能要大半天时间。（4）Python:语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请家模块和HTML解析模块非常丰富。还有Scrapy和Scrapy-redls框架让我们开发肥虫变得异常简单。

5、环境和工具

（1）开发环境：python3以上

（2）使用工具：Pycharm

（3）虚拟环境： Virtualenv/Virtualenvwrapper

二、python爬虫基础-http协议和chrome抓包工具

1、什么是http和https协议

HTTP协议：全程是HyperText Transfer Protocol,即超文本传输协议，是一种发布和接收HTML的方法。服务端口号80。

HTTPS协议：是http协议的加密版本，在HTTP下加入了ssl层，服务端口号是443端口。

2、http请求过程

（1）当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为"Get"和"Post"两种方法。

（2）当我们在浏览器输入URL http://www.baidu.com 的时候，浏览器发送一个Request请求去获取 http://www.baidu.com的html文件，服务器把Response文件对象发送回给浏览器。

（3）浏览器分析Response中的 HTML，发现其中引用了很多其他文件，比如images文件，CSS文件，JS文件。浏览器会自动再次发送Request请求去获取图片，CSS文件，或者JS文件。

（4)当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

3、url详解

URL是UniforF Resource Locator 的简写，统一资源定位符。

一个 URL 由以下几部分组成:

scheme://host:port/path/?query-string=xxx#anchor

scheme:代表的是访问的协议，一般为http或者 https以及 ftp 等。
host:主机名，域名，比如www.baidu.com。
port:端口号。当你访问一个网站的时候，浏览器默认使用80端口。
path:查找路径。比如:www.baidu.com/trending/now，后面的trending/now 就是 path 。
query-string:查询字符串，比如:www.baidu,con/s?wd-python，后面的 wd-python 就是查询字符串。如果查询多个参数使用&进行拼接。
anchor:锚点，后台一般不用管，前端用来做页面定位的。

在浏览器中请求一个 url，浏览器会对这个url进行一个编码。除英文字母，数字和部分符号外，其他的全部使用百分号+十六进制码值进行编码。

4、常用的请求方法:

在 Http 协议中，定义了八种请求方法。这里介绍两种常用的请求方法，分别是get 请求和 post 请求。

（1）set请求:一般情况下，只从服务器获取数据下来，并不会对服务器资源产生任何影响的时候会使用 set 请求。

（2）post 请求:向服务器发送数据(登录)、上传文件等，会对服务器资源产生影响的时候会使用 post 请求。

以上是在网站开发中常用的两种方法。并且一般情况下都会遵循使用的原则。但是有的网站和服务器为了做反爬虫机制，也经常会不按常理出牌，有可能一个应该使用get方法的请求就一定要改成post请求，这个要视情况而定。

5、请求头常见参数:

在 http 协议中，向服务器发送一个请求，数据分为三部分，第一个是把数据放在url中，第二个是把数据放在 body 中(在 post 请求中)，第三个就是把数据放在 head中。这里介绍在网络虫中经常会用到的一些请求头参数:

（1）Uer-Agent：浏览器的名称。这个在网络爬虫中经常会被使用到。请求一个网页的时候，服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请求，那么我们的user-Agent就是python ，这对于那些有反爬虫机制的网站来说，可以轻易的判断你这个请求是爬虫。因此我们要经常设置这个值为一些浏览器的值，来伪装我们的爬虫。

（2）Referer :表明当前这个请求是从哪个url过来的。这个一般也可以用来做反爬虫技术。如果不是从指定页面过来的，那么就不败相关的响应。 （3）cookie: http 协议是无状态的。也就是同一个人发送了两次请求，服务器没有能力知道这两个请求是否来自同一个人。因此这时仅就用 cookie来做标识。一般如果想要做登录后才能访问的网站，那么就需发送 cookie 信息。

6、常见响应状态码:

200：请求正常，服务器正常的返回数据。
301: 永久重定向。比如在访问www.jingdong.com的时候会重定问到www.jd.com。
302：临时重定向。比如在访问一个需要登录的页面的时候，而此时没有登录，那么就会重定向到登录页面。
400：请求的url在服务器上找不到。换句话说就是请求 url错误。
403: 服务器拒绝访问，权根不够。
500: 服务器内部错误。可能是服务器出现 bug 了。

7、浏览器抓包工具

浏览器内右键->检查或F12：

（1）Elements 面板

作用：查看和修改 HTML 和 CSS 代码

这个面板展示了当前页面的 HTML 结构和 CSS 样式。你可以直接查看页面的 DOM（Document Object Model，文档对象模型），也就是页面的 HTML 元素的层次结构，以及与每个元素关联的 CSS 样式。

实时查看页面结构：通过 Elements 面板，你可以看到浏览器是如何解析和展示 HTML 元素的。每个元素都可以展开以查看其子元素。
修改页面样式：你可以在这个面板中临时修改 HTML 或 CSS 来查看效果变化。比如，右键单击某个元素，选择 “检查”（Inspect），可以查看并实时编辑该元素的样式。这些修改只会在本地生效，不会影响服务器上的页面。
调试布局问题：如果页面布局有问题，比如元素显示错位，或是某个元素不可见，你可以使用 Elements 面板检查该元素的样式、布局盒模型（Box Model），看看是否有 CSS 样式问题。

使用示例：

按下 F12，打开 Elements 面板。
移动鼠标到页面上的元素，浏览器会高亮显示该元素的 HTML 代码和样式。
你可以临时修改 HTML 或 CSS，看看页面会如何变化。

（2）Console 面板

作用：查看日志信息、调试 JavaScript

Console 面板是用于执行和调试 JavaScript 代码的区域。它有两个主要功能：

输出日志：开发者可以通过 JavaScript 中的 console.log() 方法将调试信息输出到控制台。这对于查看程序运行过程中的变量状态、错误信息等非常有用。
执行 JavaScript 代码：你可以直接在控制台中输入和执行 JavaScript 代码。比如，输入 document.querySelector('h1')，可以获取页面上的第一个 <h1> 元素。

另外，当 JavaScript 代码抛出错误时，错误信息也会显示在 Console 面板中，帮助你定位问题。

使用示例：