web 基础与 http 协议
目录
一 Web 基础
1. 域名和 DNS
1.1 域名的概念
1.2 DNS
2. 网页与HTML
2.1 HTML 概述
2.2 HTML 基本标签
2.3 网站和主页
3. 静态网页与动态网页
3.1 静态网页
3.2 动态网页
二 HTTP 协议
1. HTTP 协议概述
2. HTTP 方法
3. HTTP 状态码
4. HTTP 请求流程分析
一 Web 基础
1. 域名和 DNS
1.1 域名的概念
网络是基于 TCP/IP 协议进行通信和连接的,每一台主机都有一个唯一的标识(固 定的 IP 地址),用以区别在网络上成千上万个用户和计算机。网络在区分所有与之相 连的网络和主机时,均采用一种唯一、通用的地址格式,即每一个与网络相连接的计算 机和服务器都被指派一个独一无二的地址。为了保证网络上每台计算机的 IP 地址的唯 一性,用户必须向特定机构申请注册,分配IP地址。网络中的地址方案分为两套:IP地址系统和域名地址系统。这两套地址系统其实是一一对应的关系。IP地址用二进制数来表示,每个IP地址长32 比特,由 4 个小于 256 的数字组成,数字之间用点间隔,例如 100.10.0.1 表示一个 IP 地址。由于 IP 地址是数字标识,使用时难以记忆和书写,因此在 IP 地址的基础上又发展出一种符号化的地址方案,来代替数字型的IP地址。每 一个符号化的地址都与特定的IP 地址对应,这样网络上的资源访问起来就容易得多了。 这个与网络上的数字型 IP 地址相对应的字符型地址,就被称为域名。
(1) 域名的结构
DNS 规定,域名中的标号都由英文字母和数字组成,每一个标号不超过 63个字符,也不区分大小写字母。标号中除连字符(-)外不能使用其他的标点符号。级别最低的 域名写在最左边,而级别最高的域名写在最右边。由多个标号组成的完整域名总共不超过 255个字符。一些国家也纷纷开发使用采用本民族语言构成的域名,如德语,法语等。中国也开始使用中文域名,但可以预计的是,在中国国内今后相当长的时期内,以英语为基础的域名(即英文域名)仍然是主流。
(2)域名结构类型
根域:指的是根服务器,要用来管理互联网的主目录,全世界只有13台。1个为 主根服务器,放置在美国。其余 12 个均为辅根服务器,其中9 个放置在美国欧洲 2个,位于英国和瑞典:亚洲1个,位于日本。所有根服务器均由美国政府授权的互联网域名与号码分配机构ICANN 统一管理,负责全球互联网域名根服务器、 域名体系和 IP 地址等的管理。
顶级域:包括组织域和国家/地区域名。域名的最右侧是国家/地区域名,国家代码 由两个字母组成的如.cn,.uk,.de 和.jp,其中.cn 是中国专用的顶级域名。在国家/地区域名左侧,是组织域名,常见的.com 用于商业机构,.net用于网络组织,.org 用于各种组织包括非盈利组织。
二级域名:在顶级域名之前的域名,在顶级域名前面,它是指域名注册人的网上名称,例如 baidu,ibm ,yahoo ,microsoft 等。
FQDN:是主机名.DNS 后缀,是指主机名加上全路径,全路径中列出了序列中所有 域成员。全域名可以从逻辑上准确地表示出主机在什么地方,也可以说全域名是主机名的一种完全表示形式。
1.2 DNS
在互联网上域名与 IP 地址之间是一一对应的,域名虽然便于人们记忆,但机器之 间只能互相认识 IP 地址,它们之间的转换工作称为域名解析,域名解析要由专门的域 名解析系统来完成,DNS就是进行域名解析的系统。主机名到IP地址的映射有两种方式:
静态映射:每台设备上都配置主机到IP地址的映射,各设备独立维护自己的映射 表,而且只供本设备使用。
动态映射:建立一套域名解析系统(DNS),只在专门的DNS服务器上配置主机 到IP地址的映射,网络上需要使用主机名通信的设备,首先需要到 DNS服务器查询主机所对应的 IP 地址。
通过主机名,最终得到该主机名对应的IP地址的过程叫做域名解析(或主机名解 析)。在解析域名时,可以首先采用静态域名解析的方法。如果静态域名解析不成功,再采用动态域名解析的方法。可以将一些常用的域名放入静态域名解析表中,这样可以 大大提高域名解析效率。在 Windows 命令行模式中输入网络査询命令 nslookup www.baidu.com,可以查询 到域名对应的 IP 地址。
2. 网页与HTML
网页是构成网站的基本元素,是承载各种网站应用的平台。通俗地说,网站就是由 网页组成的。如果只有域名和虚拟主机而没有制作任何网页,那么客户仍旧无法访问这 个网站。因为网页是由 HTML(超文本标记语言)编写的。
(1) 网页概述
网页是一个文件,他存放在世界某个角落的某一部计算机中,而这部计算机必须是 与互联网相连的。网页经由网址(URL)来识别与存取,是互联网中的一“页”。
网页可以包括如下内容:
- 文本:文本是网页上最重要的信息载体与交流工具,网页中的主要信息一般都以文 本形式为主。
- 图像:图像元素在网页中具有提供信息并展示直观形象的作用。静态图像:在页面中可能是图片或矢量图形。图片格式通常为GIF、JPEG 或 PNG 等;矢量格式通常为 SVG 或 Flash。
- Flash 动画:动画在网页中的作用是有效地吸引访问者更多的注意。
- 声音:声音是多媒体和视频网页重要的组成部分。
- 视频:视频文件的采用使网页效果更加精彩且富有动感。
- 表格:表格是在网页中用来控制页面信息的布局方式。
- 导航栏:导航栏在网页中是一组超链接,其连接的目的端是网页中重要的
页面。- 交互式表单:表单在网页中通常用来联接数据库并接受访问用户在浏览器端输入的 数据,利用数据库为客户端与服务器端提供更多的互动。
网页相关概念如下:
- 域名:是浏览网页时输入的网址。
- HTTP:用来传输网页的通信协议,使用浏览器访问网址时,在域名前面要加上 http://,表示使用 http 协议传输网页。
- URL:是一种万维网寻址系统,表示网络上资源的位置路径。
- HTML:是编写网页的超文本标记语言。
- 超链接:具备将网站中不同网页链接起来的功能。
- 发布:将制作好的网页上传到服务器供用户访问的过程。
2.1 HTML 概述
HTML 叫做超文本标记语言,是一种规范,也是一种标准,它通过标记符号来标记 要显示的网页中的各个部分。网页文件本身是一种文本文件,通过在文本文件中添加标 记符,可以告诉浏览器如何显示其中的内容。
HTML, 文件可以使用任何能够生成 txt 文件的文本编辑器来编辑,生成超文本标记 语言文件,只用修改文件名后缀为”.html”或“.htm” 即可。
2.2 HTML 基本标签
(1)HTML 语法规则
HTML, 标签采用双标记符的形式,前后标记符对应,分别表示标记开始和结束,标 记符中间的内容被标签描述。前标记符由“<XXX〉” 表示,结尾标记符多了一个“/”,由“</XXX>”表示。
(2)HTML 文件结构
HTML 文件最外层由<htm1></htm>表示,说明该文件是用 HTML 语言描述的。在它里面是并列的头标签(<head>)和内容标签(<body>),最基本的 HTML 文件结构如下:
<htm1> <head>网页的内容描述信息<head> <body>网页显示的内容</body> </html>
常用的头标签中的标签如下表所示:
标签 | 描述 |
<title> | 定义了文档的标题 |
<base> | 定义了文档的标题 |
<link> | 定义了一个文档和外部资源之间的关系 |
<meta> | 定义了 HTML 文档中的元数据 |
<script> | 定义了客户端的脚本文件 |
<style> | 定义了 HT 文档的样式文件 |
内容标签中常用的标签如下表所示:
标签 | 描述 |
<table> | 定义一个表格 |
<tr> | 定义了表格中的一行 |
<td> | 定义了表格中某一行的一列 |
<a> | 定义了一个超链接 |
<br> | 定义了换行 |
<font> | 定义了字体 |
2.3 网站和主页
网站是由网页组成的,包含多个网页页面,具有独立域名、独立存放空间的内容集 合,这些内容可能是网页,也可能是程序或其他文件。主页(首页)是用户打开浏览器时默认打开的网页。
当一个网站服务器收到一台电脑上网络浏览器的消息连接请求时,便会向这台计算 机发送这个文档。当在浏览器的地址栏输入域名,而未指向特定目录或文件时,通常浏览器会打开网站的首页。网站首页往往会被编辑得易于了解该网站提供的信息,并引导互联网用户浏览网站其他部分的内容。这部分内容一般被认为是一个目录性质的内容。
3. 静态网页与动态网页
3.1 静态网页
在网站设计中,纯粹 HTML,格式的网页通常被称为“静态网页”,静态网页是标准的 HTML 文件,它的文件扩展名是.htm、.html 。静态网页是网站建设的基础,早期的网 站一般都是由静态网页制作的。静态网页也可以出现各种动态的效果,如.GIF 格式的动画、FLASH 、滚动字幕等。这些“动态效果” 只是视觉上的,与下面将要介绍的动态网页 是不同的概念。
3.2 动态网页
所谓的动态网页,是指跟静态网页相对的一种网页编程技术。静态网页,随着 HTML 代码的生成,页面的内容和显示效果就基本上不会发生变化了--除非是修改页面代码。而动态网页则不然,页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。动态网页URL的后缀不是.htm、.html、.shtml、.xml 等静态网页的常见网页制作格式,而是以.aspx、.asp、.jsp、.php、·perl 、.cgi 等形式为后缀,并且在动态网页网址中有一个 标志性的符号--“?”动态网页是基本的 html 语法规范与 Java 、PHP、C#等高级程序设计语言、数据库 编程等多种技术的融合,以期实现对网站内容和风格的高效、动态和交互式的管理。因 此,从这个意义上来讲,凡是结合了 HTML 以外的高级程序设计语言和数据库技术进行 的网页编程技术生成的网页都是动态网页。
动态网页语言
早期的动态网页主要采用通用网关接日CGI(Common Gateway Interface)技术,虽然 CGI技术已经发展成熟而且功能强大,但由于编程困难、效率低下、修改复杂,所以有逐渐被新技术取代的趋势。
目前常用的动态网页编程语言如下:
- PHP 即 Hypertext Preprocessor(超文本预处理器),它是当今 Internet 上最为火 热的脚本语言,其语法借鉴了 C、Java、PERL 等语言,但只需要很少的编程知识 你就能使用 PHP 建立一个真正交互的 Web 站点。
- JSP 即 Java Server Pages(Java 服务器页面),它是由 Sun Microsystem 公司于1999年6月推出的新技术,是基于 Java Servlet 以及整个Java 体系的 Web 开 发技术。
- Python 是一种面向对象、跨平台的动态类计算机程序设计语言,最初被设计用于 编写自动化脚本(she11),随着版本的不断更新和语言新功能的添加,越来越多被用 于独立的大型项目开发。
- Ruby 是一种简单快捷的面向对象(面向对象程序设计)脚本语言,在 20世纪 90 年代由日本人松本行弘(Yukihiro Matsumoto)开发,遵守 GPL 协议和Ruby License.它的灵感与特性来自于 Perl、Smalltalk、Eiffe1、Ada 以及 Lisp 语言。
二 HTTP 协议
超文本传输协议(HTTP ,HyperText Transfer Protocol)是互联网上应用最广泛的一种网络协议。所有的网页文件都必须遵守这个标准。设计HTTP最初的目的是为 了提供一种发布和接收 HTML 页面的方法。
1. HTTP 协议概述
HTTP 协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求 的方法、URL、协议版本、以及包含请求修饰符、客户信息和内容的类似于 ME 的消 息结构。服务器以一个状态行作为响应,响应的内容包括消息协议的版本,成功或者错 误编码加上服务器信息、实体元信息以及可能的实体内容。HTTP 已经演化出了很多版本,它们中的大部分都是向下兼容的。
- HTTP/0.9 已过时。只接受 GET 一种请求方法,没有在通讯中指定版本号且不支持请求头。由于该版本不支持 POST 方法,所以客户端无法向服务器传递太多 信息。
- HTTP/1.0 这是第一个在通讯中指定版本号的 HTTP 协议版本,至今仍被广泛 采用,特别是在代理服务器中。
- HTTP/1.1 当前版本。持久连接被默认采用,并能很好地配合代理服务器工作。还支持以管道方式同时发送多个请求,以便降低线路负载,提高传输速度。
2. HTTP 方法
HTTP 支持几种不同的请求命令,这些命令被称为 HTTP 方法(HTTP method)。每条 HTTP 请求报文都包含一个方法,告诉服务器要执行什么动作,包括:获取一个页 面,运行一个网关程序,删除一个文件等。最常用的获取资源的方法是 GET、POST 。HTTP 常用方法如下表所示
HTTP 方法 | 描述 |
GET | 请求获取 Request-URI 所标识的资源 |
PUT | 请求服务器存储一个资源,并用 Request-URI 作为其标识 |
DELETE | 请求服务器删除 Request-URI 所标识的资源 |
POST | 在 Request-URI 所标识的资源后附加新的数据 |
HEAD | 请求获取由 Request-URI 所标识的资源的响应消息报头 |
GET 方法采用的是 URL 后缀的形式,比如 http://www.test.com/a.php?ld=123 就是一个 GET 请求,服务器接收后可以解析出 Id=123 。而 POST 方法不需要在 URL 中 显示”?Id=123”,参数作为内容进行了隐藏的提交。因此,
表单类或者有用户名、密码 等内容提交时建议使用POST 方法。GET 方法在 URL 上显示参数,而 URL 是有长度限制,故不适合提交过大的数据。 GET 方法可以被浏览器缓存,当请求已经被请求过一次的 URL 时,浏览器不需要向服 务器再次发出请求,直接在本地缓存中获得页面。GET和POST方法对比如下表所示:
GET 方法 | POST 方法 | |
对数据长度的限制 | URL 的长度是受限制的(URL的最大长度是2048 个字符) | 无限制 |
缓存 | 能被缓存 | 不能缓存 |
安全性 | 与POST 相比,GET 的安全性较差,因为所发送的数据是 URL的一部分。在发 ET 送密码或其他敏感信息时绝不要使用G | POST 比GET 更安全,因为参数不会被保存在浏览器历史或Teb 服务器日志中 |
历史 | 参数保留在浏览器历史中 | 参数不会保存在浏览器历史中 |
后退按钮/刷新 | 无害 | 数据会被重新提交,浏览器应 该告知用户数据会被重新提交 |
书签 | 可收藏为书签 | 不可收藏为书签 |
3. HTTP 状态码
HTTP 状态码(HTTP Status Code )是用以表示网页服务器 HTTP 响应状态的 3 位数字代码,当浏览器请求某一 URL 时,服务器根据处理情况返回相应的处理状态。
HTTP 状态码可以分为五大类,其中 1XX 表示信息提示,2XX、3xX表示请求正常,4XX、5XX表示出现常情况。如下图所示;
状态码首位 | 已定义范国 | 分类 |
1xx | 100-101 | 信息提示 |
2xx | 200-206 | 成功 |
3xx | 300-305 | 重定向 |
4xx | 400-415 | 客户端锘误 |
5xx | 500-505 | 服务霹镨误 |
生产环境常见的状态码如下表所示:
消息 | 描述 |
200 OK | 请求成功(其后是对GET和POST请求的文档) |
301 Moved Permanently | 请求的永久页面跳转 |
403 Forbidden | 禁止访问该页面 |
404 Not Found | 服务器无法找到被请求的页面 |
500 Internal Server Error | 内部服务器错误 |
502 Bad Gateway | 无效网关 |
503 Service Unavailable | 当前服务不可用 |
504 Gateway Timeout | 网关请求超时 |
4. HTTP 请求流程分析
用户在浏览器输入 URL 访问时,发起 HTTP 请求报文,请求中包括请求行、请求 头、请求体,服务器收到请求后返回响应报文,包括状态行、响应头、响应体。流程图如下:
(1) 请求报文
- 请求行:请求行由请求方法、URL以及协议版本三部分组成。
- 请求头:请求头为请求报文添加了一些附加信息,由“名/值”对组成,每行一对,名 和值之间使用冒号分隔,常用的请求头如下表所示
请求头 描述 Host 接受请求的服务器地址,可以是IP:端口号,也可以是域名 User-Agent 发送请求的应用程序名称 Connection 指定与连接相关的属性,如Connection:Keep-Alive Accept-Charset 通知服务端可以发送的编码格式 Accept-Encoding 通知服务端可以发送的数据压缩格式 Accept-Language 通知服务端可以发送的语言
- 空行:请求头部的最后会有一个空行,表示请求头部结束,接下来为请求体,这一 行非常重要,必不可少。
- 请求体:请求体是请求提交的参数,GET方法已经在URL中指明了参数,所以提交时没有数据。POST方法提交的参数在请求体中。
(2) 响应报文
- 状态行:状态行由协议版本,状态码,状态码描述三部分组成。
- 响应头:响应头与请求头部类似,为响应报文添加了一些附加信息。常见响应头部如下表所示
响应头 描述 Server 服务器应用程序软件的名称和版本 Content-Type 响应正文的类型(是图片还是二进制字符串) Content-Length 响应正文长度 Content-Charset 响应正文使用的编码 Content-Encoding 响应正文使用的数据压缩格式 Content-Language 响应正文使用的语言
- 空行:响应头部的最后会有一个空行,表示响应头部结束。
- 响应体:服务器返回的相应 HTML 数据,浏览器对其解析后显示页面。