hello程序的生命周期是从一个高级C语言程序开始的,因为这种形式能够被人读懂。然而,为了在系统上运行hello.c程序,每条C语句都必须被其他程序转化为一系列的低级机器语言指令。然后这些指令按照一种称为可执行目标程序(也称为可执行目标文件)的格式打包,并以二进制形式存放在硬盘中。
再Unix系统上,从源文件到目标文件的转化是由编译器驱动程序完成的:
linux> gcc -o hello hello.c
在这里,GCC编译器驱动程序读取源程序文件hello.c,并把它翻译成一个可执行目标文件hello。这个翻译过程可分为四个阶段完成,如图1-3所示。执行这四个阶段的程序(预处理器、编译器、汇编器和连接器)一起构成了编译系统(compilation system)。
- 预处理阶段。预处理器(cpp)根据以字符#开头的命令,修改原始的C程序。比如hello.c中第一行的#include<stdio.h>命令高速预处理器读取系统头文件stdio.h的内容,并把它直接插入程序文本中。结果就得到了另一个C程序,通常是以.i作为文件扩展名。
- 编译阶段。编译器(ccl)将文本文件hello.i翻译成文本文件hello.s,它包含一个汇编语言程序。该程序包含函数main的定义,如下所示:
定义中2~7行的每条语句都以一种文本格式描述了一条低级机器语言指令。汇编语言是每场有用的,因为它为不同高级语言的不同编译器提供了通用的输出语言。例如,C编译器和Fortran编译器产生的输出文件用的都是一样的汇编语言。1 main: 2 subq $8, %rsp 3 movl $.LCO, %edi 4 call puts 5 movl $0, %eax 6 addq $8, %rsp 7 ret
- 汇编阶段。接下来,汇编器(as)将hello.s翻译成机器语言指令,把这些指令打包成一种叫做可重定位目标程序(relocatable object program)的格式,并将结果保存在目标文件hello.o中。hello.o文件是一个二进制文件,它包含的17个字节是函数main的指令编码。如果我们在文本编辑器中打开hello.c文件,将看到一堆乱码。
- 链接阶段。请注意,hello程序调用了printf函数,它是每个C编译器都提供的标准C库中的一个函数。printf函数存在于一个名为printf.o的单独的预编译好了的目标文件中,而这个文件必须以某种方式合并到我们的hello.o程序中。连接器(ld)就负责处理这种合并。结果就得到hello文件,它是一个可执行目标文件(或简称为可执行文件),可以被加载到内存中,由系统执行。
旁注:GNU项目
GCC是GNU(GNU是GNU's Not Unix的缩写)项目开发出来的众多有用工具之一。GNU项目是1984年由Richard Stallman发起的一个免税的慈善项目。该项目的目标非常宏大,就是开发出一个完整的类Unix系统,其源代码能够不受限制地被修改和传播。GNU项目已经开发出一个包含Unix操作系统的所有主要部件的环境,但内核除外,内核是由Linux项目独立发展而来的。GNU环境包括EMACS编辑器、GCC编译器、GDB调试器、汇编器、连接器、处理二进制文件的工具以及其他一些部件。GCC编译器已经发展到支持许多不同的语言,能够为许多不同的机器生成代码。支持的语言包括C/C++、Fortran、Java、Pascal、面向对象C语言(Objective-C)和Ada。
GNU项目取得了非凡的成绩,但是却常常被忽略。现代开放源码运动(通常和Linux联系在一起)的思想是GNU项目中的自由软件(free software)的概念。而且,Linux如此受欢迎在很大程度上还要归功于GNU工具,它们给Linux内核提供了环境。