本节书摘来自华章出版社《编译与反编译技术》一书中的第1章,第1.7节C语言程序的编译流程,作者庞建民,陶红伟,刘晓楠,岳峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.7 C语言程序的编译流程

本节以C语言程序的编译流程为例,介绍实际的C语言编译器是如何运作的。通常把整个代码的编译流程分为编译过程和链接过程。

1.编译过程

编译过程可分为编译预处理、编译与优化、汇编等阶段。

(1)编译预处理

编译预处理即读取C源程序,对其中的伪指令(以#开头的指令)和特殊符号进行处理。主要包括以下几个方面:

1)宏定义指令,如# define Name TokenString、# undef等。对于前一个伪指令,预编译所要做的是将程序中的所有Name用TokenString替换,但作为字符串常量的Name则不被替换。对于后一个伪指令,则将取消对某个宏的定义,使以后该串的出现不再被替换。

2)条件编译指令,如# ifdef、# ifndef、# else、# elif、# endif等。这些伪指令的引入使得程序员可以通过定义不同的宏来决定编译程序对哪些代码进行处理。预编译程序将根据有关的文件,将那些不必要的代码过滤掉。

3)头文件包含指令,如# include "FileName"或者# include <FileName>等。在头文件中一般用伪指令# define定义了大量的宏,还有对各种外部符号的声明。采用头文件的目的是使某些定义可以供多个不同的C源程序使用。因为在需要用到这些定义的C源程序中,只需加上一条# include语句,而不必再在此文件中将这些定义重复一遍。预编译程序将把头文件中的定义统统都加入它所产生的输出文件中,以供编译程序对之进行处理。注意,这个过程是递归进行的,也就是说,被包含的文件可能还包含其他文件。包含到C源程序中的头文件可以是系统提供的,这些头文件一般放在/usr/include目录下,在# include中使用它们要用尖括号(<  >)。另外开发人员也可以定义自己的头文件,这些文件一般与C源程序放在同一目录下,此时在# include中要用双引号(" ")。

4)特殊符号。例如在源程序中出现的LINE标识将被解释为当前行号(十进制数),FILE则被解释为当前被编译的C源程序的名称。预编译程序对于在源程序中出现的这些串将用合适的值进行替换。预编译程序所完成的基本上是对源程序的“替代”工作。经过此种替代,生成一个没有宏定义、没有条件编译指令、没有特殊符号的输出文件。这个文件的含义与没有经过预处理的源文件是相同的,但内容有所不同。下一步,此输出文件将作为编译程序的输入而被翻译成为机器指令序列。

5)删除注释。删除所有的注释“//…”和“/*…*/”。

6)保留所有的#pragma编译器指令。以#pragma开始的编译器指令必须保留,因为编译器需要使用它们。

经过预编译后的.i文件不包含任何宏定义,因为所有的宏已经被展开,并且包含的文件也已经被插入.i文件中。所以,当无法判断宏定义是否正确或头文件包含是否正确时,可以查看预编译后的文件来确定。

(2)编译与优化

经过预编译得到的输出文件中只有常量、变量的定义,以及C语言的关键字,如main、if、else、for、while、{、}、+、-、*、\等。编译程序所要做的工作就是通过词法分析和语法分析,在确认所有的指令都符合语法规则之后,将其翻译成等价的中间代码表示或汇编代码。优化处理涉及的问题不仅同编译技术本身有关,而且同机器的硬件环境也有关。优化中的一种是对中间代码的优化。另一种优化则主要是针对目标代码的生成而进行的。对于前一种优化,主要的工作是删除公共表达式、循环优化(代码外提、强度削弱、变换循环控制条件、已知量的合并等)、复写传播,以及无用赋值的删除等。后一种类型的优化同机器的硬件结构密切相关,最主要的是考虑如何充分利用机器的各个硬件寄存器存放有关变量的值,以减少对内存的访问次数。另外,如何根据机器硬件执行指令的特点(如流水线、RISC、CISC、VLIW等)而对指令进行一些调整使目标代码比较短,执行的效率比较高,也是优化的一个重要任务。经过优化得到的汇编代码序列必须经过汇编程序的汇编转换成相应的机器指令序列,方能被机器执行。

(3)汇编

汇编过程是把汇编语言代码翻译成目标机器指令的过程。对于待编译处理的每一个C语言源程序,都将经过这一处理过程而得到相应的目标文件。目标文件中所存放的也就是与源程序等效的机器语言代码。目标文件由段组成,通常一个目标文件中至少有两个段:①代码段。该段中所包含的主要是程序的机器指令,一般是可读和可执行的,但却不可写。②数据段。主要存放程序中要用到的各种全局变量或静态的数据,一般是可读、可写、可执行的。

UNIX环境下主要有三种类型的目标文件:①可重定位文件,其中包含适合于其他目标文件链接以创建一个可执行的或者共享的目标文件的代码和数据。②共享的目标文件,这种文件存放了适合于在两种上下文里链接的代码和数据。第一种是静态链接程序,可把它与其他可重定位文件共享的目标文件一起处理来创建另一个目标文件;第二种是动态链接程序,将它与另一个可执行文件及其他共享目标文件结合到一起,创建一个进程映像。③可执行文件,它包含了一个可以被操作系统通过创建一个进程来执行的文件。汇编程序生成的实际上是第一种类型的目标文件。对于后两种还需要其他的一些处理方能得到,这就是链接程序的工作了。

2.链接过程

由汇编程序生成的目标文件并不能立即被执行,其中可能还有许多没有解决的问题。例如,某个源文件中的函数可能引用了另一个源文件中定义的某个符号(如变量或者函数调用等);在程序中可能调用了某个库文件中的函数,等等。所有的这些问题,都需要经过链接程序的处理方能得以解决。链接程序的主要工作就是将有关的目标文件彼此相连接,亦即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来,使得所有的这些目标文件成为一个能够被操作系统装入执行的统一整体。根据开发人员指定的与库函数的链接方式的不同,链接处理通常可分为两种:①静态链接。在该方式下,函数的代码将从其所在的静态链接库中被复制到可执行程序中。这样当该程序被执行时,这些代码将被装入该进程的虚拟地址空间中。静态链接库实际上是一个目标文件的集合,其中的每个文件含有库中的一个或者一组相关函数的代码。②动态链接。在该方式下,函数的代码被放到称作动态链接库或共享对象的某个目标文件中。链接程序此时所做的只是在最终的可执行程序中记录下共享对象的名字以及一些少量的登记信息。在该可执行文件被执行时,动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数代码。对于可执行文件中的函数调用,可分别采用动态链接或静态链接的方法。使用动态链接能够使最终的可执行文件比较短小,并且当共享对象被多个进程使用时能节约一些内存,因为在内存中只需要保存一份此共享对象的代码。但并不是使用动态链接就一定比使用静态链接要优越,在某些情况下动态链接可能带来一些性能上的

损失。

3. GCC的编译链接

在Linux中使用的GCC编译器是把以上几个过程进行了捆绑,使用户只使用一次命令就完成编译工作,这确实很方便,但对于初学者了解编译过程却很不利。GCC代理的编译流程如下:①预编译,将.c文件转化成.i文件,使用的GCC命令是gcc –E (对应于预处理命令cpp);②编译,将.c/.h文件转换成.s文件,使用的gcc命令是gcc –S(对应于编译命令cc1,实际上,现在版本的GCC使用cc1将预编译和编译两个步骤合成为一个步骤;③汇编,将.s文件转化成.o文件,使用的GCC命令是gcc –c (对应于汇编命令as);④链接,将.o文件转化成可执行程序,使用的GCC命令是gcc(对应于链接命令ld)。

以名为hello.c的程序为例,编译流程主要经历如图1-2所示的四个过程。

图1-2 C语言程序编译流程图

例如,hello.c为:

#include <stdio.h>

Int main(int argc,char *argv[])

{

printf("hello world\n");

return 0;

}

运行gcc –S hello.c可以得到hello.s文件,其内容为:

.file "hello.c"

.def  ___main; .scl  2; .type 32; .endef

.section  .rdata,"dr"

LC0:

.ascii "hello world\0"

.text

.globl _main

.def _main; .scl  2; .type 32; .endef

_main:

LFB6:

.cfi_startproc

pushl   %ebp

.cfi_def_cfa_offset 8

...

所有以字符“.”开头的行都是指导汇编器和链接器的命令,其他行则是被翻译成汇编语言的代码。

C语言编译的整个过程是比较复杂的,涉及的编译器知识、硬件知识、工具链知识非常多。一般情况下,只需要知道其分成编译和链接两个阶段,编译阶段是将源程序(*.c)转换成为目标代码(一般是obj文件),链接阶段是将源程序转换成的目标代码(obj文件)与程序里面调用的库函数对应的代码链接起来形成对应的可执行文件(exe文件),其他的都需要在实践中多多体会才能有更加深入的理解。

《编译与反编译技术》—第1章1.7节C语言程序的编译流程相关推荐

  1. 一个c语言程序只要编译和链接没有错误,一个 C 语言程序只要编译和链接没有错误,程序运行结果就肯定正确...

    一个 C 语言程序只要编译和链接没有错误,程序运行结果就肯定正确 更多相关问题 网页表单中不能插入表格.() 要想在一个网页中嵌套另外一个网页,一般可以使用页内框架.() 贸易也是一种特殊的技术.() ...

  2. gcc编译c文件_Linux下C语言程序的编译过程

    Linux下C语言程序的编译过程 使用gcc编译程序时,编译工程分为4个阶段: (1)预处理:(Pre-Processing) (2)编译:(Compiling) (3)汇编:(Assembling) ...

  3. 在ubuntu系统下使用gcc和makefile实现c语言程序的编译运行

    目录 前言 一.使用gcc命令完成编译c语言程序 1.编写c语言程序 main1.c sub1.h sub1.c 2.gcc命令编译 步骤一命令:gcc -c sub1.c作用:将sub1.c程序转换 ...

  4. C语言程序makefile编译过程

    C语言程序makefile编译过程 2022-0111 blog_010 makefile是一些大型linux下开发的项目经常会用到的编译脚本: 可以将makefile理解为类似shell一样的脚本语 ...

  5. 《黑客秘笈——渗透测试实用指南》—第2章2.4节Web应用程序的扫描

    本节书摘来自异步社区<黑客秘笈--渗透测试实用指南>一书中的第2章2.4节Web应用程序的扫描,作者[美]Peter Kim(彼得 基姆),更多章节内容可以访问云栖社区"异步社区 ...

  6. 习题 11.10 将本章11.8节中的程序片段加以补充完善,成为一个完整的程序。在程序中使用继承和组合。在定义Professor类对象prof1时给出所有数据的初值,然后修改prof1的生日数据。。。

    C++程序设计(第三版) 谭浩强 习题11.10 个人设计 习题 11.10 将本章11.8节中的程序片段加以补充完善,成为一个完整的程序.在程序中使用继承和组合.在定义Professor类对象pro ...

  7. 《编程珠玑(第2版•修订版)》—第2章2.8节变位词程序的实现(边栏)

    本节书摘来自异步社区<编程珠玑(第2版•修订版)>一书中的第2章2.8节变位词程序的实现(边栏),作者[美]Jon Bentley,更多章节内容可以访问云栖社区"异步社区&quo ...

  8. c语言程序灵魂编译后,谭浩强C程序设计第4版精讲视频课程

    谭浩强<C程序设计>(第4版)网授精讲班[教材精讲+考研真题串讲] 本课程由资深辅导教师马丽梅老师讲授,全面讲解教材的重点.难点.考点,教会学员理解并掌握该教材中的基本概念.基本原理和基本 ...

  9. C语言——程序的编译+链接(linux+gcc实现过程)

    文章目录 前言 一.预处理 1.预处理阶段的操作: 1.预处理过程实现: 二.编译 1.编译阶段的操作: 2.编译过程的实现: 三.汇编 1.汇编阶段的操作: 2.汇编过程的实现: 四.链接 1.链接 ...

最新文章

  1. 我,25岁,高中时创立的自动驾驶技术公司即将上市,估值34亿美元
  2. VC代码的编写和调试---编写易于调试的VC代码
  3. remoting和webservice的区别
  4. 一个自己整理的HASH类
  5. (三)SSO之CAS框架单点退出,退出到CAS登录界面
  6. python的learn_python_learn1
  7. php大转盘,php大转盘
  8. C#------如何获取本机IP地址
  9. Hive 中日志的存放位置
  10. 剪映专业版 for Mac(全能好用的视频编辑工具)v1.0.11中文版
  11. 系统设计的原则、特点与任务
  12. adc matlab代码,pudn-几种ADC设计的matlab源码
  13. python battleship_codecademy的Python里的battleship报错
  14. 腾讯QQ就“读取浏览器历史记录”道歉!
  15. matlab 不等式组求解例子,matlab求解不等式组
  16. 【20210823】学习本不应该痛苦人生其实是一种享受
  17. Andriod 虚拟机
  18. 周鸿祎为短视频狂砸百亿
  19. Swift5代码添加约束
  20. 加拿大 读计算机专业,文科生如何读加拿大计算机专业

热门文章

  1. 轉Excel的一種簡單方法
  2. OSChina 周三乱弹 —— 爸爸说,这个是从他硬盘里掉出来的
  3. sysctl.conf工作原理
  4. 使用DBCA工具创建自己的数据库
  5. Vista Dynamips模拟器安装
  6. 轻松实现突破网管限制(SoftEther实际应用)
  7. python可以调用windows资源吗_如何在Windows上用Python调用WinRar?还有问题吗
  8. 查看/修改Linux时区和时间
  9. 4-8 string
  10. python下sqlite增删查改方法(转)