欢迎访问我的网站查看原文:

https://lulaoshi.info/blog/2020/05/31/compile-c-hello-world-on-linux.html​lulaoshi.info

C语言的经典程序“Hello World”并不难写,很多朋友都可以闭着眼将它写出来。那么编译一个“Hello World”到底经历了怎样的过程呢?

从源代码到可执行文件

我们将这个文件命名为hello.c

#include <stdio.h>int main() {printf("Hello Worldn");return 0;
}

程序的第一行引用了stdio.hstdio.h里有一些C标准库预定义好的方法,比如printf()方法,printf()方法可将字符串打印到标准输出流。

接着,int main()定义了主函数,是这个程序的入口。main()方法的返回值是int,在本程序中,我们返回了0,0表示程序正常结束,非0的结果表示程序异常结束。

在进行下一步的编译之前,我们需要明确:计算机基于二进制,运行在计算机上的程序和数据本质上都是二进制的。二进制写起来难度太大,不适合开发,于是人们一步步抽象,最后发明了高级语言,比如C、C++、Java、Python等。使用高级语言编程,需要通过编译器解释器,将源代码“翻译”成计算机可执行的二进制文件。可在计算机上直接执行的二进制文件被称作可执行文件。无论是在Windows上还是Linux上,.c、.cpp文件是无法直接运行的,需要使用编译工具将.c等源代码文件转化为可执行文件。例如,.exe文件可以在Windows上被计算机运行。

Hello World程序比较简单,现实中我们用到的很多软件都由成百上千个源代码文件组成,将这些源代码文件最终转化为可执行文件的过程,被称为构建(Build)。复杂软件的构建过程会包括一系列活动:

  • 从版本控制系统(比如git)上获取最新的源代码
  • 编译当前源代码、检查所依赖的其他库或模块
  • 执行各类测试,比如单元测试
  • 链接(Link)所依赖的库或模块
  • 生成可执行文件

构建大型软件确实非常麻烦,一般都会有一些工具辅助完成上述工作。我们把上述这些过程拆解,只关注编译的过程。编译一般分为四步:预处理(Preprocess)、编译(Compile)、汇编(Assembly)和链接(Link)。

下面以Linux下的GCC编译过程为例做一些拆解。在介绍编译前,我们先简单介绍一下GCC。

GCC简介

GCC是GNU Compiler Collection的缩写,GCC是一系列编译器的集合,是Linux操作系统的核心组件之一。GCC最初名为GNU C Compiler,当时它只是一款C语言的编译器,不过随着后续迭代,它支持C++、Fortran、Go等语言,GCC也因此成为一个编译器集合。GCC有以下特点:

  • GCC支持的编程语言多。比如,g++是C++编译器,gfortran是Fortran编译器。
  • GCC支持的硬件全。GCC可以将源代码编译成x86_64、ARM、PowerPC等硬件架构平台的可执行文件。
  • GCC支持众多业界标准。GCC能很快支持最新的C++标准,GCC支持OpenMP、OpenACC。

虽然编译器并非只有GCC一种,macOS上有Clang,Windows上有MSVC,但GCC的这些特点让它从众多编译器间脱颖而出,很多开源软件会选择GCC完成编译工作。

刚才提到,软件构建的过程比较复杂,GCC的一些“兄弟”工具提供了很多支持功能:

  • GNU Make:一款自动化编译和构建工具,多文件、多模块的大型软件工程经常需要使用GNU Make。
  • GDB:GNU Debugger,用于调试。
  • GNU Binutils:一组二进制工具集,包括链接器ld、汇编器as等,GNU Bintuils可以和GCC、GNU Make一起完成构建过程。我们将在下文使用这些工具。

综上,GCC在Linux操作系统占有举足轻重的地位。

好,我们开始了解一下如何使用GCC编译hello.c文件。下面的命令可以直接将hello.c编译为一个可执行文件:

$ gcc hello.c

它会生成一个名为a.out的可执行文件,执行这个文件:

$ ./a.out

也可以不使用a.out这个名字,我们自己对其进行命名:

$ gcc hello.c -o myexe

这样就生成了一个名为myexe的可执行文件。

前面的命令一步到位,得到了可执行文件,实际上gcc对大量内容进行包装,隐藏了复杂步骤。下面我们从把预处理、编译、汇编和链接几大步骤拆解看看整个编译过程。

预处理

使用预处理器cpp工具进行预处理。注意,这里的cpp是C Preprocessor的缩写,并不是C-plus-plus的意思。

cpp hello.c -o hello.i

这时,我们得到了经过预处理的hello.i文件:

...extern int printf (const char *__restrict __format, ...);...# 2 "hello.c" 2# 3 "hello.c"
int main() {printf("Hello Worldn");return 0;
}

这个文件非常长,有八百多行之多,里面有大量的方法,其中就有printf()方法。

预编译主要处理源代码中以#开始的预编译指令,主要处理规则如下:

  • 处理#include预编译指令,将被包含的文件插入到该预编译指令的位置。这是一个递归的过程,如果被包含的文件还包含了其他文件,会递归地完成这个过程。
  • 处理条件预编译指令,比如#if#ifdef#elif#else#endif
  • 删除#define,展开所有宏定义。
  • 添加行号和文件名标识,以便于在编译过程中产生编译错误或者调试时都能够生成行号信息。

编译

编译的过程主要是进行词法分析、语法分析、语义分析,这背后涉及编译原理等一些内容。这里只进行编译,不汇编,可以生成硬件平台相关的汇编语言。

$ gcc -S hello.i -o hello.s

gcc其实已经做了封装,背后是使用一个名为cc1的工具,cc1并没有放在默认的路径里。Ubuntu 16.04系统上,cc1位于:/usr/lib/gcc/x86_64-linux-gnu/5.4.0/cc1

$ /usr/lib/gcc/x86_64-linux-gnu/5.4.0/cc1 hello.i -o hello.s

针对华为鲲鹏ARM的OpenEuler系统上,cc1位于:/usr/libexec/gcc/aarch64-linux-gnu/7.3.0/cc1

$ /usr/libexec/gcc/aarch64-linux-gnu/7.3.0/cc1 hello.i -o hello.s

汇编代码hello.s大致如下:

.file "hello.i".section .rodata
.LC0:.string    "Hello World".text.globl  main.type   main, @function
main:
.LFB0:.cfi_startprocpushq   %rbp.cfi_def_cfa_offset 16.cfi_offset 6, -16movq    %rsp, %rbp.cfi_def_cfa_register 6movl   $.LC0, %edicall putsmovl    $0, %eaxpopq    %rbp.cfi_def_cfa 7, 8ret.cfi_endproc
.LFE0:.size main, .-main.ident  "GCC: (Ubuntu 5.4.0-6ubuntu1~16.04.12) 5.4.0 20160609".section    .note.GNU-stack,"",@progbits

在x86_64架构中,printf()方法在底层是用call puts来实现的,call用来调用一个函数。puts函数只出现了一个名字,它是C标准库里定义的函数,具体的实现并没有在上面这个程序中定义。

汇编

得到汇编代码后,离二进制可执行文件仅有一步之遥,我们可以用as工具将汇编语言翻译成二进制机器码:

$ as hello.s -o hello.o

二进制机器码就很难看懂了:

$ xxd hello.o
00000000: 7f45 4c46 0201 0100 0000 0000 0000 0000  .ELF............
00000010: 0100 3e00 0100 0000 0000 0000 0000 0000  ..>.............
00000020: 0000 0000 0000 0000 a002 0000 0000 0000  ................
00000030: 0000 0000 4000 0000 0000 4000 0d00 0a00  ....@.....@.....
00000040: 5548 89e5 bf00 0000 00e8 0000 0000 b800  UH..............
00000050: 0000 005d c348 656c 6c6f 2057 6f72 6c64  ...].Hello World
00000060: 0000 4743 433a 2028 5562 756e 7475 2035  ..GCC: (Ubuntu 5
00000070: 2e34 2e30 2d36 7562 756e 7475 317e 3136  .4.0-6ubuntu1~16
00000080: 2e30 342e 3132 2920 352e 342e 3020 3230  .04.12) 5.4.0 20
...
...

虽然这个文件已经是二进制的机器码了,但是它仍然不能执行,因为它缺少系统运行所必须的库,比如C语言printf()对应的汇编语言的puts函数。确切的说,系统还不知道puts函数在内存中的具体位置。如果我们在一份源代码中使用了外部的函数或者变量,还需要重要的一步:链接。

链接

很多人不太了解链接,但这一步却是C/C++开发中经常使用的部分。

下面的命令进行链接,生成名为hello的可执行文件:

$ gcc hello.o -o hello

上面的命令基于动态链接的方式,生成的hello已经是一个可执行文件。实际上,这个命令隐藏了很多背后的内容。printf()方法属于libc库,上面的命令并没有体现出来如何将hello.o团队和libc库链接的过程。为了体现链接,我们使用链接器ld,将多个模块链接起来,生成名为myhello的可执行文件:

$ ld -o myhello hello.o /usr/lib/x86_64-linux-gnu/crt1.o /usr/lib/x86_64-linux-gnu/crti.o /usr/lib/x86_64-linux-gnu/crtn.o -lc -dynamic-linker /lib64/ld-linux-x86_64.so.2

我们终于将一份源代码编译成了可执行文件!这个命令有点长,涉及到文件和路径也有点多,它将多个文件和库链接到myhello中。crt1.ocrti.ocrtn.o是C运行时所依赖的环境。如果提示crt1.o这几个文件找不到,可以使用find命令来查找:

$ find /usr/lib -name 'crt1.o'

我们知道,main()方法是C语言程序的入口,crt1.o这几个库是在处理main()方法调用之前和程序退出之后的事情,这需要与操作系统协作。在Linux中,一个新的程序都是由父进程调用fork(),生成一个子进程,然后再调用execve(),将可执行文件加载进来,才能被操作系统执行。所以,准确地说,main()方法是这个程序的入口,但仅仅从main()方法开始,并不能顺利执行这个程序。

ld命令中-lc表示将搜索libc.so的动态链接库。对于Linux的ld-l参数后面跟随库名(namespec)是一种约定俗成的链接规则,动态链接库会在namespec前加上前缀lib,最终会被命名为libnamespec.so。这里我们想使用C标准库,namespec为c,实际链接的是libc.so这个动态链接库。

此外,ld-linux-x86_64.so.2是链接器ld本身所依赖的库。

我们可以比较一下hello.o链接前后的区别。使用反汇编工具objdump看一下链接前:

$ objdump -dS hello.ohello.o:     文件格式 elf64-x86_64Disassembly of section .text:0000000000000000 <main>:0: 55                    push   %rbp1: 48 89 e5              mov    %rsp,%rbp4: bf 00 00 00 00        mov    $0x0,%edi9: e8 00 00 00 00        callq  e <main+0xe>e: b8 00 00 00 00        mov    $0x0,%eax13: 5d                    pop    %rbp14: c3                    retq

它只有一个main函数,callq调用了某个方法,这个方法在内存中的地址还是不确定的。callq其实就是call,反汇编时会显示为callq。再来看链接后的myhello

$ objdump -dS myhellomyhello:     文件格式 elf64-x86_64Disassembly of section .init:0000000000400340 <_init>:
...Disassembly of section .plt:0000000000400360 <puts@plt-0x10>:
...0000000000400370 <puts@plt>:400370: ff 25 aa 03 20 00     jmpq   *0x2003aa(%rip)        # 600720 <_GLOBAL_OFFSET_TABLE_+0x18>400376: 68 00 00 00 00        pushq  $0x040037b: e9 e0 ff ff ff        jmpq   400360 <_init+0x20>0000000000400380 <__libc_start_main@plt>:
...Disassembly of section .plt.got:0000000000400390 <.plt.got>:
...Disassembly of section .text:00000000004003a0 <main>:4003a0: 55                    push   %rbp4003a1: 48 89 e5              mov    %rsp,%rbp4003a4: bf 70 04 40 00        mov    $0x400470,%edi4003a9: e8 c2 ff ff ff        callq  400370 <puts@plt>4003ae: b8 00 00 00 00        mov    $0x0,%eax4003b3: 5d                    pop    %rbp4003b4: c3                    retq4003b5: 66 2e 0f 1f 84 00 00  nopw   %cs:0x0(%rax,%rax,1)4003bc: 00 00 004003bf: 90                    nop00000000004003c0 <_start>:4003c0: 31 ed                 xor    %ebp,%ebp4003c2: 49 89 d1              mov    %rdx,%r94003c5: 5e                    pop    %rsi4003c6: 48 89 e2              mov    %rsp,%rdx4003c9: 48 83 e4 f0           and    $0xfffffffffffffff0,%rsp4003cd: 50                    push   %rax4003ce: 54                    push   %rsp4003cf: 49 c7 c0 60 04 40 00  mov    $0x400460,%r84003d6: 48 c7 c1 f0 03 40 00  mov    $0x4003f0,%rcx4003dd: 48 c7 c7 a0 03 40 00  mov    $0x4003a0,%rdi4003e4: e8 97 ff ff ff        callq  400380 <__libc_start_main@plt>4003e9: f4                    hlt4003ea: 66 0f 1f 44 00 00     nopw   0x0(%rax,%rax,1)00000000004003f0 <__libc_csu_init>:
...0000000000400460 <__libc_csu_fini>:
...Disassembly of section .fini:0000000000400464 <_fini>:
...

这个文件是一个ELF文件,也就是Linux上的可执行文件。我们看到除了main之外,还增加了很多内容,一些内容这里就省略了。我们看main中的callq 400370 <puts@plt>,这行命令确定了puts的具体地址:400370。另外,增加了_start_start是程序的真正入口,在_start中会进行初始化等工作。

前面使用的是动态链接,也可以使用静态链接的方式:

$ ld -static -o statichello hello.o -L`gcc --print-file-name=` /usr/lib/x86_64-linux-gnu/crt1.o /usr/lib/x86_64-linux-gnu/crti.o  /usr/lib/x86_64-linux-gnu/crtn.o --start-group -lc -lgcc -lgcc_eh --end-group

hello.c的源代码只有几行,经过动态链接后的可执行文件4.9KB,静态链接后的可执行文件888KB。

小结

其实,我之前的技术栈主要集中在Java、Python。对C/C++了解并不多,最近需要编译一些软件,同时也在学习编译器的一些基本知识,因此开始重新学习起来。计算机的底层知识确实博大精深,仅仅一个Hello World,竟然经历了这么复杂的过程。预处理、编译、汇编、链接四步中,前三步都有现成的工具可供使用,如果不是专门研发编译器的朋友,大可不必深挖。相比而下,我们开发和编译程序时,经常用到链接。虽然学了很多年的计算机,写了一些程序,但我对链接其实非常不熟悉。对于我来说,超出我以往知识范畴的点包括:如何链接、静态链接和动态链接、main()之前操作系统和编译器所做的工作等等。

printf如何消后续0_Hello World背后的故事:如何在Linux上编译C语言程序相关推荐

  1. GCC常用命令及GCC编译器背后的故事

    文章目录 一. GCC常用命令 1. 简介 2. 简单编译 2.1 预处理 2.2 编译为汇编代码(Compilation) 2.3 汇编(Assembly) 2.4 连接(Linking) 3. 多 ...

  2. 用“连接”勾勒角色:《死亡搁浅》亡人的设计及其背后的故事谜题

    死亡搁浅,名为"连接"的世界观 小岛秀夫是一个十分注重游戏制作细节的人,我们没有理由不去相信,他勾勒出的恢弘世界观框架下,每一个角色的存在背后都有着极为精细和巧妙的设计.多数时候也 ...

  3. gcc常用命令与gcc编译器背后的故事

    目录 1 gcc常用命令 1.1 简介 1.2 简单编译 1.2.1 预处理 1.2.2 编译为汇编代码(Compilation) 1.2.3 汇编(Assembly) 1.2.4 连接(Linkin ...

  4. Mac OS X 背后的故事(二)——Linus Torvalds的短视

    文/王越 <Mac OS X背后的故事>系列文章将为大家介绍Mac OS X的发行版本.技术历史.相关人物等内容.本文是系列连载的第二篇,主要的故事来源是Linus Torvalds的自传 ...

  5. FreeSWITCH背后的故事(译)

    http://www.dujinfang.com/2009/10/31/freeswitchbei-hou-de-gu-shi.html 本文原是是Anthony Minessale写的.杜金房先生翻 ...

  6. 简单探寻GCC编译器背后的故事

    目录 一.用gcc生成 .a静态库和 .so动态库 1.编辑生成例子程序 2.将hello.c编译成 .o文件 3.由 .o文件创建静态库 4.在程序中使用静态库 5.由.o 文件创建动态库文件 6. ...

  7. 尤雨溪自述:打造Vue 3背后的故事

    尤雨溪在今年年初Vue 3正式发布之前撰写了这篇长文,详述Vue 3的设计过程.前端之巅将全文翻译如下,希望能帮助你更好地了解Vue 3背后的故事 在过去的一年中,Vue 团队一直都在开发 Vue.j ...

  8. 市值首超6000亿美元!微软云转型背后的故事

     关注ITValue,查看企业级市场最新鲜.最具价值的报道! 2017年10月,微软市值首次超过6000亿美元.这是Satya Nadella成为微软第三任CEO后,所创造的新微软历史,上一次微软市值 ...

  9. 华为mate40rs保时捷鸿蒙系统,【华为Mate40RS保时捷版评测】用匠心贯穿古今 看华为Mate40 RS背后的故事-中关村在线...

    [中关村在线]华为Mate40RS保时捷版评测:从1948年第一辆保时捷360到2019年保时捷旗下首款电动跑车Taycan正式下线,保时捷对速度的传承与技术的创新从未止步.而保时捷设计作为保时捷集团 ...

最新文章

  1. 将windows 客户机加入msits.com域环境中
  2. 卧槽!12个杭州阿里高学历女员工被初中男骗财骗色1900多万!骗子冒充有钱佬!开豪车保时捷勾搭妹子,法院判无期徒刑!...
  3. 牛客 - 小A的回文串(Manacher模板题)
  4. 在eclipse中创建第一个java应用程序,并在控制台输出“hello world”。
  5. java.lang.object源码_第三篇:java.lang.Object 类源码分析
  6. 小白该如何学习Linux操作系统(1)
  7. JAVA的反射机制原理
  8. opencv注释中的@brief、@code/@endcode、@param、@sa 以及 如何在pycharm中看到opencv函数的完整注释
  9. java中的前加加 和 后加加
  10. SEODONG Medical推出创新干眼症治疗仪器,深受海外消费者好评
  11. 用Asp.net 就能轻松实现铁道部的订票系统
  12. android编程闪退,软件闪退怎么办
  13. 苹果钱包(AppleWallet)接入操作手册,超详细
  14. 阿尔伯塔大学计算机科学专业课程,[阿尔伯塔大学]计算机/计算机工程专业
  15. antd 给input设置值_AntD Input onChange 中文输入法
  16. 显卡测试软件3d mark,AllBenchmark(3D显卡测试工具)1.3 免费版
  17. 腾讯的死对头COCO360出来了
  18. Ewido Security Suite v3.5 简体中文版
  19. 数据可视化分析案例:基于Python的2021中国品牌Top100强数据分析
  20. WPF实现贪食蛇小案例

热门文章

  1. Oracle表重命名后索引、约束、权限、同义词的影响
  2. KendoUI--Grid api 出现的问题
  3. mset redis_redis mset string 命令简介
  4. virsh链接虚拟机_KVM 通过virsh console连入虚拟机
  5. python生成yaml_使用python脚本自动生成K8S-YAML
  6. linux 后台运行_Linux系统后台运行应用三板斧
  7. java集合中retainAll方法
  8. Kotlin入门(24)如何自定义视图
  9. dom4j添加节点的父节点_HTML DOM节点介绍
  10. 【数学】稀疏图的随机游走问题