阅读经典——《深入理解计算机系统》09

本文,我们将使用C语言从零开始实现一个支持静态/动态网页的Web服务器。我们把这个服务器叫做Tiny。

  1. 背景知识
  2. 客户端-服务器编程模型
  3. 使用socket处理请求与响应
  4. HTTP协议与静/动态网页
  5. 关键代码解析
  6. 实验效果与源码

背景知识

Web服务器使用HTTP协议与客户端(即浏览器)通信,而HTTP协议又基于TCP/IP协议。因此我们要做的工作就是利用Linux系统提供的TCP通信接口来实现HTTP协议。

而Linux为我们提供了哪些网络编程接口呢?没错,就是socket(套接字),我们会在后面详细介绍该接口的使用方式。

另外我们应该清楚Linux的系统I/O和文件系统的关系。在Linux中,所有I/O设备都被看作一个个文件,I/O设备的输入输出被认做读写文件。网络作为一种I/O设备,同样被看作文件,而且是一类特殊的文件,即套接字文件。

我们还要对网络通信协议TCP/IP有一个大致的了解,知道IP地址和端口的作用。

接下来我们讲解客户端-服务器编程模型。

客户端-服务器编程模型

客户端-服务器编程模型是一个典型的进程间通信模型。客户端进程和服务器进程通常分处两个不同的主机,如下图所示,客户端发送请求给服务器,服务器从本地资源库中查找需要的资源,然后发送响应给客户端,最后客户端(通常是浏览器)处理这个响应,把结果显示在浏览器上。

client-server transaction

这个过程看起来很简单,但是我们需要深入具体的实现细节。我们知道,TCP是基于连接的,需要先建立连接才能互相通信。在Linux中,socket为我们提供了方便的解决方案。

每一对网络连接称为一个socket对,包括两个端点的socket地址,表示如下

(cliaddr : cliport, servaddr : servport)

其中, cliaddrcliport分别是客户端IP地址和客户端端口,servaddrservport分别是服务器IP地址和服务器端口。举例说明如下:

connection socket pair

这对地址和端口唯一确定了连接的双方,在TCP/IP协议网络中就能轻松地找到对方。

使用socket处理请求与响应

熟悉TCP协议的朋友们应该很容易理解下面的流程图。

socket overview

服务器调用socket函数获取一个socket,然后调用bind函数绑定本机的IP地址和端口,再调用listen函数开启监听,最后调用accept函数等待直到有客户端发起连接。

另一方面,客户端调用socket函数获取一个socket,然后调用connect函数向指定服务器发起连接请求,当连接成功或出现错误后返回。若连接成功,服务器端的accept函数也会成功返回,返回另一个已连接的socket(不是最初调用socket函数得到的socket),该socket可以直接用于与客户端通信。而服务器最初的那个socket可以继续循环调用accept函数,等待下一次连接的到来。

连接成功后,无论是客户端还是服务器,只要向socket读写数据就可以实现与对方socket的通信。图中rio_readlinebrio_written是作者封装的I/O读写函数,与Linux系统提供的readwrite作用基本相同,详细介绍见参考资料。

客户端关闭连接时会发送一个EOF到服务器,服务器读取后关闭连接,进入下一个循环。

这里面用到的所有Linux网络编程接口都定义在<sys/socket.h>头文件中,为了更清晰地帮助大家理解每个函数的使用方法,我们列出它们的函数声明。

#include <sys/types.h>
#include <sys/socket.h>/**
获取一个socket descriptor
@params:domain: 此处固定使用AF_INETtype: 此处固定使用SOCK_STREAMprotocol: 此处固定使用0
@returns:nonnegative descriptor if OK, -1 on error.
*/
int socket(int domain, int type, int protocol);/**
客户端socket向服务器发起连接
@params:sockfd: 发起连接的socket descriptorserv_addr: 连接的目标地址和端口addrlen: sizeof(*serv_addr)
@returns:0 if OK, -1 on error
*/
int connect(int sockfd, struct sockaddr *serv_addr, int addrlen);/**
服务器socket绑定地址和端口
@params:sockfd: 当前socket descriptormy_addr: 指定绑定的本机地址和端口addrlen: sizeof(*my_addr)
@returns:0 if OK, -1 on error
*/
int bind(int sockfd, struct sockaddr *my_addr, int addrlen);/**
将当前socket转变为可以监听外部连接请求的socket
@params:sockfd: 当前socket descriptorbacklog: 请求队列的最大长度
@returns:0 if OK, -1 on error
*/
int listen(int sockfd, int backlog);/**
等待客户端请求到达,注意,成功返回得到的是一个新的socket descriptor,
而不是输入参数listenfd。
@params:listenfd: 当前正在用于监听的socket descriptoraddr: 客户端请求地址(输出参数)addrlen: 客户端请求地址的长度(输出参数)
@returns:成功则返回一个非负的connected descriptor,出错则返回-1
*/
int accept(int listenfd, struct sockaddr *addr, int *addrlen);

HTTP协议与静/动态网页

HTTP协议的具体内容在此不再讲述,不熟悉的朋友们可以查看参考资料中的第二篇文章。

现在我们有必要说明一下所谓的静态网页和动态网页。静态网页是指内容固定的网页,通常是事先写好的html文档,每次访问得到的都是相同的内容。而动态网页是指多次访问可以得到不同内容的网页,现在流行的动态网页技术有PHP、JSP、ASP等。我们将要实现的服务器同时支持静态网页和动态网页,但动态网页并不采用上述几种技术实现,而是使用早期流行的CGI(Common Gateway Interface)。CGI是一种动态网页标准,规定了外部应用程序(CGI程序)如何与Web服务器交换信息,但由于有许多缺点,现在几乎已经被淘汰。关于CGI的更多信息,可以查看参考资料。

关键代码解析

Web服务器主进程从main函数开始,代码如下。

int main(int argc, char **argv)
{int listenfd, connfd;socklen_t clientlen;struct sockaddr_storage clientaddr;/* Check command line args */if (argc != 2) {fprintf(stderr, "usage: %s <port>\n", argv[0]);exit(1);}listenfd = Open_listenfd(argv[1]);while (1) {clientlen = sizeof(clientaddr);connfd = Accept(listenfd, (SA *)&clientaddr, &clientlen);doit(connfd);Close(connfd);}
}

主函数参数需要传入服务器绑定的端口号码,得到这个号码后,调用Open_listenfd函数,该函数完成socketbindlisten等一系列操作。接着调用accept函数等待客户端请求。注意,Acceptaccept的包装函数,用来自动处理可能发生的异常,我们只需把它们当成一样的就行了。当accept成功返回后,我们拿到了connected socket descriptor,然后调用doit函数处理请求。

doit函数定义如下。

void doit(int fd)
{int is_static;struct stat sbuf;char buf[MAXLINE], method[MAXLINE], uri[MAXLINE], version[MAXLINE];char filename[MAXLINE], cgiargs[MAXLINE];rio_t rio;/* Read request line and headers */Rio_readinitb(&rio, fd);if (!Rio_readlineb(&rio, buf, MAXLINE))return;printf("%s", buf);sscanf(buf, "%s %s %s", method, uri, version);if (strcasecmp(method, "GET")) {clienterror(fd, method, "501", "Not Implemented","Tiny does not implement this method");return;}read_requesthdrs(&rio);/* Parse URI from GET request */is_static = parse_uri(uri, filename, cgiargs);if (stat(filename, &sbuf) < 0) {clienterror(fd, filename, "404", "Not found","Tiny couldn't find this file");return;}if (is_static) { /* Serve static content */          if (!(S_ISREG(sbuf.st_mode)) || !(S_IRUSR & sbuf.st_mode)) {clienterror(fd, filename, "403", "Forbidden","Tiny couldn't read the file");return;}serve_static(fd, filename, sbuf.st_size);}else { /* Serve dynamic content */if (!(S_ISREG(sbuf.st_mode)) || !(S_IXUSR & sbuf.st_mode)) { clienterror(fd, filename, "403", "Forbidden","Tiny couldn't run the CGI program");return;}serve_dynamic(fd, filename, cgiargs);}
}

为了更接近现实,假设现在接收到的HTTP请求如下。该请求的请求头是空的。

GET /cgi-bin/adder?15000&213 HTTP/1.0

代码中,Rio_readlinebsscanf负责读入请求行并解析出请求方法、请求URI和版本号。接下来调用parse_uri函数,该函数利用请求uri得到访问的文件名、CGI参数,并返回是否按照静态网页处理。如果是,则调用serve_static函数处理,否则调用serve_dynamic函数处理。

serve_static函数定义如下。

void serve_static(int fd, char *filename, int filesize)
{int srcfd;char *srcp, filetype[MAXLINE], buf[MAXBUF];/* Send response headers to client */get_filetype(filename, filetype);sprintf(buf, "HTTP/1.0 200 OK\r\n");sprintf(buf, "%sServer: Tiny Web Server\r\n", buf);sprintf(buf, "%sConnection: close\r\n", buf);sprintf(buf, "%sContent-length: %d\r\n", buf, filesize);sprintf(buf, "%sContent-type: %s\r\n\r\n", buf, filetype);Rio_writen(fd, buf, strlen(buf));printf("Response headers:\n");printf("%s", buf);/* Send response body to client */srcfd = Open(filename, O_RDONLY, 0);srcp = Mmap(0, filesize, PROT_READ, MAP_PRIVATE, srcfd, 0);Close(srcfd);Rio_writen(fd, srcp, filesize);Munmap(srcp, filesize);
}

直接看最后几行代码。Open以只读方式打开请求的文件,Mmap将该文件直接读取到虚拟地址空间中的任意位置,然后关闭文件。接下来Rio_written把内存中的文件写入fd指定的connected socket descriptor,静态页面响应完成。Munmap删除刚才在虚拟地址空间申请的内存。关于mmap函数的更多介绍见参考资料。

serve_dynamic函数定义如下。

void serve_dynamic(int fd, char *filename, char *cgiargs)
{char buf[MAXLINE], *emptylist[] = { NULL };/* Return first part of HTTP response */sprintf(buf, "HTTP/1.0 200 OK\r\n"); Rio_writen(fd, buf, strlen(buf));sprintf(buf, "Server: Tiny Web Server\r\n");Rio_writen(fd, buf, strlen(buf));if (Fork() == 0) { /* Child *//* Real server would set all CGI vars here */setenv("QUERY_STRING", cgiargs, 1);Dup2(fd, STDOUT_FILENO);         /* Redirect stdout to client */Execve(filename, emptylist, environ); /* Run CGI program */}Wait(NULL); /* Parent waits for and reaps child */
}

对于动态网页请求,我们的方法是创建一个子进程,在子进程中执行CGI程序。看代码,Fork函数创建子进程,熟悉Linux进程的朋友们应该知道,该函数会返回两次,一次在父进程中返回,返回值不等于0,另一次在子进程中返回,返回值为0,因此if判断内部是子进程执行的代码。首先设置环境变量,用于把请求参数传递给CGI程序。接下来调用Dup2函数将标准输出重定向到connected socket descriptor,这样一来使用标准输出输出的内容将会直接发送给客户端。然后调用Execve函数在子进程中执行filename指定的CGI程序。最后在父进程中调用了Wait函数用于收割子进程,当子进程终止后该函数才会返回。因此该Web服务器不能同时处理多个访问,只能一个一个处理。

我们给出了一个CGI程序的实例adder,用于计算两个参数之和。代码如下。

/** adder.c - a minimal CGI program that adds two numbers together*/
int main(void) {char *buf, *p;char arg1[MAXLINE], arg2[MAXLINE], content[MAXLINE];int n1=0, n2=0;/* Extract the two arguments */if ((buf = getenv("QUERY_STRING")) != NULL) {p = strchr(buf, '&');*p = '\0';strcpy(arg1, buf);strcpy(arg2, p+1);n1 = atoi(arg1);n2 = atoi(arg2);}/* Make the response body */sprintf(content, "Welcome to add.com: ");sprintf(content, "%sTHE Internet addition portal.\r\n<p>", content);sprintf(content, "%sThe answer is: %d + %d = %d\r\n<p>", content, n1, n2, n1 + n2);sprintf(content, "%sThanks for visiting!\r\n", content);/* Generate the HTTP response */printf("Connection: close\r\n");printf("Content-length: %d\r\n", (int)strlen(content));printf("Content-type: text/html\r\n\r\n");printf("%s", content);fflush(stdout);exit(0);
}

这段代码就非常简单了,从环境变量中取出请求参数,得到两个加数的值,相加后输出。需要注意的是,由于刚才已经重定向标准输出,因此使用printf就可以把内容输出给客户端。输出内容需要遵照HTTP协议的格式,才能在浏览器中正确显示出来。

实验效果与源码

输入如下命令启动Web服务器,并绑定8000端口:

./tiny 8000

静态网页效果:访问http://localhost:8000

静态网页效果

动态网页效果:访问http://localhost:8000/cgi-bin/adder?1&2

动态网页效果

至此,我们的Web服务器终于大功告成。大家可以下载源码,并在自己的计算机上部署测试。

关注作者或文集《深入理解计算机系统》,第一时间获取最新发布文章。

参考资料

Linux IO操作详解——RIO包 金樽对月的成长脚步
深入理解HTTP协议 micro36
CGI与Servlet的比较 YTTCJJ
我所了解的cgi 掸尘
Linux内存管理之mmap详解 heavent2010

文/金戈大王(简书作者)
原文链接:http://www.jianshu.com/p/dd580395bf11
著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。

用C语言制作Web服务器相关推荐

  1. 使用易语言搭建WEB服务器且支持大文件下载/断点传输

    易语言搭建WEB服务器,无非就是对数据处理与协议头分析做得好即可,扩展插件也不难,只需要接入相应接口即可,那么这次也是直接使用WINDOWS API的socket套接字进行搭建的WEB服务器. 目前尚 ...

  2. 基于Go语言的Web服务器开发

    基于Go语言的Web服务器开发 本文将介绍使用Go语言来开发一个简单的Web服务器,其中将包括文件上传和下载功能. 必备条件 Go语言环境 一个文本编辑器 网络服务器 步骤一:编写server.go文 ...

  3. go语言服务器运行,Go语言实现Web服务器

    使用Go语言的库非常容易实现一个Web服务器,用来响应像fetch那样的客户端请求.本节将展示一个迷你服务器,返回访问服务器的URL的路径部分.例如,如果请求的URL是http://localhost ...

  4. go语言需要web服务器么,使用Go开发web服务器

    Go(Golang.org)是在标准库中提供HTTP协议支持的系统语言,通过他可以快速简单的开发一个web服务器.同时,Go语言为开发者提供了很多便利.这本篇博客中我们将列出使用Go开发HTTP 服务 ...

  5. 怎么用树莓派制作web服务器,用树莓派做web服务器,靠谱吗?

    有点想入门树莓派,然后做一个小web服务器,放在学校内网. 大家有做过类似的事情吗? 做过,自己用做测试的话是没什么问题的,而且非常小巧,携带方便.买的时候注意还要搭配这三个配件 1 可以用的无线网卡 ...

  6. 怎么制作web服务器iis,IIS中搭建web服务器

    IIS中搭建web服务器 前面的博文中和大家聊了如何在Windows Server 2012 R2的环境下搭建IIS服务器,今天我们就继续和大家聊聊如何在我们的IIS服务器中搭建一个WEB服务器,从而 ...

  7. go语言服务器代码,Go语言开发简单web服务器

    欢迎,来自IP地址为:182.103.254.107 的朋友 Go语言由于其方便的并发通信机制以及强大的网络支持,常常被用于服务器软件的开发.本文将示例使用Go语言来开发简单的Web服务器. HTTP ...

  8. ENSP如何开启服务器的http_如何使用HTTP模块在Node.js中创建Web服务器(上)

    当你在浏览器中查看网页时,其实是在向互联网上的另一台计算机发出请求,然后它会将网页提供给你作为响应.你通过互联网与之交谈的那台计算机就是Web服务器,Web服务器从客户端(例如你的浏览器)接收HTTP ...

  9. ajax nginx 转发 sessionid_百度、京东、网易、腾讯、淘宝等大厂都在用的Web服务器Nginx详解

    Nginx背景和概述 Nginx(发音同 engine x)是一款基于异步框架的轻量级/高性能由C语言的Web 服务器/反向代理服务器/缓存服务器/电子邮件(IMAP/POP3)代理服务器,并在一个B ...

最新文章

  1. mysql 错误1930xc1_Mysql写入记录出现 Incorrect string value: '\xB4\xE7\xB1\xCA\xBC\xC7‘错误?(写入中文)...
  2. python3.7.2安装-最新Centos7安装python3并与python2共存
  3. nyoj--364--田忌赛马(贪心)
  4. (视频+图文)机器学习入门系列-第9章 集成学习
  5. DTO(领域数据传输对象)是做什么的
  6. 在Microsoft Azure上运行Eclipse MicroProfile
  7. Java垃圾收集蒸馏
  8. 游戏设计亦或课件设计
  9. H265/HEVC Codec编解码(MP4和TS)
  10. Android 颜色透明度(不透明度)计算
  11. NOIP模拟 字符处理(送分or送命?)
  12. ThinkPad 声卡出现未安装任何音频输出设备
  13. 箱包卖家注意了!《淘宝网箱包行业标准》出炉 !
  14. 代码diff服务改进方案
  15. java学习笔记————SSH
  16. 以图搜图 相似图片搜索的原理(一)
  17. 虚拟服务器主机涨价好多,虚拟主机涨钱了吗
  18. R语言金融分析作业(一)
  19. 吐血推荐cookie和session
  20. 【毕业设计】基于单片机的智能水箱系统 - 物联网 嵌入式 stm32

热门文章

  1. [LeetCode 1781]所有子字符串美丽值之和
  2. ensp 虚拟路由冗余协议vrrp配置
  3. jsfor循环终止_【JavaScript】JS中如何跳出循环/结束遍历
  4. js 跳出多层循环(终止循环)
  5. 黑马程序员-骑士飞行棋
  6. 【Matlab系列】Matlab各个版本安装教程分享
  7. 创意svg菜单栏水滴动画
  8. java重定向输出流到文件(从文件到输入流)
  9. 因果推断16--市场营销中资源分配问题的直接异质因果学习(美团)
  10. 小马哥-----高仿红米note H19ST 单卡4G版拆机主板图与开机界面图面面观