大文件问题

函数计算对上传的 zip 代码包尺寸限制为 50M。某些场景中代码包中会超过这一限制,比如未经裁剪的 serverless-chrome ,类似的还有 libreoffice ,此外常见的还有机器学习训练的模型文件。
目前解决大文件问题有三种方法

  1. 采用更高压缩比的算法,比如本文介绍的 brotli 算法
  2. 采用 OSS 运行时下载
  3. 采用 NAS 文件共享

简单的比较一下这三种方法的优劣

方法 优点 缺点
高密度压缩 发布简单,启动最快 上传代码包较慢;要写解压代码;大小受限制不超过 50 M
OSS 下载解压后文件不超过 512 M 需要预先上传至 OSS;要写下载和解压代码,大概 50M/s 的下载速度
NAS 文件大小没有限制,无需压缩 需要预先上传至 NAS;VPC 环境有冷启动时延(~5s)

正常情况下如果代码包能控制在 50M 以下启动较快。而且工程上也比较简单,数据和代码放在一起,不需要额外的写脚本去同步更新 OSS 或者 NAS。

压缩算法

Brotli 是 Google 工程师开发的开源压缩算法,目前已经被新版的主流浏览器支持,作为 HTTP 传输的压缩算法。下面是在网上找到的关于 Brotli 和其他常见压缩算法对比基准测试。




[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DZLU30aF-1582189593401)(https://data-analysis.cn-shanghai.log.aliyuncs.com/logstores/article-logs/track_ua.gif?APIVersion=0.6.0&title=%E5%BC%80%E5%8F%91%E5%87%BD%E6%95%B0%E8%AE%A1%E7%AE%97%E7%9A%84%E6%AD%A3%E7%A1%AE%E5%A7%BF%E5%8A%BF%E2%80%94%E2%80%94%E4%BD%BF%E7%94%A8%20brotli%20%E5%8E%8B%E7%BC%A9%E5%A4%A7%E6%96%87%E4%BB%B6&author=%E5%80%9A%E8%B4%A4&src=article)]

从上面三幅图我们可以看出:相比于 gzip、xz 和 bz2,brotli 有最高的压缩比,接近于 gzip 的解压速度,以及最慢的压缩速度。

然而在我们的场景对于压缩慢这一缺点不敏感,压缩任务只要在开发准备物料的阶段执行一次就好了。

制作压缩文件

下面我先介绍一下如何制作压缩文件。下面的代码和用例都来自于项目 packed-selenium-java-example 。

安装 brotli 命令

Mac 用户

brew install brotli

Windows 用户可以去这个界面下载,https://github.com/google/brotli/releases

打包并压缩

打包前两个文件大小分别为 7.5M 和 97M

╭─ ~/D/test1[◷ 18:15:21]
╰─  ll
total 213840
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

使用 GZip 打包并压缩,大小为 44 M。

╭─ ~/D/test1[◷ 18:15:33]
╰─  tar -czvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:16:41]
╰─  ll
total 306216
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff    44M  3  6 18:16 chromedriver.tar
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

tar 去掉 z 选项再打包一遍,大小为 104M

╭─ ~/D/test1[◷ 18:16:42]
╰─  tar -cvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:17:06]
╰─  ll
total 443232
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff   104M  3  6 18:17 chromedriver.tar
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

压缩后的大小为 33M,相比 Gzip 的 44M 小了不少。耗时也非常的感人 6 分 18 秒,Gzip 只要 5 秒。

╭─ ~/D/test1[◷ 18:17:08]
╰─  time brotli -q 11 -j -f chromedriver.tar
brotli -q 11 -j -f chromedriver.tar  375.39s user 1.66s system 99% cpu 6:18.21 total
╭─ ~/D/test1[◷ 18:24:23]
╰─  ll
total 281552
-rwxr-xr-x  1 vangie  staff   7.5M  3  5 11:13 chromedriver
-rw-r--r--  1 vangie  staff    33M  3  6 18:17 chromedriver.tar.br
-rwxr-xr-x  1 vangie  staff    97M  1 25  2018 headless-chromium

运行时解压缩

下面以 java maven 项目为例

添加解压依赖包

<dependency><groupId>org.apache.commons</groupId><artifactId>commons-compress</artifactId><version>1.18</version>
</dependency><dependency><groupId>org.brotli</groupId><artifactId>dec</artifactId><version>0.1.2</version>
</dependency>

commons-compress 是 apache 提供的解压缩工具包,对于各种压缩算法提供一致的抽象接口,其中对于 brotli 算法只支持解压,这里足够了。org.brotli:dec 包是 Google 提供的 brotli 解压算法的底层实现。

实现 initialize 方法

public class ChromeDemo implements  FunctionInitializer {public void initialize(Context context) throws IOException {Instant start = Instant.now();try (TarArchiveInputStream in =new TarArchiveInputStream(new BrotliCompressorInputStream(new BufferedInputStream(new FileInputStream("chromedriver.tar.br"))))) {TarArchiveEntry entry;while ((entry = in.getNextTarEntry()) != null) {if (entry.isDirectory()) {continue;}File file = new File("/tmp/bin", entry.getName());File parent = file.getParentFile();if (!parent.exists()) {parent.mkdirs();}System.out.println("extract file to " + file.getAbsolutePath());try (FileOutputStream out = new FileOutputStream(file)) {IOUtils.copy(in, out);}Files.setPosixFilePermissions(file.getCanonicalFile().toPath(),getPosixFilePermission(entry.getMode()));}}Instant finish = Instant.now();long timeElapsed = Duration.between(start, finish).toMillis();System.out.println("Extract binary elapsed: " + timeElapsed + "ms");}
}

实现 FunctionInitializer 接口的 initialize 方法。解压过程刚开始是四层嵌套流,作用分别如下:

  1. FileInputStream 读取文件
  2. BufferedInputStream 提供缓存,介绍系统调用带来的上下文切换,提示读取的速度
  3. BrotliCompressorInputStream 对字节流进行解码
  4. TarArchiveInputStream 把 tar 包里的文件逐个解出来

然后 Files.setPosixFilePermissions 的作用是还原 tar 包中文件的权限。代码太长此处略去,参阅 packed-selenium-java-example

Instant start = Instant.now();
...Instant finish = Instant.now();
long timeElapsed = Duration.between(start, finish).toMillis();System.out.println("Extract binary elapsed: " + timeElapsed + "ms");

上面的代码段会打印出解压的耗时,真实执行大概在 3.7 s 左右。

最后不要忘记在 template.yml 里配置上 InitializerInitializationTimeout

参考阅读

  1. https://www.opencpu.org/posts/brotli-benchmarks/
  2. https://github.com/vangie/packed-selenium-java-example

加入我们

团队介绍

阿里云函数服务是一个全新的,支持事件驱动编程模式的计算服务。 他帮助用户聚焦自身业务逻辑,以 Serverless的方式构建应用,快速的实现低成本,可扩展,高可用的系统,而无需考虑服务器等底层基础设施的管理。 用户能够快速的创建原型,同样的架构能随业务规模平滑伸缩。让计算变得更高效,更经济,更弹性,更可靠。无论小型创业公司,还是大型企业,都受益其中。我们的团队正在迅速扩张,求贤若渴。我们想寻找这样的队友:
基本功扎实。既能阅读论文追踪业界趋势,又能快速编码解决实际问题。
严谨的,系统化的思维能力。既能整体考虑业务机会,系统架构,运维成本等诸多因素,又能掌控设计/开发/测试/发布的完整流程,预判并控制风险。
好奇心和使命感驱动。乐于探索未知领域,不仅是梦想家,也是践行者。
坚韧、乐观、自信。能在压力和困难中看到机会,让工作充满乐趣!
如果您对云计算充满热情,想要构建一个有影响力计算平台和生态体系,请加入我们,和我们一起实现梦想!

职位描述

构建新一代 Serverless 计算平台,包括:

  1. 设计和实现完整可扩展的前端系统,包括身份验证/权限管理,元数据管理,流量控制,计量计费,日志监控等等
  2. 设计和实现弹性可靠的后端系统,包括资源调度,负载均衡,容错处理等等
  3. 丰富易用的 SDK/Tools/CLI/控制台
  4. 用户需求驱动,追踪业界趋势,利用技术推动业务的成长

职位要求

  1. 算法/数据结构/操作系统等基础知识扎实,优秀的逻辑思维能力。
  2. 至少掌握一门编程语言。例如 Java/Go/C/C#/C++。
  3. 有大规模、高可用分布式系统开发经验者优先。
  4. 有 Web/Mobile Backends/Microservice 开发经验者优先。
  5. 良好的沟通能力和团队合作精神,有一定的组织协调能力。
  6. 本科及以上学历
  7. 3 年以上工作经验,通过“阿里巴巴编码规范” 认证的同学优先录取,认证地址:https://edu.aliyun.com/certification/cldt02

简历提交

yixian.dw AT alibaba-inc.com

“阿里巴巴云原生技术圈关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,做最懂云原生开发者的技术圈。”

开发函数计算的正确姿势——使用 brotli 压缩大文件相关推荐

  1. 开发函数计算的正确姿势——支持 ES6 语法和 webpack 压缩

    为什么80%的码农都做不了架构师?>>>    首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算 ...

  2. 开发函数计算的正确姿势 —— 使用 Fun Local 本地运行与调试

    前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传.函数计算 ...

  3. 开发函数计算的正确姿势——轻松解决大依赖部署

    前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传.函数计算 ...

  4. 开发函数计算的正确姿势 —— 移植 next.js 服务端渲染框架

    为什么80%的码农都做不了架构师?>>>    首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算 ...

  5. aptitude安装出现依赖_开发函数计算的正确姿势——依赖安装方法一览

    1. 前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传.函 ...

  6. 开发函数计算的正确姿势 —— 爬虫

    2019独角兽企业重金招聘Python工程师标准>>> 在 <函数计算本地运行与调试 - Fun Local 基本用法> 中,我们介绍了利用 Fun Local 本地运行 ...

  7. 开发函数计算的正确姿势———为 PHP 运行时添加自定义扩展

    PHP 语言提供了一种扩展机制(Extension),通过 PHP 扩展可以增强语法.调用 C/C++ 实现的库函数以及优化执行性能.PHP 扩展是与平台相关的动态链接库,在 Linux 和 Mac ...

  8. 开发函数计算的正确姿势——运行 Selenium Java

    前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传.函数计算 ...

  9. 开发函数计算的正确姿势——使用交互模式安装依赖

    前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传.函数计算 ...

最新文章

  1. docker run redis
  2. struts2标签集
  3. chrome恐龙游戏_如何玩没有互联网的Google Chrome恐龙游戏-在线和离线
  4. 使用计算机时 正确的关机顺序是( ),《计算机应用基础》半期考试卷
  5. dba 权限_DBA如何玩转PG用户、角色和权限管理?
  6. 2个JAVA程序能放在一起吗_求JAVA大神把2程序功能组合在一起
  7. Android三种风格的底部导航栏
  8. LINUX SHELL使用变量控制循环
  9. 管家婆辉煌II盘点功能操作流程
  10. 免费数据分享·CnOpenData中国历史天气数据简介
  11. 【Three.js:3D模型】常用建模软件
  12. FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation from a Single Image
  13. 同卵双胞胎的2型糖尿病的易感性位点的综合表观基因分析
  14. 微信短视频加速,张小龙的步子不妨更大一些!
  15. 8种基本数据类型的分类
  16. kkt条件里面的松弛互补条件推导
  17. 脱贫摘帽攻关年,“拼多多们”扎进三农
  18. Android8.1 MTK平台 修改 Volte 视频通话我方视角为矩形
  19. 网页显示不全(运行时网页pc端显示完全,手机端显示不全)
  20. python从第n行开始读取文件

热门文章

  1. win32 masm32 汇编学习 及 远程线程实例
  2. 【Echarts 3.x】填坑记
  3. 4、CSS 外边距margin
  4. Codeforces Round #777 (Div. 2)【未完结】
  5. 138. 兔子与兔子【字符串哈希】
  6. 一个判断字符是不是10进制数的函数------isdigit()
  7. 1.1 计算机的发展
  8. Spring boot修改员工
  9. 禁止套娃!Redis官网宕机,返回“连接不上Redis”
  10. python发送邮件拒绝_人生苦短之Python发邮件