简介: 原理与演示。

01 / 什么是代码加密?

云端加密代码服务是云效团队的自研产品,是目前国内率先支持代码加密的托管服务,也是目前世界范围内率先基于原生Git实现加密方案的代码托管服务。

通过在云端对托管在云效Codeup的代码库进行落盘加密,可以有效避免数据拥有者之外的人接触到用户的明文数据,避免数据在云端发生泄露。同时,代码加密过程对用户完全透明,用户可以使用任意官方Git端(包括但不限于Git、JGit、libgit2等)来访问Codeup上的代码仓库。

02 / Linux社区重大安全性事件回顾

2011年8月底,用于维护和分发Linux操作系统的多台服务器感染了恶意软件,这些恶意软件非常厉害,可以获取root的访问权限,修改其上的系统软件以及登录密码。但社区的维护者称,维护linux的源代码,是未受到漏洞影响的。

这是为什么呢?因为他们使用了Git进行代码维护,对于linux内核代码将近40000个文件来说,每个文件都做了hash来确保唯一性,因此很难在不引起注意情况下,更改旧的版本。

虽然Git可以解决开源社区关心的源码篡改问题,却解决不了企业担心的数据泄露问题。而对于企业级代码托管来说,今天所面临的问题不但有数据安全、还有可靠性成本问题

当企业规模较小时,对可靠性要求也不高,一个自建的代码托管服务似乎就能满足需求。但随着规模不断扩大,代码量不断增加,可能需要更好的服务器配置,才能满足多人协作的需求,甚至还需要投入专人维护来保证可靠性,这时就不得不思考成本的问题。

而云代码托管服务,有着比自建代码托管服务更高的可靠性及更低的成本,但相比自建代码托管服务而言,由于其并不开放底层存储的直接访问,间接造成了用户不可控的安全心理。

而代码加密技术,正是通过将底层存储的不可控变为近完全可控,解决用户代码上云的顾虑。

03 / 自建真的比上云更安全么?

在回答这个问题之前,让我们一起来了解一些背景知识——Git的存储结构。

当我们使用Git进行代码提交时,最先接触到的便是提交记录及分支。分支或者标签,可以统称为引用。它们存储在以路径名作为引用名,以及对应版本hash作为内容的单个文件中。由于分支名通常与业务无关,所以可以认为,其中不包含敏感数据的。

除了提交记录commit之外,我们的代码文件被存储到blob对象,文件名及目录等信息,存储到tree对象,带有额外的信息的标签被存储到tag对象。

对象是Git中存储数据的基本单元。通常情况下,对象存储在以内容hash值命名的单个文件中,我们称之为松散对象。而通过执行gc(也就是垃圾回收)之后,这些对象就会被打包到一起,生成一个打包文件packfile。代码内容及文件名,都存储在blob及tree对象当中,所以可以认为,对象中是包含用户的代码内容数据,也就是包含敏感数据的。

Git中的对象存储,为了降低磁盘占用,会通过zlib进行一次数据的压缩。换句话说,只需通过解压缩就可以获取到数据内容,所以可以认为是明文存储。也就是说,任意可以接触到存储的人,都可以查看存储上的代码数据。

明文存储引发的信任问题

回答前面提出的问题,正是由于Git代码非安全存储的特点,自建的代码托管服务,既要防范来自外部的一些攻击风险,还要防范内鬼,因为通常企业代码数据泄露是从内部发生

而对于云代码托管服务而言,我们可以借助阿里云安全,有效避免来自外部的黑客攻击风险,那么,如何解决用户对云代码托管服务的信任问题,让代码对运维人员不可见呢?

引入代码加密技术,通过使用用户的密钥,加密云端托管的代码数据,既增加了静态存储数据的安全性,又可以阻断代码对运维人员的可见性,从而消除用户上云的顾虑。

04 / 代码加密技术揭秘

我把它分化三个问题去解决:

1.密钥管理

使用一个安全合规的方式托管密钥,密钥存储安全,才能保证加密安全。这个可以借助阿里云的密钥管理服务KMS。

2.密钥使用

Git是一个计算密集型的服务,如果直接使用密钥管理服务的加解密能力,那么这个性能是难以接受的。

那这里还有什么方案呢?我们可以使用信封加密技术。顾名思义,我们可以使用数据密钥,来对我们明文的代码数据进行加密,使用数字信封技术,保证密钥保存、传输、使用过程的安全性。由于我们只存储密文的数据密钥及密文的代码数据,必须通过用户授权,才能完成运行态的代码数据解密。而处于静态存储的代码数据,则无法被运维人员获取。

3.基于原生Git的加密实现

在原生Git的基础上,通过增加代码加密补丁,以在实现加密的能力同时,最大程度地获取到原生Git带来的各种优势。

原生Git是如图所示的这样一个自上而下的分层架构,和我们常见的应用架构非常类似。

最上层是展现层,包含纷繁复杂的命令行入口,直接暴露给应用服务进行调用。

中间是业务处理层,从数据内容角度,可以分为引用操作及对象操作。通过增加一个加解密的模块,在内存中进行数据加密,将密文数据写入磁盘,从而保证静态数据的安全性。

为了获取最高的性能,仅选择与用户代码资产相关的对象数据进行加密存储,而对于引用列表及对象索引等数据,仍维持明文存储。利用硬件加速,代码加密的额外性能损耗控制在10%左右,在用户使用过程中几乎无感。

本地Git代码加密演示

事先准备好一个配置了代码加密的的仓库。这个仓库是空的。

我们向里面添加一个文件。

通过hexdump -C查看这个文件的二进制内容,我们可以发现,它是以首字节78 01起始,这是一个典型的经过zlib压缩后的文件头。

接下来,我们开启加密的开关,通过git commit创建一个加密的提交记录。再次查看保存的提交记录二进制内容,发现这时创建的对象数据不再以78 01开始,而是以我们指定的加密标记位开始。

注意,受时间关系,这里我们未进行同一个对象非加密与非加密状态下的直接对比,而是以文件头是否变化来判断加密与否

在完成松散对象加密之后,我们可以通过git gc ,将松散对象转换为打包对象,再看一下打包对象会发生什么样的变化呢?由图中我们可以发现,加密后的打包文件包头版本中,不再是原有的00 00 00 02,而是增加了特定标识的82 00 00 02,并且包头也由原有的12字节扩展为24字节,增加了12字节的NONCE用于增加安全性。

那么,当我们移除密钥配置之后,是否可以继续访问这个仓库呢?

当我们移除密钥之后,由于缺少密钥,当我们尝试通过git show HEAD 查看当前版本时,会得到一个错误信息,提示未提供密钥。

这个错误是基于我们在原生Git基础上,定制化了代码加密能力补丁,若是没有这个补丁,会有什么样的表现呢?

针对加密的打包文件packfile,会提示当前版本较低,请升级Git版本;若针对松散对象,则提示文件头不正确,因为不是一个zlib的压缩头。

欢迎大家使用云效代码管理Codeup,全方位保护企业代码资产,帮助企业实现安全、稳定、高效的代码托管和研发管理。

原文链接

本文为阿里云原创内容,未经允许不得转载。

揭秘!业界创新的代码仓库加密技术相关推荐

  1. Adaptec by PMC携业界首款配备加密技术的产品进军HBA市场

    带有创新加密技术.16端口的半高PCIe Gen3 HBA系列产品 提供了强大的云计算数据保护功能   中国北京,2013年2月21日--引领大数据连接.传送以及存储,提供创新半导体解决方案的PMC® ...

  2. Python 代码混淆和加密技术简述

    Python 代码混淆和加密技术 1. 背景 Python进行商业开发时, 需要有一定的安全意识, 为了不被轻易的逆向还原. 混淆和加密就有所必要了. 2. 目前的混淆和加密方案 2.1 混淆 减少p ...

  3. swoole 郭新华 - PHP代码加密技术

    PHP作为一门脚本语言,部署的方式一般都是源码部署,这种方式无法安全的分发代码,黑客拿到源码后也很容易知道你的业务逻辑,实施有针对性的攻击,代码加密部署无疑会大大提高整个应用的安全性,我将逐一讲述如何 ...

  4. 数据自治开放的加密技术挑战

    数据自治开放的加密技术挑战 黄霖1,2, 黎源1,2, 汪星辰1,2, 赵运磊1,2 1. 复旦大学计算机科学技术学院,上海 201203 2. 上海市数据科学重点实验室,上海 201203 摘要:数 ...

  5. 170个新项目,579个活跃代码仓库,Facebook开源年度回顾

    作者 | Dmitry Vinnik 译者 | 泓礼 编辑 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]过去一年对于Facebook的开源工程师来说是繁忙的一年.在2019 ...

  6. [数据加密]GIS空间数据水印信息隐藏与加密技术方法[转]

    到目前为止,国内外数字水印技术的研究主要集中在图像.视频和声音等多媒体信息的版权保护上,在GIS空间数据中,通过隐藏水印信息并对其加密.压缩以实现其安全保护的研究还很少,这是数字水印技术应用的一个新领 ...

  7. 还在自建代码仓库?阿里云的这款企业级代码管理工具免费、还香!

    简介:代码托管产品是软件研发过程中的必备工具,不少企业在进行代码托管工具选型的时候会选择开源工具自建,然而,开源版本的代码管理工具往往只是提供了基础的代码仓储能力,无法满足企业在安全性.代码质量.权限 ...

  8. 骚年快答 | 为何微服务项目都使用单体代码仓库?

    [答疑解惑]| 作者 / Edison Zhou 这是恰童鞋骚年的第265篇原创内容 之前在学习微软的示例eShopOnContainers时发现它使用的是单体代码仓库库,之后又发现大家在进行微服务项 ...

  9. 一文读懂十大数据存储加密技术

    数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出.密码技术,是实现数据安全最经济.最有效.最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环境中实现对数据的强访问控制, ...

最新文章

  1. 《vSphere性能设计:性能密集场景下CPU、内存、存储及网络的最佳设计实践》一3.3.3 供应实验室...
  2. postfix文档修正
  3. php 谷歌语音,php 语音参考
  4. 使用Java泛型的模板方法模式示例
  5. Transform机制(1)
  6. 再见收费的Navicat!操作所有数据库靠它就够了!
  7. srsLTE源码学习:GTP:GPRS Turning Protocol- GPRS隧道协议
  8. nginx开启密码认证
  9. C#:System.Data.SQLite数据库介绍
  10. apple pay扫银联二维码原理
  11. 苹果笔记本能玩英雄联盟吗_等了5年的英雄联盟手机版,今天终于能玩了
  12. python国际象棋的价值_python – 国际象棋negamax功能
  13. java:个人所得税计算器
  14. 推广邮件客户端(一):让人纠结的POP3客户端
  15. 星载SAR的各项指标解读(史上最全)预览
  16. cms,crm名词解释
  17. 《MATLAB 神经网络43个案例分析》:第5章 基于BP_Adaboost的强分类器设计——公司财务预警建模
  18. Java 百万数据秒级导出到Excel中
  19. 2016年各大安卓渠道最新商务合作通讯录
  20. 输出《易经》六十四卦的卦象符号

热门文章

  1. html调用chr,FpHtmlEnCode 函数之标题过滤特殊符号的代码
  2. reactnative 获取定位_【React Native】定位获取经纬度,当前城市等地址信息
  3. python编写抢座位软件_程序员硬核Python抢票教程”,帮你抢回家车票
  4. ug使用服务器系统,ug服务器设置教程视频
  5. 字节跳动测试开发4轮面试_字节跳动测试开发工程师一面总结
  6. 计算思维c语言软件,C语言编程入门与计算思维
  7. spring整合atomikos实现分布式事务的方法示例_分布式事务中的XA和JTA
  8. 云科技网络验证源码_面向虚拟化架构和容器云的开源安全工具
  9. verilog换行太长代码_Verilog 之 File I/O task and function
  10. wordpress mysql 密码重置_WordPress忘记密码找回登录密码的四种行之有效的方法