相信不少团队的代码仓库 Git Repo 变得越来越大。除了代码的提交外,时常有人会把二进制文件比如 Jar 包或者不小心把不该提交到代码库的文件提交到代码库中,比如用户名密码之类的保密信息。如何清洗代码仓库 Git Repo,彻底从历史中删除此类文件呢?

手动清理

如果你们的代码仓库问题比较少,只有几个不该提交的文件,可以参考 Atlassian 的一篇关于维护 Git Repo 的文章。

大致过程如下:

首先进行 Git 垃圾回收:

  1. git gc --auto

其次查看 Git 仓库占用空间:

  1. $ du -hs .git/objects
  2. 45M .git/objects

然后找出历史中超过一定大小的文件,最后在历史中删除并且提交。如果感兴趣手动处理这个过程可以参照文章后边的链接。

相关的几个命令:

清理历史中的文件:

  1. git filter-branch --force --index-filter 'git rm --cached --ignore-unmatch ****/nohup.out' --prune-empty --tag-name-filter cat -- --all
  2. git filter-branch --index-filter 'git rm --cached --ignore-unmatch ****/nohup.out' HEAD
  3. git for-each-ref --format="%(refname)" refs/original/ | xargs -n 1 git update-ref -d

强制提交覆盖:

  1. git reflog expire --expire=now --all
  2. git gc --prune=now
  3. git push --all --force
  4. git push --all --tags --force

但是这个方案有 2 个问题:

  1. 处理速度慢,尝试清理 2G 大小的代码库,用了一晚上还没跑完。
  2. 只能按文件名清理,如果不同的路径有同样的文件名就无法处理了,可能误删文件或者忽略某些文件。

当然有个非常好的解决方案完美解决了这个问题。如下:

自动清理

答案就是 bfg-repo-cleaner,这是一个 Java 写的清理工具,多线程处理清理过程,命令很简单,只需要几分钟就清理了之前 一晚上都跑不完的任务:

  1. java -jar bfg-1.11.7.jar --delete-files *.zip myrepo.git
  2. java -jar bfg-1.11.7.jar --delete-files *.log myrepo.git
  3. java -jar bfg-1.11.7.jar --delete-files *.out myrepo.git
  4. java -jar bfg-1.11.7.jar --strip-blobs-bigger-than 1M myrepo.git

附上几个常用的但又不常见的 git 小技巧:

复制代码仓库:

  1. git clone --bare /var/www/html/myrepo.git

Git 后悔药,覆盖最后一次修改:

  1. git add .
  2. git commit --amend
  3. git push origin master -f

Git 放弃本地修改:

  1. git checkout .

Git 销毁最后一次提交:

  1. git reset --hard HEAD^
  2. git push -f origin HEAD^:master

打包时候嵌入版本号:

  1. git rev-parse HEAD > version.txt


原文发布时间为:2015-07-07


本文来自云栖社区合作伙伴“Linux中国”

如何清洗 Git Repo 代码仓库相关推荐

  1. [Git] 裸代码仓库和镜像代码仓库全解

    1.Git init和clone命令对bare和mirror参数的支持 git命令 –bare参数 –mirror参数 git init 支持 不支持 git clone 支持 支持 2.裸代码仓库与 ...

  2. git+repo 代码提交

    首次提交: 1 创建本地仓库:repo start 姓名 –all 2 更新代码:repo sync -j8 3 查看代码差异:git diff/git status 4 提交代码:git add g ...

  3. svn的代码提交到git服务器_svn服务器代码仓库,数据迁移到git仓库

    svn服务器代码仓库,数据迁移到git仓库 1.安装svn [root@tomcat01 ~]# yum install subversion -y 2.初始化仓库 [root@tomcat02 ~] ...

  4. repo/git提交代码

    Repo每个的工程下每个目录下都有一个git仓库,可以在每个目录的git仓库下执行git各种命令. 一.从服务器clone代码 1.初始化repo仓库 # repo init -u http://xx ...

  5. clone远程代码 在不同电脑上git_用树莓派3搭建私有git代码仓库

    0.出发点 由于项目开发的规模和复杂度越来越大,有时候需要同时多人在不同的嵌入式linux上开发代码,在没有用git管理代码和文档前,很难同步代码和文档的版本,宝贵的代码存储也没有安全感. githu ...

  6. Git同时使用不同平台代码仓库

    问题描述 公司项目使用代码仓库为gitinn/gitlab等,个人项目使用github进行托管,而公司项目和个人项目设置的邮箱和用户名是不同的,而ssh的密钥对又是基于这两个信息生成的,所以此时想要同 ...

  7. 用git提交代码到远程仓库遇到的问题

    目录 我的学习过程 git环境配置(Mac版) git原理图 git的push操作思路 遇到的问题 我的学习过程 昨天重写了一遍聊天程序,准备提交到git上进行代码管理.结果遇到了不少问题.我照着网上 ...

  8. Windows下Git Bash Here怎么整个文件夹目录上传到代码仓库(不论GitHub、GitLab、Gitee、DevCloud)

    使用Git方式clone和下载源码的方式已经很常用,可以通过SSH.HTTPS等方式下载,此处不啰嗦介绍,今天主要分享的是如何在Windows环境下,使用Git Bash命令操作文件或文件夹上传的方法 ...

  9. Git建立远程代码仓库和本地代码仓库

    Git建立远程代码仓库和本地代码仓库 使用Git管理代码,需要有两个仓库.一个是远程代码仓库,一个是本地代码仓库. 远程仓库是用来托管代码的平台,比如说Github,GitLab,Gerrit,码云G ...

最新文章

  1. 让用VS2012/VS2013编写的程序在XP中顺利运行
  2. js调试工具console详解
  3. Python 中 function(#) (X)格式 和 (#)在Python3.*中的注意
  4. 部署不能产生class文件的问题
  5. [链接]开方检验原理
  6. 回归素材(part7)--机器学习入门到实战-MATLAB实践应用
  7. 技术类别特点_苏州鑫辉仓储货架的常用类别及特点
  8. hp M1530一体机无法在OEM系统下安装驱动
  9. 冒险岛历代版本科普(干货)-琳琳冒险岛
  10. keil C51代码优化等级介绍
  11. 选中的磁盘具有MBR分区表,在EFI系统上,windows只能安装到GPT磁盘
  12. 一款你不容错过的Laravel后台管理扩展包 —— Voyager – Laravel学院
  13. 附加和分离SQL数据库
  14. 为什么Word 里表格文字无法垂直居中?明明已经设置垂直居中了
  15. 浅谈shiro出现Authentication failed for token submission(认证失败)异常的几种可能
  16. word插入分隔符的方法
  17. python实现1分钟内股价波动邮件提示
  18. python_面向对象,以及类的相关知识
  19. 日拱一卒无有尽,功不唐捐终入海
  20. 大数据人才培养的规划之路如何走

热门文章

  1. 谷歌在线办公法器-Google Docs
  2. A CAPTCHA Server Control for ASP.NET C# 版
  3. [NOIp2012]开车旅行
  4. Android+Jquery Mobile学习系列(3)-创建Android项目
  5. JSONObject和JSONArray使用
  6. 十二则技巧让Excel操作效率提高
  7. 领域驱动设计DDD之读书笔记
  8. 算法----迷宫问题
  9. 良好的树结构设计会让开发更舒爽
  10. 如何处理IE首页被篡改的问题