互联网上数次曝出的GitHub泄漏公司比较敏感信息内容恶性事件,表明企业安全中GitHub关键词扫描仪是很重要及关键的安全性基础设施,我用了某些恶性事件对于不一样种类的GitHub扫描仪开源系统商品作了某些检测调查,与君共享。

一、GitHub检索插口

github得出了在编码找中关键字搜索的API,而且界定默认设置只检索主支系编码,也就是说master这一支系,只能低于384KB的文档能够被检索。

在官方网举例说明中:

https://api.github.Com/search/code?q=addClass+In:file+language:Js+repo:jquery/jquery

q 表达为关键词;

In:file 表达为在文档中检索(在文件目录中则是In:path,);

language 表达語言为JavaScript;

repo 表达为在jquery/jquery储存库中检索;

大量检索英语的语法能够去往官方网站查询https://github.Com/search/advanced。

API还出示了百度搜索展现的作用,在post请求的那时候随身携带post请求头:

curl-H'Accept:application/vnd.github.v3.text-match+json'\https://api.github.Com/search/code?q=addClass+In:file+language:Js+repo:jquery/jquery

实例:可是这一作用只显示信息配对到的关键词和行数,针对实际上运用功效并不大:

二、开源系统专用工具详细介绍

互联网上带许多GitHub扫描仪的开源系统专用工具,我的要求是:立即告警、扫描仪全方位、数据可视化展现,历经某些检测比照后,强烈推荐几款布署便捷、配备简易的专用工具:

GSIL(https://github.Com/FeeiCN/GSIL)

Hawkeye(https://github.Com/0xbug/Hawkeye)

2.2 GSIL详细介绍

基本原理:

登陆配备:选用token(https://github.Com/settings/tokens),应用PyGithub库。

开展API启用(.com://pygithub.github.io/PyGithub/v1/introduction.html语言)。

检索范畴:默认设置检索前150个新项目,较大6000(github限定)。

全过程:根据API(/search/code)检索标准文档rules.gsil中递交的关键词,随后剖析获得的json結果,默认设置展现前40个有关新项目。

扫描仪配备:在配置文件时会过虑某些创作者觉得没用的相对路径,能够依据具体情况屏蔽掉某些:

結果展现:新款上市专用工具沒有网页页面展现,根据电子邮件告警,配对存有关键字的行以及上下左右3行用以邮件发送来清查(客户体验不错)。

去重复扫描仪:专用工具纪录扫描仪全过程中造成的有关编码內容、文档hash,在~文件目录下建立了1个隐藏文件夹.gsil。扫描仪模块中要是文档的hash是以前碰到过的,则绕过:

周期时间扫描仪:可根据crontab配备,每钟头实行多次:

@hourly /usr/bin/python /root/gsil/gsil.py 标准名字

3.2 Hawkeye详细介绍

扫描仪基本原理前边早已简易详细介绍已过,Hawkeye因为有着图形界面页面,因而能够和GSIL配搭应用,我一般将GSIL扫描仪出去的账户,做为重中之重关心构造函数,配备更为详尽的对策来检测。

三、小结

GitHub关键词扫描仪也有许多别的的开源系统专用工具,例如较为重量级的gitpprey(https://github.Com/repoog/GitPrey),也有小米手机产品研发的X-patrol(https://github.Com/MiSecurity/x-patrol),从安裝自然环境规定、配备作用建立、布署难度系数水平下手,就能寻找这款合适公司自然环境的开源系统扫描工具。加上某些程序开发得话,基础能够确保某些碰触关键词的GitHub数据泄露能被立即的发觉与删掉。

谢谢阅读文章,热烈欢迎具体指导。

github采集器 开源_GitHub关键字扫描开源工具推荐相关推荐

  1. 前端利器,6 款开源 Web 性能优化辅助工具推荐

    转自:原文链接 Web 性能优化是一个老生常谈的话题,也是前端页面开发十分重要的部分.当页面加载速度越慢,用户流失的概率就越大,性能和交互直接影响用户体验. 下面推荐几款 Web 性能优化辅助工具推荐 ...

  2. 阿里千万实例可观测采集器-iLogtail正式开源

    简介:11月23日,阿里正式开源可观测数据采集器iLogtail.作为阿里内部可观测数据采集的基础设施,iLogtail承载了阿里巴巴集团.蚂蚁的日志.监控.Trace.事件等多种可观测数据的采集工作 ...

  3. 开源日志采集器如何选择?

    开源日志采集器如何选择? 一.简介 日志采集是整个日志基础设施中最基础最关键的组件之一,影响着企业内部数据的完整性以及实时性.采集器作为数据链路的前置环节,其可靠性.扩展性.灵活性以及资源(CPU 和 ...

  4. (仿)火车头采集器 源码开源

    菜鸟作品,不喜勿喷 前两年自己花了很久想仿制一款火车头采集器 然后也付出了很多努力,最终未能修成正果 代码一直在电脑中吃灰,本着无私奉献的精神 免费开源,给有需要的人参考和完善 软件功能大部分都已实现 ...

  5. 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(1-简介)

    作为一个小白站长,接触了很多自动采集的软件(手头拮据,所以都是免费的),从火车头,杰奇,YGBOOK,苹果CMS,WP-AutoPost,等等,每个软件都有难以容忍的缺陷,或者采集规则过时,不适应JS ...

  6. 开源:基于百万商业圈.NET开发框架开发的并行带分词的采集器

    开源:基于百万商业圈.NET开发框架开发的并行带分词的采集器 并行采集并做分词处理,在2MB带宽下测试平均:100 URL 用时3 秒种 特点:各种编码自动识别.各种编码自动转换.对有压缩的页能 自动 ...

  7. 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(3-采集设置)

    抱歉各位,前两天有事情,一直没更新.今天开始讲解蓝天采集器的采集设置: 1.选择任务-添加任务: 2.填写任务名称,任务分组.方便后期管理,如果不选择更多选项,则默认为通用设置选项,参考(教程2),填 ...

  8. 怎么在github上下载项目_Github上Top20 Python与机器学习开源项目汇总

    TensorFlow TensorFlow是一个端到端的机器学习开源平台.由工具.库和社区资源组成的全面.灵活的生态系统,使开发人员能够轻松地构建和部署基于ML的应用程序. TensorFlow最初是 ...

  9. GitHub 上排名前 100 的 Android 开源库介绍

    转自:http://www.codeceo.com/article/github-top-100-android-libs.html 本项目主要对目前 GitHub 上排名前 100 的 Androi ...

最新文章

  1. python ip代理池_python实现ip代理池功能示例
  2. java类二次加载_深入理解java之类加载器
  3. Ubuntu系统启动错误问题的解决
  4. Golang 学习笔记资源
  5. ios基础篇(二十六)—— UITableViewCell的分组索引与标记
  6. 乐高创意机器人moc_乐高变形金刚爵士方头仔MOC图纸
  7. js ajax java传参_ajax参数传递与后台接收
  8. 3-5 单链表分段逆转 (20 分)
  9. 利用jquery实现数字千分位排版显示,使用0动态补全8位数
  10. 搜索的近义词php,挖掘关键词同义的近义词提高排名
  11. 接口测试系列之——接口安全测试
  12. 线性代数让我想想:两步得到二阶矩阵的逆
  13. 计算机图像处理之空域滤波增强(彩色增强)
  14. 如何实现无线网卡上外网+有线上内网=同时上网
  15. PHP爆绝对路径方法
  16. Neno和OpenMP的性能提升验证
  17. 7-5 手机号码 (20 分)
  18. SATA SSD需要NCQ开启吗?
  19. WordArt与everything联用生成含中文的词云
  20. 震惊!重新认识资本主义。

热门文章

  1. ES6语法---let和var的不同
  2. 语言常用c100单词,英语口语练习_夏普新款PW-C100-G电子词典测评_沪江英语
  3. linux下VScode开发ESP32,VsCode设置ESP32工具链+刨根问底点灯
  4. Python-使用jmespath来格式化处理json数据
  5. 负责指挥与控制整台电子计算机,2011秋季计算机应用基础期末考试卷(修改)
  6. linux 运行jar main,Maven打包生成jar包并在linux下启动main方法
  7. java编译时注解_简单介绍 Java 中的编译时注解
  8. java filehelper_Java常用工具类---IP工具类、File文件工具类
  9. Ubuntu 添加用户
  10. 私有静态成员变量,在多线程环境,别的线程会修改当前线程的变量值