github采集器 开源_GitHub关键字扫描开源工具推荐
互联网上数次曝出的GitHub泄漏公司比较敏感信息内容恶性事件,表明企业安全中GitHub关键词扫描仪是很重要及关键的安全性基础设施,我用了某些恶性事件对于不一样种类的GitHub扫描仪开源系统商品作了某些检测调查,与君共享。
一、GitHub检索插口
github得出了在编码找中关键字搜索的API,而且界定默认设置只检索主支系编码,也就是说master这一支系,只能低于384KB的文档能够被检索。
在官方网举例说明中:
https://api.github.Com/search/code?q=addClass+In:file+language:Js+repo:jquery/jquery
q 表达为关键词;
In:file 表达为在文档中检索(在文件目录中则是In:path,);
language 表达語言为JavaScript;
repo 表达为在jquery/jquery储存库中检索;
大量检索英语的语法能够去往官方网站查询https://github.Com/search/advanced。
API还出示了百度搜索展现的作用,在post请求的那时候随身携带post请求头:
curl-H'Accept:application/vnd.github.v3.text-match+json'\https://api.github.Com/search/code?q=addClass+In:file+language:Js+repo:jquery/jquery
实例:可是这一作用只显示信息配对到的关键词和行数,针对实际上运用功效并不大:
二、开源系统专用工具详细介绍
互联网上带许多GitHub扫描仪的开源系统专用工具,我的要求是:立即告警、扫描仪全方位、数据可视化展现,历经某些检测比照后,强烈推荐几款布署便捷、配备简易的专用工具:
GSIL(https://github.Com/FeeiCN/GSIL)
Hawkeye(https://github.Com/0xbug/Hawkeye)
2.2 GSIL详细介绍
基本原理:
登陆配备:选用token(https://github.Com/settings/tokens),应用PyGithub库。
开展API启用(.com://pygithub.github.io/PyGithub/v1/introduction.html语言)。
检索范畴:默认设置检索前150个新项目,较大6000(github限定)。
全过程:根据API(/search/code)检索标准文档rules.gsil中递交的关键词,随后剖析获得的json結果,默认设置展现前40个有关新项目。
扫描仪配备:在配置文件时会过虑某些创作者觉得没用的相对路径,能够依据具体情况屏蔽掉某些:
結果展现:新款上市专用工具沒有网页页面展现,根据电子邮件告警,配对存有关键字的行以及上下左右3行用以邮件发送来清查(客户体验不错)。
去重复扫描仪:专用工具纪录扫描仪全过程中造成的有关编码內容、文档hash,在~文件目录下建立了1个隐藏文件夹.gsil。扫描仪模块中要是文档的hash是以前碰到过的,则绕过:
周期时间扫描仪:可根据crontab配备,每钟头实行多次:
@hourly /usr/bin/python /root/gsil/gsil.py 标准名字
3.2 Hawkeye详细介绍
扫描仪基本原理前边早已简易详细介绍已过,Hawkeye因为有着图形界面页面,因而能够和GSIL配搭应用,我一般将GSIL扫描仪出去的账户,做为重中之重关心构造函数,配备更为详尽的对策来检测。
三、小结
GitHub关键词扫描仪也有许多别的的开源系统专用工具,例如较为重量级的gitpprey(https://github.Com/repoog/GitPrey),也有小米手机产品研发的X-patrol(https://github.Com/MiSecurity/x-patrol),从安裝自然环境规定、配备作用建立、布署难度系数水平下手,就能寻找这款合适公司自然环境的开源系统扫描工具。加上某些程序开发得话,基础能够确保某些碰触关键词的GitHub数据泄露能被立即的发觉与删掉。
谢谢阅读文章,热烈欢迎具体指导。
github采集器 开源_GitHub关键字扫描开源工具推荐相关推荐
- 前端利器,6 款开源 Web 性能优化辅助工具推荐
转自:原文链接 Web 性能优化是一个老生常谈的话题,也是前端页面开发十分重要的部分.当页面加载速度越慢,用户流失的概率就越大,性能和交互直接影响用户体验. 下面推荐几款 Web 性能优化辅助工具推荐 ...
- 阿里千万实例可观测采集器-iLogtail正式开源
简介:11月23日,阿里正式开源可观测数据采集器iLogtail.作为阿里内部可观测数据采集的基础设施,iLogtail承载了阿里巴巴集团.蚂蚁的日志.监控.Trace.事件等多种可观测数据的采集工作 ...
- 开源日志采集器如何选择?
开源日志采集器如何选择? 一.简介 日志采集是整个日志基础设施中最基础最关键的组件之一,影响着企业内部数据的完整性以及实时性.采集器作为数据链路的前置环节,其可靠性.扩展性.灵活性以及资源(CPU 和 ...
- (仿)火车头采集器 源码开源
菜鸟作品,不喜勿喷 前两年自己花了很久想仿制一款火车头采集器 然后也付出了很多努力,最终未能修成正果 代码一直在电脑中吃灰,本着无私奉献的精神 免费开源,给有需要的人参考和完善 软件功能大部分都已实现 ...
- 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(1-简介)
作为一个小白站长,接触了很多自动采集的软件(手头拮据,所以都是免费的),从火车头,杰奇,YGBOOK,苹果CMS,WP-AutoPost,等等,每个软件都有难以容忍的缺陷,或者采集规则过时,不适应JS ...
- 开源:基于百万商业圈.NET开发框架开发的并行带分词的采集器
开源:基于百万商业圈.NET开发框架开发的并行带分词的采集器 并行采集并做分词处理,在2MB带宽下测试平均:100 URL 用时3 秒种 特点:各种编码自动识别.各种编码自动转换.对有压缩的页能 自动 ...
- 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(3-采集设置)
抱歉各位,前两天有事情,一直没更新.今天开始讲解蓝天采集器的采集设置: 1.选择任务-添加任务: 2.填写任务名称,任务分组.方便后期管理,如果不选择更多选项,则默认为通用设置选项,参考(教程2),填 ...
- 怎么在github上下载项目_Github上Top20 Python与机器学习开源项目汇总
TensorFlow TensorFlow是一个端到端的机器学习开源平台.由工具.库和社区资源组成的全面.灵活的生态系统,使开发人员能够轻松地构建和部署基于ML的应用程序. TensorFlow最初是 ...
- GitHub 上排名前 100 的 Android 开源库介绍
转自:http://www.codeceo.com/article/github-top-100-android-libs.html 本项目主要对目前 GitHub 上排名前 100 的 Androi ...
最新文章
- python ip代理池_python实现ip代理池功能示例
- java类二次加载_深入理解java之类加载器
- Ubuntu系统启动错误问题的解决
- Golang 学习笔记资源
- ios基础篇(二十六)—— UITableViewCell的分组索引与标记
- 乐高创意机器人moc_乐高变形金刚爵士方头仔MOC图纸
- js ajax java传参_ajax参数传递与后台接收
- 3-5 单链表分段逆转 (20 分)
- 利用jquery实现数字千分位排版显示,使用0动态补全8位数
- 搜索的近义词php,挖掘关键词同义的近义词提高排名
- 接口测试系列之——接口安全测试
- 线性代数让我想想:两步得到二阶矩阵的逆
- 计算机图像处理之空域滤波增强(彩色增强)
- 如何实现无线网卡上外网+有线上内网=同时上网
- PHP爆绝对路径方法
- Neno和OpenMP的性能提升验证
- 7-5 手机号码 (20 分)
- SATA SSD需要NCQ开启吗?
- WordArt与everything联用生成含中文的词云
- 震惊!重新认识资本主义。
热门文章
- ES6语法---let和var的不同
- 语言常用c100单词,英语口语练习_夏普新款PW-C100-G电子词典测评_沪江英语
- linux下VScode开发ESP32,VsCode设置ESP32工具链+刨根问底点灯
- Python-使用jmespath来格式化处理json数据
- 负责指挥与控制整台电子计算机,2011秋季计算机应用基础期末考试卷(修改)
- linux 运行jar main,Maven打包生成jar包并在linux下启动main方法
- java编译时注解_简单介绍 Java 中的编译时注解
- java filehelper_Java常用工具类---IP工具类、File文件工具类
- Ubuntu 添加用户
- 私有静态成员变量,在多线程环境,别的线程会修改当前线程的变量值