1.安装相关组件

python 2.7和pip

mongodb

scrapy (pip install scrapy)

flask (pip install Flask)

pymongo (pip install pymongo)

2.爬虫

乌云公开漏洞和知识库的爬虫分别位于目录scrapy/wooyun和scrapy/wooyun_drops

运行scrapy crawl wooyun -a page_max=1 -a local_store=false -a update=false,有三个参数用于控制爬取:

-a page_max: 控制爬取的页数,默认为1,如果值为0,表示所有页面

-a local_store: 控制是否将每个漏洞离线存放到本地,默认为false

-a update:控制是否重复爬取,默认为false

第一次爬取全部内容时,用scrapy crawl wooyun -a page_max=0 -a update=true

平时只爬取最近的更新时,用scrapy crawl wooyun -a page_max=1,可以根据自己的爬取频率和网站更新情况调整page_max的值

全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。(截止2015年10月)

3.搜索

漏洞搜索使用了Flask作为web server,bootstrap作为前端

启动web server :在flask目录下运行python app.py,默认端口是5000

搜索:在浏览器通过http://localhost:5000进行搜索漏洞,多个关键字可以用空格分开。

4.为mongodb数据库创建索引(如果不创建索引,可能导致返回结果报错,以下为命令行状态)

mongo
use wooyun
db.wooyun_list.ensureIndex({"datetime":1})
db.wooyun_drops.ensureIndex({"datetime":1})
5.虚拟机

虚拟机1:在2016年6月底爬的wooyun全部漏洞库和知识库内容,总共30G(压缩后约11G),网盘链接: http://pan.baidu.com/s/1kUZFQdT 密码: rupb
使用方法:

1、压缩包解压后是一个vmware虚拟机的镜像,可以由vmware直接打开运行;
2、由于在制作压缩包时虚拟机为“挂起”状态,当前虚拟机的IP地址可能和宿主机的IP地址段不一致,请将虚拟机重启后重新获取IP地址,虚拟机用户密码为hancool/qwe123;
3、进入wooyun_public目录,先用git更新一下到最新的代码git pull;
4、进入wooyun_public/flask目录,运行./app.py;
5、打开浏览器,输入http://ip:5000,ip为虚拟机的网卡地址(使用ifconfig eth0查看)

虚拟机2:已打包了一个安装了所有组件和程序的虚拟机(不包含具体内容,约980M),网盘链接: http://pan.baidu.com/s/1jIlTkTC 密码: cnt7
使用方法:

1、使用vmware或virtualbox导入虚拟机
2、登录用户名hancool,密码qwe123
3、进入wooyun_public目录,先用git更新一下到最新的代码git pull
4、分别进入wooyun_public目录下的wooyun和wooyun_drops,运行爬虫爬取数据(爬取全部数据并且本地离线缓存):scrapy crawl wooyun -a page_max=0 -a local_store=true -a update=true
5、进入wooyun_publich目录下的flask,运行./app.py,启动web服务
6、打开浏览器,输入http://ip:5000,ip为虚拟机的网卡地址(使用ifconfig eth0查看)
6.其它

本程序只用于技术研究和个人使用,程序组件均为开源程序,漏洞和知识库来源于乌云公开漏洞,版权归wooyun.org。

期待雨过天晴、重开wooyun!

转载于:https://www.cnblogs.com/chenjingyi/p/5730501.html

乌云平台公开漏洞、知识库爬虫和搜索——乌云所有离线数据相关推荐

  1. 乌云公开漏洞查询api 查看乌云最新安全漏洞

    通过乌云公开漏洞查询api,查看乌云最新提交/确认/公开/待认领的安全漏洞. 接口名称:乌云公开漏洞查询api 接口平台:api 接口地址:http://op.juhe.cn/wooyun/index ...

  2. php漏洞 乌云,灵活布置、可二次开发的乌云公开漏洞及知识库搜索

    *本文原创作者:grt1stnull,本文属FreeBuf原创奖励计划,未经许可禁止转载 感谢hanc00l爬取了wooyun的网页,才使乌云关闭后,大家依旧可以访问以前的漏洞库.知识库.hanc00 ...

  3. php漏洞 乌云,GitHub - grt1st/wooyun_search: 乌云公开漏洞、知识库搜索 search from wooyun.org...

    wooyun_search 乌云公开漏洞.知识库搜索 0x00.介绍 灵感来源于hanc00l的github项目wooyun_public wooyun_public基于flask或者tornado, ...

  4. [爬虫练习]爬取同程安全应急响应公开漏洞列表以及详情

    附图一张: 今天闲来无事做,就想起同程SRC有一个公开漏洞模块.然而闲的蛋疼的我就有了对其写一个爬虫将漏洞列表爬下来的冲动.有两个版本,一个是单线程的.另一个是多线程的版本. 单线程版本: #codi ...

  5. 乌云平台发布:2014年最新十大安全风险!

    昨日, 乌云平台发布了2014年十大安全风险: 互联网泄密.不安全的第三方应用. 系统错误/逻辑错误带来的暴力破解.SQL注入. XSS等成为2014年最大的安全风险. No.1 互联网泄密事件/撞库 ...

  6. python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...

    A8 书    名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版    次:01-01 页    数:212 开   ...

  7. 谷歌漏洞披露规则增加30天补丁缓冲期;Reddit 公开漏洞奖励计划

     聚焦源代码安全,网罗国内外最新资讯! 编译:奇安信代码安全卫士 本周,Reddit 宣布在 HackerOne 平台推出公开漏洞奖励计划,最高赏金为1万美元.谷歌 Project Zero 更改漏洞 ...

  8. 火眼公司发布公开漏洞奖励计划

     聚焦源代码安全,网罗国内外最新资讯! 编译:奇安信代码卫士团队 经过几个月的非公开漏洞奖励计划运营后,火眼公司宣布在 Bugcrowd 平台上开放其漏洞奖励计划. 火眼公司表示,Bugcrowd 平 ...

  9. 澳大利亚莫纳什大学推出公开漏洞奖励计划

     聚焦源代码安全,网罗国内外最新资讯! 编译:代码卫士 澳大利亚莫纳什大学推出公开漏洞奖励计划,以助力维护其数字化平台的安全性. 这项新的漏洞奖励计划托管在 Bugcrowd 平台,将为合法漏洞颁发最 ...

  10. 如何优化帮助中心、知识库中的搜索功能?

    知识发现是知识库平台的重要组成部分.为了便于在知识库中找到正确的内容,需要一个强大的搜索引擎.更重要的是,搜索引擎应该快速索引任何新发表的文章并使其可供搜索. 搜索的重要性 搜索引擎为知识库读者提供更 ...

最新文章

  1. 改变TPageControl的活动标签颜色
  2. Spring-05 -AOP [面向切面编程] -Schema-based 实现aop的步骤
  3. idea启动java服务报错OutOfMemoryError: GC overhead limit exceeded解决方法
  4. recovery.conf 用于 stream replication
  5. 数据完整性(python 版)
  6. Python——格式转换的学习笔记
  7. Linux 命令(25)—— cp 命令
  8. java10个整数反向输出_输入一个整数,实现反转输出,如输入123,输出321。
  9. springBoot+springSecurity 数据库动态管理用户、角色、权限
  10. A Better Finder Attributes 7 Mac版(文件批量重命名)
  11. c#SqlServer总结
  12. UI自动化测试如何生成HTML报告
  13. 主从D触发器的电路结构和工作原理
  14. 微信小程序:有赞小程序UI( vant-weapp ) actionsheet组件源码窥探
  15. 问的书写规则是什么意思_汉字笔顺的书写规则是什么
  16. 简历背景图片设置html代码,怎么在简历中添加背景图片
  17. php会员到期怎么判断,织梦用php判断检测会员是否登录并返回会员相关信息
  18. Windows-to-Linux roadmap: Part 2. Console crash course
  19. 1037: 某年某月有多少天(C语言)
  20. 深度学习之图像分类(二十六)-- ConvMixer 网络详解

热门文章

  1. WireShark抓Intel网卡的802.1q包
  2. [CF1504E]Travelling Salesman Problem
  3. 掌上英雄联盟服务器维护,掌上英雄联盟更改绑定大区的详细方法
  4. gateway整合filters
  5. AGV、IGV、RGV这三者之间的区别浅析
  6. c语言检测u盘插入拔出,Qt检测U盘插入拔出Demo
  7. 小程序错误:Setting data field collected to undefined is invalid.
  8. jzoj 3957 鸡腿の花园
  9. Redis过期键删除策略
  10. NTFS文件系统文件删除对比