OpenKG地址:http://openkg.cn/dataset/vuln-sprocket

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:四维创智(李德斌,孙基栩,鲍晨阳)


1. 前言

随着时间的推移,攻防技术的不断提升,组件的漏洞与日俱增,随之出现的各类漏洞情报也如雨后春笋一般疯狂涌现,使技术人员在想快速、全面地搜集漏洞情报时,会应接不暇,无法把握情报中心。

虽然,市面上已经出现许多漏洞情报平台来帮助大家去搜集情报,管理情报。但不同厂家的漏洞情报平台的内容侧重点也都有倾侧。

注重漏洞全面,而忽视了漏洞情报的垂直性,往往只有漏洞的基本信息,类似CVE、CNVD等官方漏洞情报平台。

具备一定的垂直漏洞情报搜集能力,能采集到漏洞的中文简介、漏洞POC等信息,但由于该类信息往往由平台运营人员手动采集或编写,在漏洞覆盖面上就会出现纰漏,存在一定的漏报和误报,比如seebug、exploit-db等厂商。

某个工具或框架自主研发或编写的漏洞POC、EXP及自主构建的漏洞情报信息,类似MSF、Nessus、xray等,这类EXP、POC情报价值非常高,是研究人员所重点关注的,但往往这类情报与其他漏洞的情报关联度不高,容易出现孤岛节点。(与CVE/CPE/CWE等标准脱节)

基于上述调研结果,我们不难发现,漏洞情报平台目前主要问题便是:

1. 站在不同角度的厂商对漏洞情报搜集的侧重点不同,导致技术人员想要全面了解某一漏洞的相关情报,就需要跳转多个厂商进行情报查阅;

2. 不同厂商之间的漏洞情报相对孤立,每个厂商都有自己的一套情报标注标准,关联不同厂商情报时,会出现情报重复的现象;

3. 当前各类漏洞情报平台所包含的漏洞情报限制性相对较大,对互联网上散落的弱关联情报并没有很好的采集和分析能力;

根据上述问题,我们尝试采用知识图谱技术对互联网上的开源漏洞情报进行整合和分析,并构建了以CVE漏洞管理方法为标准的漏洞情报平台。我们将它命名为"vuln_sprocket",下面我们将介绍该图谱的构建方案。

2. 知识图谱构建

2.1 漏洞情报实体、关系的选择简析

在进行知识抽取前,我们首先要明确,什么是漏洞情报。我们的理解是:针对某一漏洞,所有对了解该漏洞有帮助的信息,都可以称之为该漏洞的漏洞情报在这里,需要明确的是,漏洞需要了解哪些信息,以及怎样的信息才算是对了解该漏洞有帮助。

通过实战经验以及与一线人员交流得到的反馈,我们总结以下几点比较受到关注的漏洞情报信息:漏洞基础信息、漏洞编号 (包括但不限于CVE、CNVD、EDB-ID)、漏洞危害类型(命令执行、注入、溢出等)、漏洞利用方式(远程、本地)、是否存在利用风险(宕机、数据删除)、漏洞危害等级 (低、中、高)、漏洞简介 (英文、中文)、漏洞作用组件 (厂商、组件、版本)、漏洞分析、漏洞原理机制、漏洞复现过程、漏洞复现靶场、漏洞利用工具、漏洞检测、利用过程分析、漏洞检测代码、漏洞利用代码、漏洞权限提升代码、防御措施、漏洞补丁信息、漏洞白盒检测方式、漏洞具体解决方案、漏洞流行度、热度等趋势分析。针对漏洞之间的关系比较感兴趣的几个点是:

1. 漏洞之间的是否存在组合利用的可能性

2. 漏洞作用的组件是否存在供应链

3. 能否根据某组件已知漏洞情报去推断可能存在的新漏洞

4. 能否对漏洞情报进行分析,能够合并内容相同但发布平台不同的漏洞情报

2.2 实体及关系概念构建

根据以上调研,我们不难发现,在这其中,“漏洞”这个实体概念,是作为情报关联的关键。用户关心“漏洞”的攻击收益,关心“漏洞”的作用对象,关心“漏洞”的原理、防守方案等等。因此,在参考stix 2.1 当中对实体和关系的描述后,我们确定以“漏洞”为核心的原始实体及概念关系,如下图。

并且,我们以漏洞为中心点,根据其他实体与漏洞关系位置的不同对其进行如下的逻辑分层。

1. 组件层(漏洞作用的目标)

A. 软件、操作系统

B. 组件分类信息

2. 漏洞层(中心点)

A. 漏洞基础信息

3. 情报层 (对了解漏洞有帮助的信息)

A. 漏洞情报(对漏洞基础信息进行补充,包括中文翻译、参考链接、漏洞类型等其他属性的补充)

B. 漏洞分析文章(完善漏洞分析情报,包括漏洞分析、复现过程、POC/EXP利用分析、防御措施分析等内容 )

C. 漏洞检测/利用工具情报( 完善漏洞工具的情报,包括发布时间、编写语言、POC/EXP来源等信息)

4. 实例层 (情报的详细说明或对情报的补充拓展信息)

A. 工具源码(包含工具源代码信息)

B. 工具脚本 (包含工具脚本的基础信息以及工具调用/触发所需的场景信息)

C. 具体的复现靶场/镜像

2.3 实体及关系提取

图谱中绝大多数的知识都是通过对半结构化数据转换得来。需要注意的是,在CWE(软件脆弱性类型数据集)和CAPEC(攻击类型枚举和分类数据集)的官方定义中便包含有两者之间及各个数据集内部的关系,可以进行直接的引用。

CAPEC和CWE的关系是“战术与执行者”的关系,意为“某个攻击类型所表示的攻击行为其作用对象是一个组件的某个脆弱点”。CAPEC标准的数据结构包含的“Related_Weaknesses”字段表述该攻击类型所利用的脆弱点列表。

图 1 CAPEC所利用的脆弱性列表

无论是CAPEC还是CWE,在其标准内部也存在不同实体的关系,CAPEC对于攻击类型之间关系的描述保存在该标准中“Related_Attack_Patterns”字段,CWE对于脆弱性之间关系的描述保存在该标准中“Related_Weaknesses”字段。

图 2 CAPEC之间的关系描述

图 3 CWE之间的关系描述

3. 推理规则构建及隐性关系发掘

在信息搜集过程中,单一的搜集方式会导致信息搜集不全面,或信息误报。通过构建组件、服务、系统等实体之间的关系,并推理之间的间接关系,可完善并发现隐性的资产信息。

确定好原始实体后,我们尝试对实体之间的关系进行分析,除了常规的包含或归属关系外,我们针对组件层,添加了 “depend_on” 这样的一个关系,用来表示组件供应链关系中的依赖关系。这是因为,依赖关系是作用在组件之间的强关联关系(当a依赖b时,若a存在则b一定存在),在进行推理时可以通过该关系进行信息拓展。

3.1 依赖关系发掘

CPE(Common Platform Enumeration的缩写)是一个以标准化方式为软件应用程序、操作系统及硬件命名的方法。最大的漏洞库CVE中对软件的描述便是使用了CPE标准。基于统一资源标识符 (URI) 的通用语法,CPE 包括正式名称格式、用于根据系统检查名称的方法以及用于将文本和测试绑定到名称的描述格式。在CPE的字段中,常常包含一定的软件依赖信息,如“cpe:2.3:a:10web:10websocial:-:*:*:*:*:wordpress:*:*”中描述了10websocial 和 WordPress的依赖关系。

同时,在维基百科上,对软件的描述中,也会包含一些依赖关系。当然这类数据,由于软件名并不是使用的CPE标准格式,因此,首先需要进行非标准描述映射标准描述的工作。在这里,我们主要使用的方法有相似度匹配、人工筛选以及基于CVE漏洞描述的关联推理。

3.2 依赖关系推理应用实践

根据依赖关系的特性,我们构建如下规则:

1. 软件依赖关系为强关联规则,即关系可靠度为1

2. 软件依赖关系存在“继承”属性,即当a软件所依赖的b软件存在c软件的依赖关系,则a软件与c软件也存在依赖关系

3. 软件依赖关系,若a依赖b组件,则b为a的必要条件。即,当a存在时,b必然存在。

基于以上规则,在信息搜集时,便可以通过推理进行信息补全。

假设,在图谱中存在如下知识:

(n:Software{name:”NextGEN_Gallery”})-[:plugin_for]->(ma:Software{name:”WordPress”})

这里需要注意的是,“plugin_for”与“depend_on”具备同等效果,不同的是,“plugin_for”具备标注依赖关系中,其中一方是另一方的“插件”的作用

当我们在初步信息搜集时,发现了该目标使用了“NextGEN Gallery”组件(“WordPress”组件的一个插件),但由于该目标修改了有关“WordPress”的相关特征,并使用了伪静态。使我们只获取到了“NextGEN Gallery”信息,届时便可以基于上述知识进行关联,确定组件 “WordPress”的存在,并可以根据规则2,推理出其他组件,如图(红线为规则3推理所得)

4. 总结

知识图谱作为“认知智能”技术典型代表,在网络安全领域中的应用具备天然优势。尤其是在情报组织、分析,辅助决策任务,路径规划等方面,随着知识图谱技术的不断发展其应用空间会非常广泛。

本文所构建的情报虽说均来自于互联网开源漏洞情报信息,但其丰富程度已然超过许多商业情报平台,这不难发现,在如今的互联网时代下,公开情报通过精细的采集、分析后其丰富程度仍是商业情报平台无法比拟的,且情报获取速度较商业情报,在大规模应用中也将快于商业情报许多,于精耕细作某一细分方向的商业情报源比较来说,自然是无法达到它所拥有的速度和准确度,但仍不妨开源漏洞情报在诸多领域的广泛应用。

相信在可见的未来,知识图谱相关技术在开源漏洞情报分析领域,会有它无法替代的作用和意义。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

开源开放 | 开源立体化漏洞情报知识图谱(四维创智)相关推荐

  1. 开源开放 | 欢迎选修浙江大学《知识图谱》开放共享慕课

    点击"阅读原文"或扫描图中二维码进入课程 教学计划 第一章知识图谱概论 1.1 语言与知识 1.2 知识图谱的起源 1.3 知识图谱的价值 1.4 知识图谱的技术内涵 第二章知识图 ...

  2. 开源开放 | 中国近代历史人物知识图谱

    OpenKG地址:http://openkg.cn/dataset/zgjdlsrw 项目地址:http://www.zjuwtx.work/project/kg 开放许可协议:CC BY-SA 4. ...

  3. 开源开放 | 开源大学在线实践数据集及知识图谱MOOPer(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/mooper 头歌平台:https://www.educoder.net/ch/rest 开放许可协议:CC BY-SA 4.0 ( ...

  4. 开源开放 | 开源网络通信行业知识图谱(新华三)

    转载公众号 | 数字化领航 OpenKG地址:http://openkg.cn/dataset/network-communication 文章作者:新华三集团 出品平台:数字化领航 OpenKG是中 ...

  5. 开源开放 | 开源知识图谱抽取工具发布大模型版DeepKE-LLM

    DeepKE-LLM链接: https://github.com/zjunlp/DeepKE/tree/main/example/llm OpenKG地址: http://openkg.cn/tool ...

  6. 开源开放的知识图谱工具和数据生态

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 知识图谱在美团推荐场景中的应用实践 搜索场景下的智能实体推荐 机器学习在B站推荐系统中的应用实践 小红书推荐系统 ...

  7. 知识图谱:刻画事物关系,沉淀领域知识!

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 知识图谱在美团推荐场景中的应用实践 搜索场景下的智能实体推荐 机器学习在B站推荐系统中的应用实践 小红书推荐系统 ...

  8. 知识图谱开源开放及生态 | 7月12日TF65

    本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学.南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱.知识图谱开源工具等所面临的机遇和挑战,并进一步了解知识图谱开放和开源工具构建的应用 ...

  9. 会议交流 | 知识图谱开源开放及生态——7月12日TF65

    转载公众号 | 中国计算机学会 本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学.南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱.知识图谱开源工具等所面临的机遇和挑战,并进一步了解 ...

最新文章

  1. 科技部通知:先看病,再写论文!!!
  2. wpf treeView,避免横向滚动条自动偏移。 ContentHorizontalOffset
  3. 【C++grammar】继承与构造
  4. cuda矩阵相乘_cuda初学(1):稀疏矩阵向量乘法(单精度)
  5. 【SQL】找出行数与自增标识值不相等的表(即有缺行)
  6. php+堆排序算法,PHP实现排序堆排序(Heap Sort)算法
  7. iec104规约遥测遥信解析笔记
  8. The Softwares Programer must download
  9. 找个网页游戏插件开发团队
  10. MATLAB R2018b for Mac(数学分析软件)附matlab激活密钥
  11. QQ能上网浏览器无法上网
  12. 友情链接php模板,自定义友情链接页面模板
  13. 树莓派与win10主机传输文件方式(未完,占坑)
  14. 把一个字符串中的大写字母和小写字母分别存储到一个新的字符串中
  15. StormMedia: 一个关于暴风影音的文件夹
  16. 羽毛球规则之羽毛球场地尺寸(球场、网柱、球网)
  17. html5游戏引擎国内文献综述,html5论文参考文献范例借鉴
  18. Java 根据高德地图获取经纬度坐标
  19. java-php-python-ssm旅游产品网络销售系统计算机毕业设计
  20. auto.js开发网课搜题浮窗软件,类似按键精灵可浮窗式快速搜题

热门文章

  1. waveOutGetDevCaps - 查询输出设备的性能
  2. 在构造函数/析构函数中调用virtual函数带来的影响
  3. UDT中select异常
  4. 写flash,要不要加个判断?
  5. 如何把Linux工具里的“军刀”BusyBox移植到RT-Thread Smart?
  6. Orange——The Data
  7. MyBatis动态SQL_多表查询_延迟加载_缓存
  8. 华三交换机ping大包命令_华三交换机常用命令
  9. python函数名与变量名可以一样吗_python--第一类对象,函数名,变量名
  10. python网络爬虫系列(九)——打码平台的使用