CSKB: A Cyber Security Knowledge Base Based on Knowledge Graph阅读笔记

  • Purpose
  • Background
  • Ontology Construction
    • Process of Ontology Construction
    • Description of Ontology
    • Ontology implementation
  • Implementation of CSKB
    • Knowledge Acquisition and Knowledge Fusion/Extraction
    • Knowledge Fusion
    • Knowledge Inference
  • Conclusion

Purpose

本文基于知识图谱构建标准网络安全本体,并从知识获取、知识融合/抽取、知识存储、知识推理、知识更新五个方面介绍了网络安全知识库CSKB的实现过程,旨在为实时网络安全防护提供可靠的依据。

还提出了一种结合深度学习的路径排序算法TransFeature实现知识推理,并使用Neo4j存储安全领域知识。

Background

传统的网络安全数据集难以反映实时和复杂的网络攻击环境,因此,如何实现网络安全数据的标准化和集成,不断存储和更新恶意流量信息已成为亟待解决的关键问题。

Ontology Construction

Process of Ontology Construction

采用自上而下构建本体的方法,如图1所示,在语义层面尽可能全面地描述现代网络攻击的类型和特征。

首先构造顶层概念包括三个本体:Device、Attack、Feature,以及五个关系:Launch、Cause、Threat、Has、Dependence。接下来构建子概念。最后通过将规范化的安全数据映射到本体模型,将实例添加到网络攻击本体中。

Description of Ontology

Device表示现代网络环境中的各种物理实体或硬件、软件、操作系统,它可能是网络攻击的来源或目标,也可能是攻击特征的来源。

D e v i c e ⊆ ∀ l a u n c h A t t a c k ∪ ∀ c a u s e F e a t u r e Device \subseteq{\forall launch \ Attack \cup \forall cause \ Feature} Device⊆∀launch Attack∪∀cause Feature

Attack表示现代网络环境中的各种恶意行为。

A t t a c k ⊆ ∀ t h r e a t D e v i c e ∪ ∀ h a s F e a t u r e Attack \subseteq{\forall threat \ Device \cup \forall has \ Feature } Attack⊆∀threat Device∪∀has Feature

Feature表示攻击流量必须具备的特征。

F e a t u r e ⊆ ∀ d e p e n d e n c e A t t a c k Feature\subseteq{\forall dependence \ Attack} Feature⊆∀dependence Attack

子概念如表1、2、3所示。

Table 1. Device-based sub-concepts

ID Sub-concepts Entites
1 Hardware PC, Mobile device, IXIA etc
2 Software Malicious software
3 OS Win7, Win8, Win10, Linux etc

Table 2. Attack-based sub-concepts

Id Sub-concepts-1 Sub-concepts-2 (Entities)
1 Fuzzers FTP Fuzz, Web Fuzz
2 Backdoors Add root, Sniff user passwords
3 Exploits SQL injection, Cross-site scripting, Weak password
4 Analysis Port scan, Spam, Html files penetrations
5 Worms E-mail, P2P, Vulnerability, Search engine
6 Shellcode None
7 Reconnaissance Data collation attack, Sniffing/scanning
8 DDoS PortMap, NetBIOS, LDAP, MSSQL, UDP, SYN, UDP-Lag, NTP, DNS, SNMP, SSDP, Web

Table 3. Feature-based sub-concepts

ID Sub-concepts Introduction
1 srcip Source IP address
2 sport Source port number
3 dstip Destination IP address
4 dsport Destination port number
5 proto Transaction protocol
6 sbytes Source to destination bytes
7 sttl Source to destination time to live
8 sloss Source packets retransmitted or dropped
9 service http, ftp, ssh, dns, etc
10 spkts Source to destination packet count

Ontology implementation

建立本体如图2所示。

Implementation of CSKB

基于知识图谱的CSKB的构建过程如图3所示,主要包括知识获取、知识融合/抽取、知识存储、知识推理、知识更新。

Knowledge Acquisition and Knowledge Fusion/Extraction

安全数据可分为结构化、半结构化、非结构化。结构化数据通常以安全数据集的格式存储,置信度一般比较高,可以将它们映射到网络安全本体,通过知识融合技术,可以利用其丰富的数据进行知识消歧;半结构化数据需要使用知识抽取工具分析,转化为结构化数据,以RDF格式存储;非结构化数据为拓展本体和CSKB提供了基础。

Knowledge Fusion

采用Neo4j。

Knowledge Inference

当通过知识获取收集到大量多源数据时,数据的可靠性不能保证,因此需要通过知识推理技术完成数据的分类和推荐。

基于CSKB中的高置信度数据,深度学习可以建立一个识别新类型的知识的模型。为了进一步验证输入数据的可靠性,设计了一个路径排序算法TransFeature。知识推理的过程如图4。

将特征实体作为CNN模型的输入,对应的攻击实体作为标签,训练完成后,模型能够区分输入的安全数据属于哪一种攻击类型。不能映射到攻击实体的数据将会被丢弃,反之将特征实体输入TransFeature算法,决定该知识是否可靠。

TransFeature学习实体和关系的低维向量表示,比较实体以优化模型。特征向量和相关计算如下

F ⃗ i = ( b i → , t i → , l i → , e i → , p i → ) \vec{F}_{i}=\left(\overrightarrow{b_{i}}, \overrightarrow{t_{i}}, \overrightarrow{l_{i}}, \overrightarrow{e_{i}}, \overrightarrow{p_{i}}\right) F i​=(bi​ ​,ti​ ​,li​ ​,ei​ ​,pi​ ​)

F ′ → = ( b ′ → , t ′ → , l ′ → , e ′ → , p ′ → ) \overrightarrow{F^{\prime}}=\left(\overrightarrow{b^{\prime}}, \overrightarrow{t^{\prime}}, \overrightarrow{l^{\prime}}, \overrightarrow{e^{\prime}}, \overrightarrow{p^{\prime}}\right) F′ =(b′ ,t′ ,l′ ,e′ ,p′ ​)

τ k = ∥ k ⃗ ∥ max ⁡ − ∥ k ′ → ∥ k = b , t , l , e , p \tau_{k}=\|\vec{k}\|_{\max }-\left\|\overrightarrow{k^{\prime}}\right\| k=b, t, l, e, p τk​=∥k ∥max​−∥∥∥​k′ ∥∥∥​k=b,t,l,e,p

T → = ( τ b , τ t , τ l , τ e , τ p ) \overrightarrow{\mathrm{T}}=\left(\tau_{b}, \tau_{t}, \tau_{l}, \tau_{e}, \tau_{p}\right) T =(τb​,τt​,τl​,τe​,τp​)

d i = ∥ F i → − F ′ → ∥ d_{i}=\left\|\overrightarrow{F_{i}}-\overrightarrow{F^{\prime}}\right\| di​=∥∥∥​Fi​ ​−F′ ∥∥∥​

其中 b i → , t i → , l i → , e i → , p i → \overrightarrow{b_{i}}, \overrightarrow{t_{i}}, \overrightarrow{l_{i}}, \overrightarrow{e_{i}}, \overrightarrow{p_{i}} bi​ ​,ti​ ​,li​ ​,ei​ ​,pi​ ​表示第i个数据包的特征实体的(sbytes,sttl,loss,service,spkts)二维向量表示, F i → \overrightarrow{F_i} Fi​ ​表示特征向量的集合, F ′ → \overrightarrow{F^{'}} F′ 是存储在CSKB中每个特征向量的平均值的集合, τ k \tau_k τk​表示每个特征标量的最大差值, d i d_i di​表示第i个数据包的特征向量与平均特征向量的的距离。最后通过比较 d i d_i di​和阈值 T → \overrightarrow{T} T ,如果 d i > T → d_i > \overrightarrow{T} di​>T ,数据是不可靠的,丢弃数据;否则数据是可靠的,将其存入CSKB。

Conclusion

本文致力于解决传统的安全数据集难以反映现代复杂的网络攻击环境的问题。从知识获取、知识融合/提取、知识存储、知识推理和知识更新五个阶段,构建了基于知识图谱的标准化网络安全本体,旨在充分反映现代网络攻击的动态性,为实时网络安全防护解决方案提供可靠依据。实验证明,CSKB中存储的知识可以有效地实现安全数据的规范和集成。在未来的工作中,作者考虑将CSKB扩展为一个交互行为知识库,从而建立一个智能的、可信的自适应记忆交互行为平台。

CyberSecurity Knowledge Base笔记相关推荐

  1. RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph 阅读笔记

    RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph Improve ...

  2. Entity Linking with a Knowledge Base:Issues, Techniques, and Solutions笔记

    Entity Linking with a Knowledge Base:Issues, Techniques, and Solutions笔记 阅读文献笔记 1 引言 1.1 动机 1. 网络数据的 ...

  3. 【阅读笔记】:End-to-end Structure-Aware Convolutional Networks for Knowledge Base Completion

    为解决知识图谱(KG)中三元组不完整问题,本文结合加权图卷积神经网络(WGCN)和Conv-TransE两个模块,提出了SACN(Structure-Aware Convolutional Netwo ...

  4. 论文笔记Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signa

    Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signals 引 ...

  5. Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base(笔记)

    introduction 组织世界上的事实并且把它们存储成结构化的数据逐渐变成开源域问答的重要资源,例如:DBPedia (Auer et al., 2007) and Freebase (Bolla ...

  6. 《Knowledge Base Question Answering via Encoding of Complex Query Graphs》论文笔记

    Knowledge Base Question Answering via Encoding of Complex Query Graphs 这篇文章是上交和阿里于2018年发表在ACL上,主题依然是 ...

  7. 【阅读笔记】Reasoning With Neural Tensor Networks for Knowledge Base Completion

    前言 论文地址 Poster Abstract 这篇论文里,作者介绍了一个适用于推理两个实体关系的神经网络(Neural Tensor Network).相比之前的工作要么将实体表示成离散的最小单元或 ...

  8. 关于GCN的论文笔记--End-to-end Structure-Aware Convolutional Networks for Knowledge Base Completion

    用于知识图谱完成的端到端结构感知卷积网络 论文题目 End-to-end Structure-Aware Convolutional Networks for Knowledge Base Compl ...

  9. 论文浅尝 | How to Keep a Knowledge Base Synchronized

    Citation: Liang, J.,Zhang, S. & Xiao, Y. (2017). How to Keep a Knowledge Base Synchronized withI ...

最新文章

  1. [译] ES6+ 中的 JavaScript 工厂函数(第八部分)
  2. 【转】从3个科技公司里学到的57条经验
  3. 新学期的一些安排 | 以及一些小建议
  4. Qt之debug和写log文件
  5. 文字转wav_这6款超良心语音转文字工具,真让人省心!
  6. 云漫圈 | 什么是微服务?
  7. 数据相关,资源相关,控制相关的解决方法
  8. Magento 获取系统设置 How to get data from Magento System Configuration
  9. 开源 计划管理_公司开源计划的三大好处
  10. 文字描边_巧用Illustrator“3D”和“凸出和斜角”功能,制作炫酷立体文字
  11. epic打开一直闪_教你用意派Epub360做酷炫的快闪H5!(附快闪H5模板)
  12. 帖子如何实现显示浏览次数_我是如何一步步的在并行编程中将lock锁次数降到最低实现无锁编程...
  13. Atitit 集团与个人的完整入口列表 attilax的完整入口 1. 集团与个人的完整入口列表 1 2. 流量入口概念 2 3. 流量入口的历史与发展 2 1.集团与个人的完整入口列表
  14. 高薪设计师必修课 AE移动UI动效设计从入门到实战
  15. py thon画一个实心五角星
  16. 如何将较大的PDF文件压缩变小?PDF压缩方法!
  17. 域名查询服务商的方法
  18. python3GUI——微博图片爬取工具
  19. c语言 绝对值比较大小,c语言-求绝对值最大值
  20. pip:Could not fetch URL ***: There was a problem confirming the ssl certificate: HTTPSConnectionPool

热门文章

  1. 六成应用不需要程序员,一大批程序员会失业?
  2. 乐器php毕业论文,打击乐器在音乐课堂教学中的应用
  3. 文本分类:4、工程经验
  4. 漫谈CRM体系化建设2 – 如何开发客户?
  5. 窗——开了又关,关了又开(改编)
  6. 微信小程序html5音频,微信小程序 audio音频播放详解及实例
  7. TOTP动态密码认证功能,让天下无贼!
  8. 医疗环境电子数据交换标准HL7 v3.0的新进展
  9. 《游戏学习》| 射击类小游戏 html5 打野鸭子
  10. HTML5/Canvas太空射击类小游戏源码