CASIE: Extracting Cybersecurity Event Information from Text阅读总结

  • Purpose
  • Background
  • Methods
    • 网络安全事件抽取
    • 系统设计和架构
  • Data and Annotations
  • Results
  • Conclusions
  • Comments

Purpose

本文提出了CASIE系统,该系统从文本中提取有关网络安全事件的信息并填充语义模型,其最终目标是集成到网络安全数据的知识图谱中。

Background

通过从新闻文章中提取网络安全事件,能够帮助我们了解当前的趋势和漏洞,并将其集成到网络安全知识图谱中,实现其自动化。

抽取网络安全事件和生活中的事件不同之处有两点:一是需要的专业领域知识不同;二是网络安全事件的复杂性更高,一个网络攻击事件可以包含带有多个动作的攻击模式,尝试或完成。每提及此类行动都可视为是单独的网络安全事件描述,从而增加了网络安全事件参考的可能选择。

术语 Event nugget是能够清楚表达事件的单词或短语,与触发词不同。

Event argument是事件参与者或属性值,可以是事件中涉及的可标注实体(如个人或组织),也可以是指定重要信息的属性(如时间或数量)。

Role 是nugget和argument间的语义关系,每个事件类型都指定它可以拥有的角色,以及对填充这些角色参数的约束。

Realis指定事件是否发生,可以是Actual(实际发生的事件),Other(未能发生的事件或未来发生的事件),Generic(不确定的事件或者不具体的事件,如引用钓鱼攻击的概念)。

标注者间信度(inter-annotator agreement)用来衡量任务中人类评分者意见一致的指标。使用 Cohen’s Kappa score ,0.81~0.99为接近完美的表现。另外还构造了标签混淆矩阵(包括5种事件类型和20个事件参数),发现最不容易混淆的标签是CVE、时间和金钱。最容易混淆的标签如表所示。

Methods

网络安全事件抽取

表中定义了可以填充每个事件类型的基本角色和参数。我们进一步将这两种事件类型细分为五个事件子类型。

a. Attack.Databreach数据外联,破坏系统并删除数据,角色可以是Compromised-Data和Number-Of-Data。
b. Attack.Phishing钓鱼,模仿另一个实体,试图让受害者访问恶意链接等,角色为Trusted-Entity。
c. Attack.Ransom勒索,侵入系统加密数据,并索要赎金,角色为Ransom-Price 和Payment-Method。
d. Discover.Vulnerability安全专家或公司发现漏洞,角色为Discoverer, Capabilities, 和VS-Owner。
e. Patch.Vulnerability软件公司通过发布更新来解决已有漏洞,角色为Releaser, Issue-Addressed, Patch, Patch-Number 和 Supported-Platform。

系统设计和架构

CASIE包括6个步骤:事件线索检测、事件参数检测、事件参数和角色链接、事件可能性识别、事件关联、映射到知识图谱。

a. 事件块、参数检测
使用混合双向LSTM,基于不同的特征和输入句子中的每个单词的embdding vector,使用BIO标记每个token。
事件块特征:使用Core NLP对原始文本分词、词性还原、词性标注及NER,之后删除停用词。使用额外的知识库DEpedia和Wikidata寻找其他的命名实体。以解决CoreNLP部分类型缺失的问题。建立特征集:
(1) 每个单词的词性
(2) CoreNLP和DBpedia中的实体类型
(3) 实体在Wikidata中的相关类型
(4) 句子中提取的一组句法依赖关系
(5) 句法特征
参数特征与其相似。
词嵌入:使用Transfer-Word2vec、Domain-Word2vec、Cyber-Word2vec和Pre-built BERT,对上下文无关的使用前两种。
使用带有CRF层的BiLSTM进行事件块和事件参数检测。使用这种架构的原因是可以使用左右两边的文本来预测目标单词。将每个语言特征的嵌入层连接起来形成嵌入层。当使用BERT嵌入时,增加额外两个双向LSTM层。注意力层可以提高参数检测的性能。

b. 链接事件参数和角色
角色将被分配给一个事件参数。例如,如果在Phishing事件中提到一个Person,他的角色可能是Attacker、Victim或Trusted-Entity。词嵌入层通过两个全连接层,然后与其他嵌入层连接,之后经过最后一个全连接层输出结果。输出层的节点数量为每个事件的角色数量,而不是系统中的角色总数,因此要为每个事件类型建立一个神经网络,过滤掉不相关的角色(例如在Patch.Vulnerability事件中,Attacker和Victim就不应该出现在输出中)

c. 事件可能性识别
针对每个事件块识别其发生的可能性。

当发现事件块时,可能性的特征向量是事件块及其上下文的词向量,实验发现使用7个单词的上下文窗口可以获得最佳表现。所有的停用词都包含在识别组件中,因为它们包含重要的信息。如(may/can/not/no)等。
首先将事件分为Generic和非Generic,若是非Generic,进一步分类为Actual和Other。

Data and Annotations

作者收集了大约5000篇网络安全的新闻文章,其中的约1000篇由三位经验丰富的计算机专家注释,通过投票机制确定最终的注释。注释的单词数量不做限制。

Results

1. 作者定义并指定了5个网络安全事件和它们的语义角色,以及20种可供角色填充的参数。 2. 展示了一个新颖的、有挑战性的新闻专线语料库,在其中注释了网络安全事件。 3. 提出CASIE系统,该网络安全事件抽取系统将现代深度学习与语义特征相结合,提供了一套完整的信息抽取模型和工具,基于背景知识图谱产生网络安全特征。

Conclusions

定义了一个网络安全事件抽取任务,定义了5种事件类型、语义角色、能够填充角色的参数类型。重点在事件检测系统:检测事件线索和参数,预测事件可能性,将事件参数和事件线索与角色联系起来。开发CASIE并评估其性能,证明了使用神经网络和词嵌入特征能够精确抽取网络安全事件的信息。

Comments

目前正在进行的是事件参数检测,未来开发用于将参数链接到Wikidata实体,并计算事件之间关联和序列关系的组件,将支持其他事件类型,将事件、参数、角色对齐与映射到统一网络安全本体,并将提取的信息导出为集成的事件图。

CASIE: Extracting Cybersecurity Event Information from Text阅读总结相关推荐

  1. 论文《DeepHawkes: Bridging the Gap between Prediction and Understanding of Information Cascades》阅读

    论文<DeepHawkes: Bridging the Gap between Prediction and Understanding of Information Cascades>阅 ...

  2. 用计算机模拟勇气号,成功登陆火星的“勇气”号探测器text阅读答案

    精英家教网 > 阅读理解 > 成功登陆火星的"勇气"号探测器text阅读答案 成功登陆火星的"勇气"号探测器text ①2004年1月4日,带着人类 ...

  3. 请查收!顶会AAAI 2020录用论文之自然语言处理篇

    文章目录 自然语言处理篇(NLP)         Question Answering         Sequence Labeling         Semantics and Summari ...

  4. 《Deep Learning With Python second edition》英文版读书笔记:第十一章DL for text: NLP、Transformer、Seq2Seq

    文章目录 第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...

  5. [论文阅读] (14)英文论文实验评估(Evaluation)如何撰写及精句摘抄(上)——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  6. 【北邮国院大三下】Cybersecurity Law 网络安全法 Week1【更新Topic4, 5】

    北邮国院大三电商在读,随课程进行整理知识点.仅整理PPT中相对重要的知识点,内容驳杂并不做期末突击复习用.个人认为相对不重要的细小的知识点不列在其中.如有错误请指出.转载请注明出处,祝您学习愉快. 编 ...

  7. 文献阅读课14-DIAG-NRE: A Neural Pattern Diagnosis Framework for远程监督关系抽取,模式标注去噪自动化,FN,FP,RL

    文章目录 abstract 1. Introduction 2.相关工作 3.方法 3.1 NRE Models 3.2 Pattern Extraction 3.3 Pattern Refinemen ...

  8. What Is Text Mining?

    What Is Text Mining? Marti Hearst What is text mining? What are its potential applications and limit ...

  9. 英语 动画 教学 字母_字母形式在阅读教学中的作用

    英语 动画 教学 字母 Note: this essay may also be found on Design Observer. 注意:这篇文章也可以在 Design Observer 上找到 . ...

最新文章

  1. 用微信公众号做一个网页版商城
  2. 自定义字符串变量赋值在查询语句中使用
  3. Python自动化运维:Django之View视图和Template
  4. 【OJ】洛谷函数与结构体题单题解锦集
  5. 信息学奥赛一本通(1241:二分法求函数的零点)
  6. Nginx负载均衡的详细配置及使用案例详解.
  7. WebLogic安装的目录结构及应用部署的3种方式
  8. MAPGIS与ARCVIEW之间的文件转换技巧。(转载自当当吧网络驿站)
  9. bootstrap布局设计在线工具
  10. indows蓝屏PROCESS1_INITIALIZATION_FAILED STOP:0x0000006B 解决方法
  11. 今天吃什么 随机选择(抽奖,抽人适用)纯html、css静态页面
  12. 想做游戏测试工程师?这几点不知道可不行!
  13. 下次激活策略10_实体店生意经:6招引流策略,引爆客流!可套用任何行业
  14. 【CTF】【渗透】【msf】三、绕过杀毒软件技巧
  15. java 1st 2nd 3rd 4th_1st怎么输入excel “st”在1的右上角 EXCEL excel 1st 2nd 3rd 4th 怎么设置上标 如何改为上标...
  16. 七大品牌联手快手《超Nice大会》,探索综艺营销新通路
  17. Vue 框架-06-条件语句 v-if 实现选项卡效果
  18. 美国9·11事件永远不能忘记的22张照片(内附高清大图)
  19. 国家促进普通高校毕业生就业的政策
  20. 服务器文件上传和下载

热门文章

  1. SpringCloud学习笔记
  2. 马赛克 拼图 python_使用Python的马赛克艺术。
  3. python两张图片无缝合成一张,Python实现拼接多张图片的方法
  4. easy_install 和 pip 的安装及使用
  5. 微信小游戏马甲包过审(马甲包过包)
  6. 使用java调用阿里云车牌识别API
  7. 【读书笔记】见识——吴军
  8. xp如何添加桌面计算机回收站,WinXP如何找到回收站图标?
  9. 酒类电商1919获阿里巴巴20亿元战略投资,估值达70亿元
  10. 使用jsp实现用户注册及登录