先验知识:

ISP:因特网服务提供商 ( ISP )是为个人或企业提供访问

NetFlow是一种网络监测功能,可以收集进入及离开网络界面的IP封包的数量及资讯,最早由思科公司研发,应用在路由器及交换器等产品上。经由分析Netflow收集到的资讯,网络管理人员可以知道封包的来源及目的地,网络服务的种类,以及造成网络拥塞的原因

摘要

为什么做:ISP通过检测与其用户相关的恶意网络活动可以获利

问题:不清楚 ISP 拥有什么样的流量数据可用于网络安全研究,以及可以在哪些法律条件下使用。

本文:(欧洲)可用数据源—— DNS 和 NetFlow

技术:匿名化和指纹识别技术的最新技术。

提出:基于立法、数据可用性和隐私考虑,提出了一种实际适用的匿名化政策。

1.介绍:

现实生活中流量跟踪的可用性受法律限制

立法没有规定必须对特定数据源使用哪些特定的匿名化技术。

合法数据源→针对 NetFlow 和 DNS 日志的策略

第 II 部分介绍了相关立法和匿名化要求,

第 III 部分概述了 ISP 通常在技术上可用的数据源。将相关范围限制为两个数据源,

第四节介绍了有关匿名技术和基于匿名 DNS 和 NetFlow 日志的订户指纹识别的相关工作。

第 V 节和第 VI 节基于从前面所有部分获得的知识,提出和讨论 NetFlow 和 DNS 日志中各个字段的具体匿名化策略,从而提供了本文的主要贡献。

2.立法:

数据源的法律规定:

“处理”是指对客户 IP 流量、位置数据等进行任何形式的存储、操纵、转发等。

“以传输为目的的处理”是指传输所需的处理IP 数据包(路由、交换)、执行 DNS 查找(缓存、递归)、验证订阅者、将数据包路由到正确的蜂窝塔和类似操作

由于几乎不可能让所有订户都注册与网络安全研究相关的增值服务,因此使用匿名数据是唯一可行的策略。

匿名化技术的法律规范:

两种匿名化技术:

Randomization:使用噪声添加和排列技术“改变数据的准确性,以消除数据与个人之间的紧密联系”。

Generalization:聚合(k-匿名)、Ldiversity 和 T-closeness 技术“通过修改相应的规模或数量级来概括或稀释数据主体的属性”。

→在大多数情况下,不可能对要使用的参数给出最低限度的建议,因为每个数据集都需要逐案考虑。

只有 ISP 传输目的处理的数据才能用于网络安全研究,并且数据只能用于以匿名形式保留。关于匿名技术的意见详细说明了哪些匿名技术被认为是合规的。

3.数据源

需要匿名化的数据源

(1)用户身份(与IP地址相关的日志数据)

Ip分配log

移动用户需要私有ip地址-运营商级网络地址转换(CGNA)log

EPDG CDR log(Evolved Packet Data Gateway:演进的分组数据网关;Call
Data Record:通话数据记录; )

(2)移动位置信息

小区数据库,用户移动事件log(包含用户身份 (IMSI/IMEI)、目标小区身份 (a 5-6 位数字)和目标无线接入)

(3)互联网活动

NetFlow 日志骨干网的路由器

DNS 日志可以包含客户端源 IP/端口、查询和响应。

4.相关工作

首先是术语说明,其次是分别介绍了NetFlow和DNS匿名的相关论文

术语说明:Aggregation vs. generalization:

Anonymization vs. pseudonymization:

NetFlow

(IPFIX全称为IP Flow Information Export,即IP数据流信息输出,它是由IETF公布的用于网络中的流信息测量的标准协议。)

RFC 6235 为 IPFIX 协议 [4] 的各个字段提供了匿名化和假名化选项,将各种匿名化技术分为不同的类别,但是,只有名为“泛化”(如截断)或“集合替换”(如噪声添加)的类才能被视为匿名化而不是假名化技术,没有具体的建议,只是思想;

对匿名化技术和 25 种工具的综合调查。

讨论了在网络数据包捕获中对不同协议层中的不同字段进行匿名化的相关性。

总结与建议:

“端口号不应该匿名,因为它会对网络捕获的有用性产生很大影响,并且不能直接用于识别”[6]

“目前,在没有完全受信任的各方,不建议共享完整的匿名数据集。目前针对重新识别的保护仍然不足。”

DNS

DNSSEC 和 DNS-over-TLS 等真实性和机密性机制,但详细介绍如何保护静态数据的部分主要关注数据最小化、IP 地址匿名化和 TCP/TLS 相关功能。

仅使用对前 n 个最流行的主机名的请求进行身份指纹识别(top k)

布隆过滤:依靠散列函数以不可逆的方式存储域名。降低了存储数据的效用,数据只能用于搜索已知的与恶意软件相关的域名。(白名单)

5.NETFLOW 匿名化

(详细说明了各个字段的匿名化技术的选择,并通过提供实现这种策略的伪代码来结束)

具体列举了常用的ipfix功能及建议的匿名化策略。

**总字节数和数据包:**TCP/UDP 会话中的总字节数和数据包数可用于用户分析和针对其他匿名技术的攻击 。但 ISP 收集 NetFlow 时,通常会按 1:n 采样。

样还自动提供数据包和字节计数的精度降级,这被认为是该字段的有效匿名方法 。

(数据建议:n>512)

IP地址:截断IP 地址,其他字段可能仍然能够识别主机。

其他匿名机制:在应用主动指纹识别技术(是啥?)时,可以重新识别 NetFlow 流量中的主机。

k-anonymity需要在匿名化之前分析数据分布。因此,这些扩展在实践中无法立即实施

**时间戳:**DNS 或 NetFlow 日志均不包含源自主机的时间戳,仅记录来自 NetFlow/DNS 日志捕获设备的时间戳。

为了保持匿名性,时间戳的精度可以降低到例如一小时或一分钟。

**IP 协议:**分箱技术,即使用 4 个分箱:TCP、UDP、ICMP 和“所有其他协议”。

**ICMP 类型/代码:**为了匿名化,可以从日志中省略代码字段。但是,这样做有一个明显的缺点,因为它显然还会隐藏任何使用操作系统检测技术的恶意软件。

**端口号:**端口号不应该匿名,因为它会对网络捕获的有用性产生很大影响。

**TCP flags:**分析 TCP 标志是检测使用 DDoS SYN 攻击和其他攻击类型的恶意软件的关键。TCP 标志显示的操作系统系列不会显示 ISP 部署的 CGNAT 设备类型。因此,建议不匿名。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I4TIRpGN-1651802839679)(C:\Users\Dell\AppData\Roaming\Typora\typora-user-images\image-20220114130702935.png)]

第 2-3 行删除 AM/PM 信息,

第 8 行和第 14 行将 IP 地址截断为 /8 和 /16 前缀,

第 10 行将端口号截断为具有 NAT 的客户的 /2 前缀(假设基于 64 个端口范围的 CGNAT)。

第7、9和11行在前缀列表 中搜索IP地址

  1. DNS匿名

NetFlow 只是一种用于记录被动收集的流属性的格式,但 DNS 是订阅者使用(并可能受到攻击)的服务。这需要一种功能更全面的日志记录方法,而不是专注于几个特定字段。

细节:

时间戳:

DNS标头:DNS 标头由许多标识符、响应代码和标志组成,许多是解析非标头组件所必需的,因此该字段 会适当随机化以降低隐私风险。

TTL:chosen

不常见的操作码、类和类型:这种类型的流量似乎不是人类互联网使用行为的结果,因此不太可能代表任何隐私风险。保留

常见类型:这些组件中的任何一个都可以包含 IP 地址、域名或包含两者之一的文本字符串。so应用于 RR 的任何匿名策略必须同时应用于 QNAME 和 RDA TA 组件,因为一个组件通常可以通过发出新的 DNS 请求从另一个组件派生,从而破坏匿名化。

域名:唯一已知的匿名化策略是域名:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-teF0IhD5-1651802839682)(C:\Users\Dell\AppData\Roaming\Typora\typora-user-images\image-20220114130756433.png)]

地址、域名或包含两者之一的文本字符串。so应用于 RR 的任何匿名策略必须同时应用于 QNAME 和 RDA TA 组件,因为一个组件通常可以通过发出新的 DNS 请求从另一个组件派生,从而破坏匿名化。

域名:唯一已知的匿名化策略是域名:

[外链图片转存中…(img-teF0IhD5-1651802839682)]

论文阅读:Cyber-security research相关推荐

  1. 论文阅读 (58):Research and Implementation of Global Path Planning for Unmanned Surface Vehicle Based...

    文章目录 1 概述 1.1 题目 1.2 摘要 1.3 代码 1.4 Bib 2 环境模型的建立与表示 2.1 电子海图数据提取 2.2 环境模型的建立 3 改进的A*算法的描述与实现 3.1 改进的 ...

  2. [论文阅读] (07) RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  3. 语义激光SLAM论文阅读 Semantic Lidar_based SLAM paper Research

    语义激光SLAM论文阅读 Suma: Efficient Surfel-Based SLAM using 3D Laser Range Data in Urban Environments 主要工作 ...

  4. [论文阅读] (20)USENIXSec21 DeepReflect:通过二进制重构发现恶意行为(恶意代码ROI分析经典)

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  5. [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  6. [论文阅读] (14)英文论文实验评估(Evaluation)如何撰写及精句摘抄(上)——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  7. [论文阅读] (01) 拿什么来拯救我的拖延症?初学者如何提升编程兴趣及LATEX入门详解

    又是在凌晨三点赶作业,又是在Deadline前去熬夜,一次次无眠,一次次抱怨.为什么三年前.两年前.一年前,甚至是昨天,我都下定决心"从现在开始读顶会论文",却又悄悄选择逃避:为什 ...

  8. [论文阅读] (03) 清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing

    数据流敏感的漏洞挖掘方法 Discover Vulnerabilities with Flow Sensitive Fuzzing Chao Zhang 清华大学 2nd International ...

  9. [论文阅读] (23)恶意代码作者溯源(去匿名化)经典论文阅读:二进制和源代码对比

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

最新文章

  1. Asp.net控件开发学习笔记(三)-控件开发基础
  2. python将变量a全部变成大写字母_每天一个Python知识点:只用一招就将所有的英文单词首字母变成大写...
  3. $cfg_dbtype = mysql_Druid连接池二(学习笔记)
  4. 鬼泣4计算机丢失xinput,Win7系统运行游戏报错“计算机丢失XINPUT1-3.dll”
  5. Java EE应用程序的单片到微服务重构
  6. html5与css3都要学吗,前端要学css3吗?
  7. 工作141:map形成数组
  8. 联想计算机如何设置用户名和密码,联想电脑怎样设密码?联想电脑设置密码方法步骤【图文】...
  9. Problem B: 结构体---职工信息结构体
  10. flex中DataGrid里使用itemRenderer后数据无法绑定到数据源的问题
  11. 查看mysql连接数_查看mysql 连接数
  12. 【报告分享】2020中国248家独角兽报告.pdf(附下载链接)
  13. 关于忘记MySQL的root用户密码的问题
  14. 【Part1】用JS写一个Blog(node + vue + mongoDB)
  15. Ibatis2.0使用说明(二)——配置篇(2)
  16. 你的项目应当使用Spring Boot吗?(译文)
  17. Java初级程序员学习路线→中高级程序员
  18. 将特殊的字符串转换为字典
  19. 流失玩家高达500万 DNF“遗孀”成香饽饽
  20. 论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning

热门文章

  1. office 2010 安装出错
  2. stm32中堆、栈、flash、ROM、RAM、bss段、data段、text段、Code、Ro-data、 ZI-data、RW-data简介
  3. CODEVS 1258 关路灯
  4. 产生调幅波的几种方法
  5. 解决webpack打包css时CssSyntaxError的问题
  6. 成长有方法:爆发式成长的25个思维模型
  7. zk的session
  8. Linux从图形界面切换到文本界面快捷键不好用的解决方法
  9. 学python编程能做什么项目_十个Python练手的实战项目,学会这些Python就基本没问题了...
  10. openwrt 认证收费_在OpenWrt中安装Wiwiz实现portal认证