论文分析---APP流量分类

亮点

1.1APP分类

1.2模糊数据处理

1.3提高可靠性(训练集和测试集数据来自一次提取还是不同时间提取)

1.4对比时间,版本,设备改变,操作系统版本改变的影响

1.数据获取方法:一个模拟服务器,一个安卓虚拟机,脚本在服务器模拟数据输入,用ADB命令发送给安卓虚拟机,进而在服务器捕获流量(这种方法称为UI fuzing),一次一个应用程序,最大限度减少网络噪音,但用与手机操作系统和其他应用程序本身的流量,仍然会有噪音,在通过一个网络日志工具与解复用脚本结合,进而对流量进行过滤--仅包含TCP流量,且无错误 过滤掉了网络重传,除目标APP外的其他应用

110中最常用的免费APP(因为免费的APP一般都会有广告库,而且广告库一般在APP间进行共享),每个APP用来自安卓SDK的MonkeyRunner通过UIfuzzing方式运行30分钟

(UIfuzzing通过调用UI事件进行模拟,Dynodroid [33]等框架提供的高级UI模拟技术,或者通过招募人类参与者,未研究)

2.数据分割:分割为突发流量(阀值1s,实时流量),,根据阀值中最长流量最为该阀值的流量,此过程放弃所有有负载和DNS流

3.特征:考虑三个维度:coming流大小,going流大小,coming+going流大小

每个维度:最小值,最大值,平均值,中位数绝对偏差,标准偏差,方差,偏斜度,峰度,百分位数(从10%到90%)和 包总数(共18个)。一共54个统计特征

4.分为初步分类器(python库函数,调用随机森林,不改参数,初步训练集75%,初步测试集25%,平均1132个流,随机轮换测试50次,根据精确度反向获取模糊流量,验证误标数据基本上都是第三方库流量)

增强分类器(对误标数据进行增强学习分类)

web框架运用在APP上,效果不如新的框架

训练数据与测试数据来自同一次采集准确率比多次数据 73.1%--40.9%

对比实验,通过多组数据对比获取最终的结果。

噪声处理:

1》对于实验环境,利用网络日志进行过滤噪音

2》对于真实环境,对于训练数据进行噪声过滤,对与测试数据集采取噪声忽略

3》对于真实环境,噪声管理,允许分类器学习,自动区分

模糊检测:

模糊流量是指不同APP中的相同第三方库函数产生的流量 增强学习 对其进行重新标签40.9%--74.8%

分类验证:

一个流最后对于每一类都有一个概率,通过高的预测概率阀值,导致有些流可以分类,有些流不能分类,标为模糊流,通过增强学习,进行分类,这样会减少流分类成功的数目,高精确率低低分类数,低精确率高分类数。获取 74.8%--96.5%

图:CDF图(累计分布图,概率密度函数的积分)

缺陷

1:没能进行模拟实时采集流量或真实流量进行训练

2:流量覆盖(本片论文并没有涉及)

3:程序的行为是通过UI fuzing获取的,固定的操作,与实际相差较大,不能覆盖全部代码,而且提取的时间有限,不能覆盖各个时间段

4:110种准确率低70%多,40多种准确率才可以达到96%(但这是在对彼得情况下)

5:模糊检测

APP流量识别与分类论文分析相关推荐

  1. 使用nodejs机器学习进行app流量判别

    或许js和python能混写?或许nodejs也能完成机器学习? 前言 app流量识别是无数计算机学生的毕设,虽然是一个有些陈词滥调的题目,但是这个毕设还是治好了我的人工智能ptsd.很早就知道淘宝工 ...

  2. 加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview

    加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview 0.摘要 1.介绍 2.网络流量分类流程框架 2. ...

  3. 加密流量分类-论文11 FlowPic: A Generic Representation for Encrypted Traffic Classification and Applications

    FlowPic: A Generic Representation for Encrypted Traffic Classification and Applications Identificati ...

  4. 【网络流量识别】【深度学习】【一】IRNN和LSTM—网络入侵检测系统深度学习方法的比较分析(N-IDS):N-IDS 的深度学习

    说在前面:由于博主刚入门学习网络流量识别和检测这块,所以对于一些介绍里面的理论知识可能会全部摘抄下来,不过本系列写着写着基础知识就会少了.然后写方法,简单写一下方法的原理和原理图,最后说一下数据集和结 ...

  5. 用yara实现分析恶意样本_Yara –识别和分类恶意软件样本

    用yara实现分析恶意样本 Yara is a popular open source tool used to identify and classify Malware Samples. It i ...

  6. 【毕业设计_课程设计】基于机器学习的情感分类与分析算法设计与实现(源码+论文)

    文章目录 0 项目说明 1 研究目的 2 研究方法 3 研究结论 4 项目流程 4.1 获取微博文本 4.2 SVM初步分类 4.3 使用朴素贝叶斯分类 4.4 AdaBoost 4.4.1 二分类A ...

  7. 加密流量分类-论文6:Learning to Classify A Flow-Based Relation Network for Encrypted Traffic Classification

    加密流量分类-论文6:Learning to Classify A Flow-Based Relation Network for Encrypted Traffic Classification 0 ...

  8. CVPR 2022上人脸识别相关的论文分类整理

    人脸识别是AI研究的一个重要的方向,CVPR 2022也有很多相关的论文,本篇文章将针对不同的应用分类进行整理,希望对你有帮助 人脸识别 人脸识是一个热门话题,在当前的基准测试中要以相当大的提升击败 ...

  9. 加密流量分类-论文5:MATEC_A_lightweight_neural_network_for_online_encrypted_traffic

    加密流量分类-论文5:MATEC_A_lightweight_neural_network_for_online_encrypted_traffic 0.摘要 1.问题引入 2.流分类的相关工作(综述 ...

最新文章

  1. 数据文件实验#OCP#
  2. TSC的分歧导致Node.js分支
  3. (Mybatis)lombok使用
  4. java json 转map_Java对接Omni/USDT教程「OmniTool.Java」
  5. CodeVS 1081 线段树练习 2
  6. UIImageJPEGRepresentation和UIImagePNGRepresentation
  7. CentOS 7 安装 JDK
  8. GitHub+Hexo搭建自己的Blog之-本地环境部署01
  9. 微信公布7月朋友圈十大谣言 包括“奥运冠军杨倩被奖励1600万”等
  10. linux pdf to txt,PDF转换为TXT
  11. XML和HTML的区别
  12. 武汉音乐学院计算机音乐,武汉音乐学院
  13. 对‘cv::imread(cv::String const, int)’未定义的引用
  14. P1563 [NOIP2016 提高组] 玩具谜题
  15. Ubuntu 14.04 LTS 启动blast2go 报错
  16. echarts树形结构实现组织架构图
  17. 总线功能模型 BFM
  18. 【得物技术】如何测试概率性事件 - 二项分布置信区间
  19. 枚举法用什么算法结构计算机,计算机常用算法枚举算法2-2014
  20. JQuery 多选下拉列表左右移动

热门文章

  1. 说说那几款查看源代码的工具
  2. 我是学计算机的表情包,计算机考试表情包 - 计算机考试微信表情包 - 计算机考试QQ表情包 - 发表情 fabiaoqing.com...
  3. RK3128 Android4.4蓝牙音箱模式开发总结
  4. 雨林木风高仿XP系统 3.0版下载地址
  5. 今天看了《变形金刚.剧场版》,突来灵感PS了一下柯博文,但愿不要被博派看见了!
  6. 指令系统的发展和改进、RICS的基本原则
  7. 土地利用(覆盖)数据下载汇总
  8. WebAR框架/开发工具汇总整理大集合
  9. 树莓派显示不能全屏问题解决记录
  10. Matplotlib图形中文无法命名解决步骤