APP流量识别与分类论文分析
论文分析---APP流量分类
亮点
1.1APP分类
1.2模糊数据处理
1.3提高可靠性(训练集和测试集数据来自一次提取还是不同时间提取)
1.4对比时间,版本,设备改变,操作系统版本改变的影响
1.数据获取方法:一个模拟服务器,一个安卓虚拟机,脚本在服务器模拟数据输入,用ADB命令发送给安卓虚拟机,进而在服务器捕获流量(这种方法称为UI fuzing),一次一个应用程序,最大限度减少网络噪音,但用与手机操作系统和其他应用程序本身的流量,仍然会有噪音,在通过一个网络日志工具与解复用脚本结合,进而对流量进行过滤--仅包含TCP流量,且无错误 过滤掉了网络重传,除目标APP外的其他应用
110中最常用的免费APP(因为免费的APP一般都会有广告库,而且广告库一般在APP间进行共享),每个APP用来自安卓SDK的MonkeyRunner通过UIfuzzing方式运行30分钟
(UIfuzzing通过调用UI事件进行模拟,Dynodroid [33]等框架提供的高级UI模拟技术,或者通过招募人类参与者,未研究)
2.数据分割:分割为突发流量(阀值1s,实时流量),,根据阀值中最长流量最为该阀值的流量,此过程放弃所有有负载和DNS流
3.特征:考虑三个维度:coming流大小,going流大小,coming+going流大小
每个维度:最小值,最大值,平均值,中位数绝对偏差,标准偏差,方差,偏斜度,峰度,百分位数(从10%到90%)和 包总数(共18个)。一共54个统计特征
4.分为初步分类器(python库函数,调用随机森林,不改参数,初步训练集75%,初步测试集25%,平均1132个流,随机轮换测试50次,根据精确度反向获取模糊流量,验证误标数据基本上都是第三方库流量)
增强分类器(对误标数据进行增强学习分类)
web框架运用在APP上,效果不如新的框架
训练数据与测试数据来自同一次采集准确率比多次数据 73.1%--40.9%
对比实验,通过多组数据对比获取最终的结果。
噪声处理:
1》对于实验环境,利用网络日志进行过滤噪音
2》对于真实环境,对于训练数据进行噪声过滤,对与测试数据集采取噪声忽略
3》对于真实环境,噪声管理,允许分类器学习,自动区分
模糊检测:
模糊流量是指不同APP中的相同第三方库函数产生的流量 增强学习 对其进行重新标签40.9%--74.8%
分类验证:
一个流最后对于每一类都有一个概率,通过高的预测概率阀值,导致有些流可以分类,有些流不能分类,标为模糊流,通过增强学习,进行分类,这样会减少流分类成功的数目,高精确率低低分类数,低精确率高分类数。获取 74.8%--96.5%
图:CDF图(累计分布图,概率密度函数的积分)
缺陷
1:没能进行模拟实时采集流量或真实流量进行训练
2:流量覆盖(本片论文并没有涉及)
3:程序的行为是通过UI fuzing获取的,固定的操作,与实际相差较大,不能覆盖全部代码,而且提取的时间有限,不能覆盖各个时间段
4:110种准确率低70%多,40多种准确率才可以达到96%(但这是在对彼得情况下)
5:模糊检测
APP流量识别与分类论文分析相关推荐
- 使用nodejs机器学习进行app流量判别
或许js和python能混写?或许nodejs也能完成机器学习? 前言 app流量识别是无数计算机学生的毕设,虽然是一个有些陈词滥调的题目,但是这个毕设还是治好了我的人工智能ptsd.很早就知道淘宝工 ...
- 加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview
加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview 0.摘要 1.介绍 2.网络流量分类流程框架 2. ...
- 加密流量分类-论文11 FlowPic: A Generic Representation for Encrypted Traffic Classification and Applications
FlowPic: A Generic Representation for Encrypted Traffic Classification and Applications Identificati ...
- 【网络流量识别】【深度学习】【一】IRNN和LSTM—网络入侵检测系统深度学习方法的比较分析(N-IDS):N-IDS 的深度学习
说在前面:由于博主刚入门学习网络流量识别和检测这块,所以对于一些介绍里面的理论知识可能会全部摘抄下来,不过本系列写着写着基础知识就会少了.然后写方法,简单写一下方法的原理和原理图,最后说一下数据集和结 ...
- 用yara实现分析恶意样本_Yara –识别和分类恶意软件样本
用yara实现分析恶意样本 Yara is a popular open source tool used to identify and classify Malware Samples. It i ...
- 【毕业设计_课程设计】基于机器学习的情感分类与分析算法设计与实现(源码+论文)
文章目录 0 项目说明 1 研究目的 2 研究方法 3 研究结论 4 项目流程 4.1 获取微博文本 4.2 SVM初步分类 4.3 使用朴素贝叶斯分类 4.4 AdaBoost 4.4.1 二分类A ...
- 加密流量分类-论文6:Learning to Classify A Flow-Based Relation Network for Encrypted Traffic Classification
加密流量分类-论文6:Learning to Classify A Flow-Based Relation Network for Encrypted Traffic Classification 0 ...
- CVPR 2022上人脸识别相关的论文分类整理
人脸识别是AI研究的一个重要的方向,CVPR 2022也有很多相关的论文,本篇文章将针对不同的应用分类进行整理,希望对你有帮助 人脸识别 人脸识是一个热门话题,在当前的基准测试中要以相当大的提升击败 ...
- 加密流量分类-论文5:MATEC_A_lightweight_neural_network_for_online_encrypted_traffic
加密流量分类-论文5:MATEC_A_lightweight_neural_network_for_online_encrypted_traffic 0.摘要 1.问题引入 2.流分类的相关工作(综述 ...
最新文章
- 数据文件实验#OCP#
- TSC的分歧导致Node.js分支
- (Mybatis)lombok使用
- java json 转map_Java对接Omni/USDT教程「OmniTool.Java」
- CodeVS 1081 线段树练习 2
- UIImageJPEGRepresentation和UIImagePNGRepresentation
- CentOS 7 安装 JDK
- GitHub+Hexo搭建自己的Blog之-本地环境部署01
- 微信公布7月朋友圈十大谣言 包括“奥运冠军杨倩被奖励1600万”等
- linux pdf to txt,PDF转换为TXT
- XML和HTML的区别
- 武汉音乐学院计算机音乐,武汉音乐学院
- 对‘cv::imread(cv::String const, int)’未定义的引用
- P1563 [NOIP2016 提高组] 玩具谜题
- Ubuntu 14.04 LTS 启动blast2go 报错
- echarts树形结构实现组织架构图
- 总线功能模型 BFM
- 【得物技术】如何测试概率性事件 - 二项分布置信区间
- 枚举法用什么算法结构计算机,计算机常用算法枚举算法2-2014
- JQuery 多选下拉列表左右移动
热门文章
- 说说那几款查看源代码的工具
- 我是学计算机的表情包,计算机考试表情包 - 计算机考试微信表情包 - 计算机考试QQ表情包 - 发表情 fabiaoqing.com...
- RK3128 Android4.4蓝牙音箱模式开发总结
- 雨林木风高仿XP系统 3.0版下载地址
- 今天看了《变形金刚.剧场版》,突来灵感PS了一下柯博文,但愿不要被博派看见了!
- 指令系统的发展和改进、RICS的基本原则
- 土地利用(覆盖)数据下载汇总
- WebAR框架/开发工具汇总整理大集合
- 树莓派显示不能全屏问题解决记录
- Matplotlib图形中文无法命名解决步骤