【论文阅读】基于混淆的加强网络安全的方法
基于混淆的加强网络安全的方法
- 一、摘要:
- 二、相关工作
- 1 相关检测工作:
- (1)排名算法:
- (2)用户行为分析:
- (3)网页质量:
- (4)机器学习:
- 2 相关集成工作:
- (1)非加权投票:
- (2)最小二乘:
- (3)似然组合:
- (4)门控网络:
- (5)堆叠:
- 三、具体做法:
- (1)数据集、预处理、特征提取、洗数据
- (2)模型
- (3)模糊投票计算得分
- (4)测试
- (5)评估得分
原文链接:https://ieeexplore.ieee.org/abstract/document/9330553
一、摘要:
背景:web垃圾网页是一种不公平的做法,它采取不道德的措施改变了搜索引擎的排名方法,以提高搜索引擎的搜索结果。
本文贡献:本文提出了用于网络垃圾邮件检测的框架Cognitive spammer framework(CSF),从而对搜索引擎结果页面进行校正。
CSF通过三个机器学习分类器和基于模糊规则的分类器来检测web垃圾网页,其中每个分类器为网页采用QAIR进行质量评分。然后,这些质量分数被综合起来生成一个分数,这个分数可以预测网页的垃圾信息。CSF集成了这几个模型,建立起了一个智能模型,旨在提高ML模型的精度。(感觉也可以用作购物网站筛选评论、屏蔽广告刷单一类的操作)
二、相关工作
1 相关检测工作:
现有的技术,主要集中在恶意网页被搜索引擎索引后的检测。
(1)排名算法:
谷歌遵循排名算法,PageRank计算网页的排名得分。但是,垃圾邮件发送者仍然试图操纵搜索结果。例如,作者[13]以这种方式更新了PageRank算法,以便在恶意网页出现在搜索结果之前检测到它们。
(2)用户行为分析:
用户行为分析是检测垃圾网页的一个很好的参数。一个网页的相关性是通过用户花费的时间和点击次数来预测的。所提出的web垃圾邮件检测方案考虑了停留时间和点击次数两个因素。
(3)网页质量:
分析网页质量可以帮助计算其重要性。计算网页质量评分,建立的模型称为内容信任模型。
(4)机器学习:
它是在不同领域发挥不同作用的范式。它是进行实验和验证垃圾邮件检测算法的核心。它预测了用来形成垃圾网页的网页特征的合并。利用大量合并的网页特征训练ML模型,以标准数据集成功检测垃圾网页。
2 相关集成工作:
(1)非加权投票:
每个分类器不仅产生分类决策,而且产生类概率估计。由所有分类器产生的估计量组合在式2中。在这个方程中,hl是分类器,结果是在数据点x处对k的真实预测。
(2)最小二乘:
这种方法用于回归问题。该方法以最大权重为目标,提高了集成模型的精度。应用的原理是,由hl估计的方差与hl的权重成反比。
(3)似然组合:
该方法适用于分类问题。该方法根据独立的分类器权重计算每个分类器的精度。该方法采用先验分布P(hl)与估计似然P(S|hl)相乘的方法。
(4)门控网络:
它是一种组合分类器的方法,接受输入x并产生输出wl
(5)堆叠:
它是通过遗漏一个交叉验证实现的。对于每个分类器和每个训练集,都会产生一个组合假设。在下一个迭代中,除了最后一个迭代之外,使用相同的过程。
三、具体做法:
(1)数据集、预处理、特征提取、洗数据
使用米兰大学的网络算法实验室发起的公开数据集(WEBSPAMUK2007)。数据集中,用包含2/3标签的SET1训练。进行预处理,采用PCA进行特征提取;然后使用一种过采样方法SOTU洗数据。
特征提取展示前七个:
特征选择:采用特征排序方法,即随机森林,计算特征的重要性。为特征排序计算的分数是“基尼指数”。不同的特征构成了树的不同节点。基尼值是为每个叶子计算的,无论是父叶子还是子叶子。然后,利用这些基尼值计算平均下降基尼值。选择的最优特性为:hostid, La-
bel, eq hp mp, indegree hp, indegree mp, outdegree hp, outdegree mp, pagerank hp, pagerank mp, trustrank hp,trustrank mp, truncatedpagerank 1 hp , truncatedpagerank 1 mp.
(2)模型
设计了三个机器学习分类器(Bagged Mars(缺点:新知识并不能很好地归纳), Bayesian广义线性模型,boosting线性模型)和一个基于模糊规则的分类器(FRBC)(由IF-THEN规则组成)。
分类规则:
1)收集每个分类器的输出,即网页的质量评分向量Vi。
2)将0到1范围内的每个向量归一化。
3)分数越接近0,垃圾网页的概率越高。分数越接近1,说明网页质量越好。0.5为分界线。
4)使用生成所有选票的组合。n为分类器个数,hi为每个分类器产生的假设。
三个机器学习算法ROC曲线分别如下图所示:
(3)模糊投票计算得分
采用模糊投票法对计算得分,所提出的模糊投票集成方法提高了模型的性能。
(4)测试
在标准数据集WEBSPAM-UK 2007上另外1/3的SET2用于测试。
(5)评估得分
结果如下:
达到了97.3%的Accuracy。
作者也比较了不同大小的训练集和测试集对于实验结果的影响,发现在训练集和测试集8:2的情况下效果比较好。
【论文阅读】基于混淆的加强网络安全的方法相关推荐
- 论文阅读|基于图神经网络的配电网故障定位方法
来源:北京交通大学硕士学位论文,2022 摘要 电网拓扑形态多样,重构场景频繁,,传统故障定位方法的单一阈值设定无法满足要求,基于人工智能的配电网故障定位技术具有很大的应用潜力,但仍存在着拓扑关联性差 ...
- 蚂蚁金服AAAI论文:基于长短期老师的样本蒸馏方法和自动车险定损系统的最新突破...
来源 | 蚂蚁金服 出品 | AI科技大本营(ID:rgznai100) 一年一度在人工智能方向的顶级会议之一AAAI 2020于2月7日至12日在美国纽约举行,旨在汇集世界各地的人工智能理论和领域应 ...
- [软件工程程序修复论文阅读]基于代码感知机器翻译的程序修复
本文约2871字,预计阅读时长6分钟. 原文标题为CURE: Code-Aware Neural Machine Translation for Automatic Program Repair 论文 ...
- 硕士论文阅读——基于机器视觉和深度学习的工人安全帽检测与身份识别方法
文章目录 零.摘要 一.绪论 1.背景与研究意义 2.国内外研究现状 (1)安全帽佩戴检测研究现状与不足 (2)身份识别研究现状与不足 (3)基于深度学习的目标检测 二.深度学习目标检测理论 1.卷积 ...
- 论文阅读——基于文档主题结构的关键词抽取方法研究(理解)
1.引言 1.1关键词自动标注的主要方式与算法 关键词自动标注主要有两种方式:关键词抽取与关键词分配. 关键词抽取,是从文档内容中寻找并推荐关键词 关键词分配,是从一个预先构造好的受控词表(contr ...
- 论文精读-基于双目图像的视差估计方法研究以及实现
基于双目图像的视差估计方法研究及实现 第一章 绪论 1.1 课题的研究背景与意义 1.2 双目视差估计的研究现状 1.2.1 传统立体匹配方法研究现状 1.2.2 统计学习方法研究现状 1.2.3 深 ...
- 论文《基于深度学习的表面缺陷检测方法综述》学习笔记
<基于深度学习的表面缺陷检测方法综述>学习笔记 前段时间完成了<基于图像的零部件缺陷识别系统设计>毕业课程设计,过程中收获了很多,老师也分享了很多论文,在此记录一下学习的收获. ...
- 论文阅读|基于领域知识图谱的多文档摘要生成与应用
论文地址:基于领域知识图谱的多文档摘要生成与应用 先验知识 1.多文档摘要技术: (理解:类似于每篇文章的摘要.关键词,方便通过标签筛选是否是你需要的内容) 利用计算机将同一主题下或者不同主题下的多篇 ...
- 论文阅读-基于遗传算法的NAS
hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Genetic CNN,这是一篇将标准遗传算法应用于NAS的论文,我们一起看看吧~ 基础知识: 遗传算法:模仿生物进化的过程.传统的遗传算法往往具有 ...
最新文章
- Spring Cloud Alibaba 基础教程:Nacos 生产级版本 0.8.0
- 计蒜客 神奇的二叉树 ( 已知先序和中序遍历构建二叉树 )
- JAVA test代码运行
- SQL SERVER 事务处理
- Qt学习笔记-简单的UDP广播包聊天室
- Windows7与Window2008 64位IIS7上面DCOM配置Excel、Word
- C++_引用_常量引用_函数_函数的默认参数---C++语言工作笔记033
- 互联网反欺诈体系中的常用技术和数据类型
- 局域网 —— VLAN
- 谷歌有情怀!谷歌开放大规模音频数据集 AudioSet
- 《Cisco安全防火墙服务模块(FWSM)解决方案》——2.6 硬件架构
- nirsoft,很好的工具库
- vue 手写图片左右跑马灯 效果
- [xhr4412][extension 4] u-boot-2020.07 DM9621 网卡驱动移植
- C/C++编程:异步编程入门
- Spring5 框架
- 项目管理--统筹兼顾
- PCIe转PXI 套件 PXI远程控制器
- 【ML31】Advanced K-means clustering algorithm
- Jons处理工具类JsonKit
热门文章
- 《CorelDraw》课程标准
- 社交类产品创业难点在哪儿?
- [教你做小游戏] 用86行代码写一个联机五子棋WebSocket后端
- 关于重装系统无法连接网络问题的解决方法
- 洛谷P1860——新魔法药水
- 欧姆龙NJ/NXPLC 全ST程序案例
- 对接第三方顺丰丰桥下单Api接口实战教程java
- 字节Java高级岗:K8S太火了!花10分钟玩转它不香么
- 【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss
- python文件读取方法read(size)的含义是_Python file read()方法