基于混淆的加强网络安全的方法

  • 一、摘要:
  • 二、相关工作
    • 1 相关检测工作:
      • (1)排名算法:
      • (2)用户行为分析:
      • (3)网页质量:
      • (4)机器学习:
    • 2 相关集成工作:
      • (1)非加权投票:
      • (2)最小二乘:
      • (3)似然组合:
      • (4)门控网络:
      • (5)堆叠:
  • 三、具体做法:
    • (1)数据集、预处理、特征提取、洗数据
    • (2)模型
    • (3)模糊投票计算得分
    • (4)测试
    • (5)评估得分

原文链接:https://ieeexplore.ieee.org/abstract/document/9330553

一、摘要:


背景:web垃圾网页是一种不公平的做法,它采取不道德的措施改变了搜索引擎的排名方法,以提高搜索引擎的搜索结果。


本文贡献:本文提出了用于网络垃圾邮件检测的框架Cognitive spammer framework(CSF),从而对搜索引擎结果页面进行校正。


CSF通过三个机器学习分类器和基于模糊规则的分类器来检测web垃圾网页,其中每个分类器为网页采用QAIR进行质量评分。然后,这些质量分数被综合起来生成一个分数,这个分数可以预测网页的垃圾信息。CSF集成了这几个模型,建立起了一个智能模型,旨在提高ML模型的精度。(感觉也可以用作购物网站筛选评论、屏蔽广告刷单一类的操作)

二、相关工作

1 相关检测工作:

现有的技术,主要集中在恶意网页被搜索引擎索引后的检测。

(1)排名算法:

谷歌遵循排名算法,PageRank计算网页的排名得分。但是,垃圾邮件发送者仍然试图操纵搜索结果。例如,作者[13]以这种方式更新了PageRank算法,以便在恶意网页出现在搜索结果之前检测到它们。

(2)用户行为分析:

用户行为分析是检测垃圾网页的一个很好的参数。一个网页的相关性是通过用户花费的时间和点击次数来预测的。所提出的web垃圾邮件检测方案考虑了停留时间和点击次数两个因素。

(3)网页质量:

分析网页质量可以帮助计算其重要性。计算网页质量评分,建立的模型称为内容信任模型。

(4)机器学习:

它是在不同领域发挥不同作用的范式。它是进行实验和验证垃圾邮件检测算法的核心。它预测了用来形成垃圾网页的网页特征的合并。利用大量合并的网页特征训练ML模型,以标准数据集成功检测垃圾网页。

2 相关集成工作:

(1)非加权投票:

每个分类器不仅产生分类决策,而且产生类概率估计。由所有分类器产生的估计量组合在式2中。在这个方程中,hl是分类器,结果是在数据点x处对k的真实预测。

(2)最小二乘:

这种方法用于回归问题。该方法以最大权重为目标,提高了集成模型的精度。应用的原理是,由hl估计的方差与hl的权重成反比。

(3)似然组合:

该方法适用于分类问题。该方法根据独立的分类器权重计算每个分类器的精度。该方法采用先验分布P(hl)与估计似然P(S|hl)相乘的方法。

(4)门控网络:

它是一种组合分类器的方法,接受输入x并产生输出wl

(5)堆叠:

它是通过遗漏一个交叉验证实现的。对于每个分类器和每个训练集,都会产生一个组合假设。在下一个迭代中,除了最后一个迭代之外,使用相同的过程。

三、具体做法:

(1)数据集、预处理、特征提取、洗数据

使用米兰大学的网络算法实验室发起的公开数据集(WEBSPAMUK2007)。数据集中,用包含2/3标签的SET1训练。进行预处理,采用PCA进行特征提取;然后使用一种过采样方法SOTU洗数据。

特征提取展示前七个:

特征选择:采用特征排序方法,即随机森林,计算特征的重要性。为特征排序计算的分数是“基尼指数”。不同的特征构成了树的不同节点。基尼值是为每个叶子计算的,无论是父叶子还是子叶子。然后,利用这些基尼值计算平均下降基尼值。选择的最优特性为:hostid, La-
bel, eq hp mp, indegree hp, indegree mp, outdegree hp, outdegree mp, pagerank hp, pagerank mp, trustrank hp,trustrank mp, truncatedpagerank 1 hp , truncatedpagerank 1 mp.

(2)模型

设计了三个机器学习分类器(Bagged Mars(缺点:新知识并不能很好地归纳), Bayesian广义线性模型,boosting线性模型)和一个基于模糊规则的分类器(FRBC)(由IF-THEN规则组成)。
分类规则:
1)收集每个分类器的输出,即网页的质量评分向量Vi。
2)将0到1范围内的每个向量归一化。
3)分数越接近0,垃圾网页的概率越高。分数越接近1,说明网页质量越好。0.5为分界线。
4)使用生成所有选票的组合。n为分类器个数,hi为每个分类器产生的假设。
三个机器学习算法ROC曲线分别如下图所示:


(3)模糊投票计算得分

采用模糊投票法对计算得分,所提出的模糊投票集成方法提高了模型的性能。

(4)测试

在标准数据集WEBSPAM-UK 2007上另外1/3的SET2用于测试。

(5)评估得分

结果如下:
达到了97.3%的Accuracy。



作者也比较了不同大小的训练集和测试集对于实验结果的影响,发现在训练集和测试集8:2的情况下效果比较好。

【论文阅读】基于混淆的加强网络安全的方法相关推荐

  1. 论文阅读|基于图神经网络的配电网故障定位方法

    来源:北京交通大学硕士学位论文,2022 摘要 电网拓扑形态多样,重构场景频繁,,传统故障定位方法的单一阈值设定无法满足要求,基于人工智能的配电网故障定位技术具有很大的应用潜力,但仍存在着拓扑关联性差 ...

  2. 蚂蚁金服AAAI论文:基于长短期老师的样本蒸馏方法和自动车险定损系统的最新突破...

    来源 | 蚂蚁金服 出品 | AI科技大本营(ID:rgznai100) 一年一度在人工智能方向的顶级会议之一AAAI 2020于2月7日至12日在美国纽约举行,旨在汇集世界各地的人工智能理论和领域应 ...

  3. [软件工程程序修复论文阅读]基于代码感知机器翻译的程序修复

    本文约2871字,预计阅读时长6分钟. 原文标题为CURE: Code-Aware Neural Machine Translation for Automatic Program Repair 论文 ...

  4. 硕士论文阅读——基于机器视觉和深度学习的工人安全帽检测与身份识别方法

    文章目录 零.摘要 一.绪论 1.背景与研究意义 2.国内外研究现状 (1)安全帽佩戴检测研究现状与不足 (2)身份识别研究现状与不足 (3)基于深度学习的目标检测 二.深度学习目标检测理论 1.卷积 ...

  5. 论文阅读——基于文档主题结构的关键词抽取方法研究(理解)

    1.引言 1.1关键词自动标注的主要方式与算法 关键词自动标注主要有两种方式:关键词抽取与关键词分配. 关键词抽取,是从文档内容中寻找并推荐关键词 关键词分配,是从一个预先构造好的受控词表(contr ...

  6. 论文精读-基于双目图像的视差估计方法研究以及实现

    基于双目图像的视差估计方法研究及实现 第一章 绪论 1.1 课题的研究背景与意义 1.2 双目视差估计的研究现状 1.2.1 传统立体匹配方法研究现状 1.2.2 统计学习方法研究现状 1.2.3 深 ...

  7. 论文《基于深度学习的表面缺陷检测方法综述》学习笔记

    <基于深度学习的表面缺陷检测方法综述>学习笔记 前段时间完成了<基于图像的零部件缺陷识别系统设计>毕业课程设计,过程中收获了很多,老师也分享了很多论文,在此记录一下学习的收获. ...

  8. 论文阅读|基于领域知识图谱的多文档摘要生成与应用

    论文地址:基于领域知识图谱的多文档摘要生成与应用 先验知识 1.多文档摘要技术: (理解:类似于每篇文章的摘要.关键词,方便通过标签筛选是否是你需要的内容) 利用计算机将同一主题下或者不同主题下的多篇 ...

  9. 论文阅读-基于遗传算法的NAS

    hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Genetic CNN,这是一篇将标准遗传算法应用于NAS的论文,我们一起看看吧~ 基础知识: 遗传算法:模仿生物进化的过程.传统的遗传算法往往具有 ...

最新文章

  1. Spring Cloud Alibaba 基础教程:Nacos 生产级版本 0.8.0
  2. 计蒜客 神奇的二叉树 ( 已知先序和中序遍历构建二叉树 )
  3. JAVA test代码运行
  4. SQL SERVER 事务处理
  5. Qt学习笔记-简单的UDP广播包聊天室
  6. Windows7与Window2008 64位IIS7上面DCOM配置Excel、Word
  7. C++_引用_常量引用_函数_函数的默认参数---C++语言工作笔记033
  8. 互联网反欺诈体系中的常用技术和数据类型
  9. 局域网 —— VLAN
  10. 谷歌有情怀!谷歌开放大规模音频数据集 AudioSet
  11. 《Cisco安全防火墙服务模块(FWSM)解决方案》——2.6 硬件架构
  12. nirsoft,很好的工具库
  13. vue 手写图片左右跑马灯 效果
  14. [xhr4412][extension 4] u-boot-2020.07 DM9621 网卡驱动移植
  15. C/C++编程:异步编程入门
  16. Spring5 框架
  17. 项目管理--统筹兼顾
  18. PCIe转PXI 套件 PXI远程控制器
  19. 【ML31】Advanced K-means clustering algorithm
  20. Jons处理工具类JsonKit

热门文章

  1. 《CorelDraw》课程标准
  2. 社交类产品创业难点在哪儿?
  3. [教你做小游戏] 用86行代码写一个联机五子棋WebSocket后端
  4. 关于重装系统无法连接网络问题的解决方法
  5. 洛谷P1860——新魔法药水
  6. 欧姆龙NJ/NXPLC 全ST程序案例
  7. 对接第三方顺丰丰桥下单Api接口实战教程java
  8. 字节Java高级岗:K8S太火了!花10分钟玩转它不香么
  9. 【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss
  10. python文件读取方法read(size)的含义是_Python file read()方法