基于随机森林和规则抽取框架的防钓鱼浏览器开发

网络钓鱼是一种受到社会工程攻击的技术，最广泛用于获取用户敏感信息，例如登录凭据和信用卡和借记卡信息等。它是由伪装成真实个体的人执行的。为了保护网络用户免受这些攻击，开发了各种反网络钓鱼技术，但它们未能以各种方式保护用户免受这些攻击。在本文中，我们提出了一种新颖的技术，通过提出一种新颖的浏览器体系结构，可以在客户端毫不费力地识别网络钓鱼网站。在这个系统中，我们使用提取框架的规则来提取仅使用 URL 的网站的属性或特征。这个列表包含 30 个不同的 URL 属性，稍后随机森林分类机器学习模型将使用它来检测网站的真实性。由 11,055 个元组组成的数据集用于训练模型。这些过程是在重新设计的浏览器架构的帮助下在客户端执行的。今天研究人员提出了机器学习框架来检测钓鱼网站，但它们还没有达到可供没有技术知识的人使用的状态。为了确保每个人都可以使用这些工具，我们在名为“嵌入式网络钓鱼检测浏览器”(EPDB) 的浏览器架构中即兴创作并引入了检测方法，这是一种在提高安全性的同时保留现有用户体验的新方法. 新设计的浏览器架构引入了一个特殊的部分来实时执行网络钓鱼检测操作。我们已经对这种技术进行了原型设计，以确保最大的安全性，在实时识别钓鱼网站时准确率达到 99.36%。

介绍

因特网已经广泛传播到世界各地，涵盖了工作的各个领域。因此，依赖互联网开展业务的用户也大幅增加。这个数字引诱冒名顶替者进行他们的虚假操作。最终，最终用户变得更容易受到各种网络攻击。这些网络攻击的主要影响之一是影响互联网上的金融交易（2018 年网络钓鱼趋势和情报报告). 网络钓鱼是用来利用此类安全漏洞的流行技术之一。这是一种网络攻击，被描述为模仿真实企业合法网站的艺术，目的是获取对其机密信息的访问权。这些网站与真实网站具有极高的图形相似性（Jain 和 Gupta 2017）。通常，这些攻击是通过向受害者发送一个与真实网站完全相似的网站，要求他更新信息来实施的。检测和阻止网络钓鱼攻击对于保护个人在 Internet 上的安全和机密极为重要。研究提出了各种方法（Armano 等人，2016 年；Hu 等人，2016 年；Ma 等人，2016 年）。2009 年；罗伊等人。2013 年；Sahingoz 等人。2019 ; Williams and Li 2017）来解决这个突出的问题。然而，它们在某种程度上无法被每个人轻松使用。举个例子，有几种机器学习算法被开发来检测钓鱼网站。但是这些只能由技术用户使用。又如，研究人员想出了钓鱼检测网站来检查网站的真实性。缺点是这是一个手动过程，用户无法验证他访问的所有网站。甚至扩展也不是高效的，而且它们缺乏准确性和速度。

本文的主要目的是开发一种技术，让每个人都能轻松使用，实时准确地检测非法网站。检测过程在客户端进行，处理较少。EPDB 方法的新颖之处在于新设计的浏览器架构，它通过修改现有的浏览器架构来构建，引入一个名为“智能引擎”的新模块，负责轻松实时检测钓鱼网站。该模块由随机森林分类和规则提取框架组成。提取规则算法使用 30 种不同的特征来分析仅具有用户输入的 URL 的网站。然后随机森林分类算法使用此结果来确定其真实性。分类模型由数据集训练，由 11,055 个非法 URL 组成。智能引擎分析浏览器加载的每个网站。智能引擎和渲染引擎旨在以这样一种方式工作，即它们并行执行以最大限度地减少时间。具有 30 种不同的 URL 分析特征，可以检测各种 URL。分类模型保证了钓鱼网站识别的准确性。智能引擎模块减少了检测钓鱼网站的时间。总体而言，EPDB 技术已被证明能够以 99.36% 的准确率实时检测新生成的 URL。具有 30 种不同的 URL 分析特征，可以检测各种 URL。分类模型保证了钓鱼网站识别的准确性。智能引擎模块减少了检测钓鱼网站的时间。总体而言，EPDB 技术已被证明能够以 99.36% 的准确率实时检测新生成的 URL。具有 30 种不同的 URL 分析特征，可以检测各种 URL。分类模型保证了钓鱼网站识别的准确性。智能引擎模块减少了检测钓鱼网站的时间。总体而言，EPDB 技术已被证明能够以 99.36% 的准确率实时检测新生成的 URL。

其余论文的结构如下：第二部分介绍了文献综述，第三部分介绍了系统分析。接下来是系统模型，即在第四节中。在第五节中，我们将介绍我们检测钓鱼网站的技术。我们通过与第 VI 节中现有方法的比较来评估所提出的 EPDB 模型的实际性能。最后，第 VII 节介绍了具有未来增强功能的最终说明。

问题陈述

犯罪分子使用网络钓鱼攻击窃取用户凭据以获取对用户私人数据的访问权限。根据联邦调查局 (FBI) 的（2017 年互联网犯罪报告nd）报告，2017 年检测到的网络钓鱼诈骗总数为 25,344 起，造成的总损失约为 29,703,421 美元。受网络钓鱼影响最大的领域是支付、金融机构、网络邮件、云存储/托管、商业/零售、电信、社交媒体。这些是网络钓鱼影响最大的主要领域。截至网络钓鱼实验室报告（2018 年网络钓鱼趋势和情报报告) 2017 年，超过 26% 的网络钓鱼攻击针对电子邮件/在线服务，超过 20% 的网络钓鱼攻击针对金融部门，约 16% 的网络钓鱼攻击针对支付服务。根据 APWG 2019 年每个季度发布的网络钓鱼活动趋势报告（APWG 趋势报告 2019 年第 1 季度；APWG 趋势报告 2019 年第2 季度； APWG趋势报告2019年第 3 季度； APWG趋势报告2019年第 4季度)，通过网络钓鱼网页进行的网络犯罪总数正在急剧增加，数量非常庞大。据说第二季度比2019年第一季度数量更多，也比2018年下半年要多很多。结合APWGs每季度发布的统计数据，我们可以看出钓鱼的总数图1中 2019 年每个月检测到的站点。根据 APWG 的数据，2019 年网络钓鱼攻击最有针对性的行业是 SAAS/Webmail，占 34%，其次是支付，占 23%，金融机构位居第三，占 18%，如图 2所示。为了控制这一点，大多数公司都在安全上投入了大量资金，平均为 1170 万美元。

图。1

2019 年网络钓鱼站点（APWG 趋势报告 2019 年第 1季度；APWG 趋势报告 2019 年第 2季度； APWG 趋势报告 2019 年第 3 季度； APWG趋势报告 2019 年第 4季度）

全尺寸图片

图 2

2019 年最受关注的行业（APWG 趋势报告 2019 年第一季度；APWG 趋势报告 2019 年第二季度；APWG 趋势报告 2019 年第三季度； APWG 趋势报告 2019 年第四季度）

全尺寸图片

系统型号

系统架构

EPDB 的拟议系统架构如图3所示。它旨在执行浏览器所需的所有操作，与此同时，引入了一个名为“智能引擎”的新模块，以执行在网上冲浪时检测钓鱼网站的操作。

图 3

嵌入式网络钓鱼检测浏览器 (EPDB) 的拟议架构

全尺寸图片

浏览器的主要组件如下：

用户界面：

它提供了一种用户可以与浏览器引擎交互的方式。它包含各种功能，如地址框、导航按钮、书签、收藏夹等。用户界面是浏览器中显示的部分，除了显示网页的窗口。

浏览器引擎：

浏览器引擎介于 UI 和渲染引擎之间，它确保了渲染引擎的高级接口。它提供了多种功能，例如加载网站和浏览网站。它还提供了一些因加载而发生的错误消息。

渲染引擎：

呈现引擎负责将 URL 转换为其图形形式。基本上，它是一个解释器，解释由 HTML、XML、CSS 等组成的网页。渲染引擎的核心是 HTML 解析器，负责解析 HTML 内容。总的来说，它生成一个布局以在用户界面中查看。

联网：

这使用各种协议，如 HTTP、HTTPs、FTP 等，通过用户请求的 URL 获取网站。它还负责为用户提供安全保障，建立安全的互联网连接，维护和密切互联网上两个最终用户之间的通信。它提供缓存经常访问的网站以减少网络流量的功能。

JavaScript 解释器：

JavaScript 解释器解释作为网页一部分出现的 JavaScript 代码，并将结果传递给渲染。它提供的功能使得它提供了多种选项来开发响应式、交互式的网页。

用户界面后端：

它调用操作系统方法来创建窗口、小部件和其他与图形相关的东西。

数据存储：

它提供了一个网络数据库功能来存储网页的阅读模式、书签、设置、cookies等。

智能引擎：

该部分负责实时检测钓鱼网站。它使用抽取框架的规则和随机森林分类器算法来识别网页的合法性。它从浏览器引擎获取 URL，对其进行验证，最后将消息发送到渲染引擎。如果消息表明该网站不合法，则呈现引擎会向用户弹出警报，并向用户提供返回安全或继续的选项。智能引擎的整个过程在渲染引擎渲染网页之前完成。该引擎会仔细检查用户在浏览网页时访问的每个网页。

性能分析

通过开发原型，对所提出的 EPDB 方法进行了实时性能分析。后来将其与现有系统进行了比较。下面将介绍所建议系统的方法，然后是分析结果。

方法

为了实时分析所提出的 EPDB 系统的性能，从头开始开发了一个具有可理解界面的浏览器。然后进行实验以模拟检测过程。实验是在 Windows 10 上完成的，在 2.1GHz 的双核奔腾处理器和 2GB 的内存和 Kali Linux 系统上。该浏览器使用 C# 和 Python 开发，并安装在 Windows 10 上。使用 Kali Linux 发行版上的高级工具创建了一个实时网络钓鱼网页。然后在运行新开发的浏览器的 Windows 10 PC 上使用 Kali Linux 发行版发起了各种攻击。记录结果。

评估结果

在第一个实验中，我们模拟了对正在开发的浏览器的实时攻击，并在全球最流行的 chrome 浏览器上进行了同样的攻击。令人惊讶的是，chrome 浏览器确实按原样呈现了恶意网页，但如图8所示的拟议 EPDB 确实将该网页识别为网络钓鱼网页，并向用户弹出有关攻击的警报消息。

图 8

带有网络钓鱼网站警报弹出消息的原型 EPDB

全尺寸图片

在第二个实验中，我们将各种其他分类模型（即逻辑回归和支持机器向量）与随机森林分类模型进行了比较。随机森林分类模型的准确率为 99.36%，F1 分数为 99.43%，三种模型的准确度、精确度、召回率和 F1 分数的详细比较如图 9所示。为了清楚地了解模型的性能指标，我们记录了所有三个模型的混淆矩阵，并进行了可视化，如图 10所示。

图 9

其他模型与训练好的随机森林分类器的比较

全尺寸图片

图 10

其他模型与训练好的随机森林分类器的混淆矩阵

全尺寸图片

在第三个实验中，我们使用其他研究人员开发的现有 chrome 扩展测试了我们的 EPDB 原型的速度，因为这是当今最常用的方法。原型 EPDB 模型平均花费大约四秒来分析网站并生成如表 4所示的结果. 由于取决于系统配置、服务器响应时间、互联网连接速度等某些因素，扩展平均需要大约 6 秒。与 chrome 扩展相比，EPDB 原型模型的开销减少了 33.3%。通过这个实验，我们可以得出结论，我们可以以更快的响应时间在网上冲浪时获得更好的速度。这个原型的这个因素克服了服务器端计算的缺点。即网络连接速度、由于流量大和服务器故障导致的服务器端计算开销。客户端计算使其成为过滤钓鱼网站的独立工具。

在本文中，我们提出了一种具有全新浏览器架构的安全网络浏览器。这通过实时提供更好的安全性来抵御网络钓鱼攻击，从而在用户上网时保护用户。到目前为止，所提出的原型表现良好，并且还获得了新的外观，为网页和 UI 提供了更广阔的视图区域。除此之外，在互联网世界中考虑安全性也很重要，因此具有智能引擎的浏览器可以保护用户免受钓鱼网站的攻击。最有趣的是，该引擎将实时保护您免受攻击者的侵害。该原型为用户提供了快速、可靠和安全的浏览体验。截至目前，该原型让用户获得安全优势以及浏览器的基本功能。将来，该项目可以对正常人的各个方面有所帮助。对于未来的范围和增强，可以对浏览器进行建模以实现无监督学习。截至目前，浏览器使用单一训练模型。将来，当用户遇到钓鱼网站时，浏览器会在我们的服务器中注册该网站的 URL。当前数据集的更新版本将通过收集全球所有用户的网络钓鱼 URL 来生成。之后，将使用新数据集构建一个新模型，并可以通过浏览器安全更新分发给所有用户。这可确保使用最新的网络钓鱼网站对模型进行训练。浏览器使用单一训练模型。将来，当用户遇到钓鱼网站时，浏览器会在我们的服务器中注册该网站的 URL。当前数据集的更新版本将通过收集全球所有用户的网络钓鱼 URL 来生成。之后，将使用新数据集构建一个新模型，并可以通过浏览器安全更新分发给所有用户。这可确保使用最新的网络钓鱼网站对模型进行训练。浏览器使用单一训练模型。将来，当用户遇到钓鱼网站时，浏览器会在我们的服务器中注册该网站的 URL。当前数据集的更新版本将通过收集全球所有用户的网络钓鱼 URL 来生成。之后，将使用新数据集构建一个新模型，并可以通过浏览器安全更新分发给所有用户。这可确保使用最新的网络钓鱼网站对模型进行训练。之后，将使用新数据集构建一个新模型，并可以通过浏览器安全更新分发给所有用户。这可确保使用最新的网络钓鱼网站对模型进行训练。之后，将使用新数据集构建一个新模型，并可以通过浏览器安全更新分发给所有用户。这可确保使用最新的网络钓鱼网站对模型进行训练。