ai驱动数据安全治理

Data gathering consists of many time-consuming and complex activities. These include proxy management, data parsing, infrastructure management, overcoming fingerprinting anti-measures, rendering JavaScript-heavy websites at scale, and much more. Is there a way to automate these processes? Absolutely.

数据收集包括许多耗时且复杂的活动。 这些措施包括代理管理,数据解析,基础结构管理,克服指纹防措施,大规模渲染JavaScript繁重的网站等。 有没有办法使这些过程自动化? 绝对。

Finding a more manageable solution for a large-scale data gathering has been on the minds of many in the web scraping community. Specialists saw a lot of potential in applying AI (Artificial Intelligence) and ML (Machine Learning) to web scraping. However, only recently, actions toward data gathering automation using AI applications have been taken. This is no wonder, as AI and ML algorithms became more robust at large-scale only in recent years together with advancement in computing solutions.

网络抓取社区中的许多人一直在寻找为大规模数据收集提供更易管理的解决方案。 专家们看到了将AI(人工智能)和ML(机器学习)应用于网页抓取的巨大潜力。 但是,直到最近,才采取行动使用AI应用程序进行数据收集自动化。 这也就不足为奇了,因为AI和ML算法直到最近几年才随着计算解决方案的进步而变得更加强大。

By applying AI-powered solutions in data gathering, we can help automate tedious manual work and ensure a much better quality of the collected data. To better grasp the struggles of web scraping, let’s look into the process of data gathering, its biggest challenges, and possible future solutions that might ease and potentially solve mentioned challenges.

通过在数据收集中应用基于AI的解决方案,我们可以帮助完成繁琐的手工工作,并确保所收集数据的质量更高。 为了更好地掌握Web抓取的工作,让我们研究数据收集的过程,最大的挑战以及将来可能缓解和潜在解决上述挑战的解决方案。

数据收集:逐步 (Data collection: step by step)

To better understand the web scraping process, it’s best to visualize it in a value chain:

为了更好地了解网络抓取过程,最好在价值链中对其进行可视化处理:

As you can see, web scraping takes up four distinct actions:

如您所见,Web抓取采取了四个不同的操作:

  1. Crawling path building and URL collection.搜寻路径建立和URL收集。
  2. Scraper development and its support.刮板的开发及其支持。
  3. Proxy acquisition and management.代理获取和管理。
  4. Data fetching and parsing.数据获取和解析。

Anything that goes beyond those terms is considered to be data engineering or part of data analysis.

超出这些术语的任何内容都被视为数据工程或数据分析的一部分。

By pinpointing which actions belong to the web scraping category, it becomes easier to find the most common data gathering challenges. It also allows us to see which parts can be automated and improved with the help of AI and ML powered solutions.

通过查明哪些动作属于Web抓取类别,可以更轻松地找到最常见的数据收集难题。 它还使我们能够看到哪些零件可以借助AI和ML支持的解决方案进行自动化和改进。

大规模刮刮挑战 (Large-scale scraping challenges)

Traditional data gathering from the web requires a lot of governance and quality assurance. Of course, the difficulties that come with data gathering increase together with the scale of the scraping project. Let’s dig a little deeper into the said challenges by going through our value chain’s actions and analyzing potential issues.

从网络收集传统数据需要大量的管理和质量保证。 当然,数据收集带来的困难随着抓取项目的规模而增加。 让我们通过价值链的行动并分析潜在问题,对上述挑战进行更深入的研究。

建立搜寻路径并收集URL (Building a crawling path and collecting URLs)

Building a crawling path is the first and essential part of data gathering. To put it simply, a crawling path is a library of URLs from which data will be extracted. The biggest challenge here is not the collection of the website URLs that you want to scrape, but obtaining all the necessary URLs of the initial targets. That could mean dozens, if not hundreds of URLs that will need to be scraped, parsed, and identified as important URLs for your case.

建立爬网路径是数据收集的首要且必不可少的部分。 简单来说,爬网路径是一个URL库,将从中提取数据。 这里最大的挑战不是您要抓取的网站URL的集合,而是获得初始目标的所有必需URL。 这可能意味着需要抓取,解析和标识数十个(如果不是数百个)URL,这对于您的案例而言是重要的URL。

刮板的开发及其维护 (Scraper development and its maintenance)

Building a scraper comes with a whole new set of issues. There are a lot of factors to look out for when doing so:

构建刮板会带来一系列全新问题。 这样做时要注意很多因素:

  • Choosing the language, APIs, frameworks, etc.选择语言,API,框架等。
  • Testing out what you’ve built.测试您的构建。
  • Infrastructure management and maintenance.基础架构管理和维护。
  • Overcoming fingerprinting anti-measures.克服指纹防措施。
  • Rendering JavaScript-heavy websites at scale.大规模渲染JavaScript繁重的网站。

These are just the tip of the iceberg that you will encounter when building a web scraper. There are plenty more smaller and time consuming things that will accumulate into larger issues.

这些只是构建网络刮板时遇到的冰山一角。 还有很多小而费时的事情会累积成更大的问题。

代理收购与管理 (Proxy acquisition and management)

Proxy management will be a challenge, especially to those new to scraping. There are so many little mistakes one can make to block batches of proxies until successfully scraping a site. Proxy rotation is a good practice, but it doesn’t illuminate all the issues and requires constant management and upkeep of the infrastructure. So if you are relying on a proxy vendor, a good and frequent communication will be necessary.

代理管理将是一个挑战,特别是对于那些刚开始使用的人。 在成功刮取站点之前,阻止批次代理存在很多小错误。 代理轮换是一种很好的做法,但是它不能说明所有问题,并且需要对基础架构进行持续的管理和维护。 因此,如果您依赖代理供应商,则需要进行良好且频繁的沟通。

数据获取和解析 (Data fetching and parsing)

Data parsing is the process of making the acquired data understandable and usable. While creating a parser might sound easy, its further maintenance will cause big problems. Adapting to different page formats and website changes will be a constant struggle and will require your developers teams’ attention more often than you can expect.

数据解析是使获取的数据易于理解和使用的过程。 尽管创建解析器听起来很容易,但对其进行进一步的维护将导致大问题。 适应不同的页面格式和网站更改将一直是一个难题,并且将需要您的开发团队更多的注意力。

As you can see, traditional web scraping comes with many challenges, requires a lot of manual labour, time, and resources. However, the brightside with computing is that almost all things can be automated. And as the development of AI and ML powered web scraping is emerging, creating a future-proof large-scale data gathering becomes a more realistic solution.

如您所见,传统的Web抓取面临许多挑战,需要大量的人工,时间和资源。 但是,计算的亮点是几乎所有事物都可以自动化。 随着AI和ML支持的Web抓取技术的发展不断涌现,创建面向未来的大规模数据收集已成为一种更为现实的解决方案。

使网页抓取永不过时 (Making web scraping future-proof)

In what way AI and ML can innovate and improve web scraping? According to Oxylabs Next-Gen Residential Proxy AI & ML advisory board member Jonas Kubilius, an AI researcher, Marie Sklodowska-Curie Alumnus, and Co-Founder of Three Thirds:

AI和ML以什么方式可以创新和改善网页抓取? 根据Oxylabs下一代住宅代理AI和ML顾问委员会成员Jonas Kubilius的说法,他是AI研究人员Marie Sklodowska-Curie Alumnus和“三分之三”的联合创始人:

“There are recurring patterns in web content that are typically scraped, such as how prices are encoded and displayed, so in principle, ML should be able to learn to spot these patterns and extract the relevant information. The research challenge here is to learn models that generalize well across various websites or that can learn from a few human-provided examples. The engineering challenge is to scale up these solutions to realistic web scraping loads and pipelines.

“网络内容中经常会出现重复出现的模式,例如价格的编码和显示方式,因此,原则上,机器学习应该能够发现这些模式并提取相关信息。 这里的研究挑战是学习在各种网站上都能很好地概括的模型,或者可以从一些人类提供的示例中学习模型。 工程上的挑战是将这些解决方案扩展到实际的Web抓取负载和管道。

Instead of manually developing and managing the scrapers code for each new website and URL, creating an AI and ML-powered solution will simplify the data gathering pipeline. This will take care of proxy pool management, data parsing maintenance, and other tedious work.

创建一个由AI和ML支持的解决方案将简化数据收集流程,而不是为每个新网站和URL手动开发和管理刮板代码。 这将负责代理池管理,数据解析维护以及其他繁琐的工作。

Not only does AI and ML-powered solutions enable developers to build highly scalable data extraction tools, but it also enables data science teams to prototype rapidly. It also stands as a backup to your existing custom-built code if it was ever to break.

由AI和ML支持的解决方案不仅使开发人员能够构建高度可扩展的数据提取工具,而且还使数据科学团队能够快速进行原型制作。 如果曾经破解过,它也可以作为现有定制代码的备份。

网页抓取的未来前景如何 (What the future holds for web scraping)

As we already established, creating fast data processing pipelines along with cutting edge ML techniques can offer an unparalleled competitive advantage in the web scraping community. And looking at today’s market, the implementation of AI and ML in data gathering has already started.

正如我们已经确定的那样,创建快速的数据处理管道以及最先进的ML技术可以在Web抓取社区中提供无与伦比的竞争优势。 纵观当今市场,已经开始在数据收集中实施AI和ML。

For this reason, Oxylabs is introducing Next-Gen Residential Proxies which are powered by the latest AI applications.

因此,Oxylabs推出了由最新的AI应用程序提供支持的下一代住宅代理 。

Next-Gen Residential Proxies were built with heavy-duty data retrieval operations in mind. They enable web data extraction without delays or errors. The product is as customizable as a regular proxy, but at the same time, it guarantees a much higher success rate and requires less maintenance. Custom headers and IP stickiness are both supported, alongside reusable cookies and POST requests. Its main benefits are:

下一代住宅代理的构建考虑了重型数据检索操作。 它们使Web数据提取没有延迟或错误。 该产品可以像常规代理一样进行自定义,但是同时,它可以确保更高的成功率并需要更少的维护。 支持自定义标头和IP粘性,以及可重用的cookie和POST请求。 它的主要优点是:

  • 100% success rate成功率100%
  • AI-Powered Dynamic Fingerprinting (CAPTCHA, block, and website change handling)AI驱动的动态指纹识别(CAPTCHA,阻止和网站更改处理)
  • Machine Learning based HTML parsing基于机器学习HTML解析
  • Easy integration (like any other proxy)易于集成(像其他代理一样)
  • Auto-Retry system自动重试系统
  • JavaScript renderingJavaScript渲染
  • Patented proxy rotation system专利代理旋转系统

Going back to our previous web scraping value chain, you can see which parts of web scraping can be automated and improved with AI and ML-powered Next-Gen Residential Proxies.

回到我们以前的网络抓取价值链,您可以看到可以使用AI和ML支持的下一代住宅代理来自动化和改进网络抓取的哪些部分。

Source: Oxylabs’ design team
资料来源:Oxylabs的设计团队

The Next-Gen Residential Proxy solution automates almost the whole scraping process, making it a truly strong competitor for future-proof web scraping.

下一代住宅代理解决方案几乎可以自动化整个刮削过程,使其成为永不过时的网络刮削的真正强大竞争对手。

This project will be continuously developed and improved by Oxylabs in-house ML engineering team and a board of advisors, Jonas Kubilius, Adi Andrei, Pujaa Rajan, and Ali Chaudhry, specializing in the fields of Artificial Intelligence and ML engineering.

Oxylabs内部的ML工程团队和顾问委员会Jonas KubiliusAdi AndreiPujaa RajanAli Chaudhry将继续开发和改进此项目,该委员会专门研究人工智能和ML工程领域。

结语 (Wrapping up)

As the scale of web scraping projects increase, automating data gathering becomes a high priority for businesses that want to stay ahead of the competition. With the improvement of AI algorithms in recent years, along with the increase in compute power and the growth of the talent pool has made AI implementations possible in a number of industries, web scraping included.

随着网络抓取项目规模的扩大,对于希望保持竞争优势的企业而言,自动化数据收集已成为当务之急。 近年来,随着AI算法的改进,以及计算能力的提高和人才库的增长,使得许多行业都可以实施AI,其中包括Web抓取。

Establishing AI and ML-powered data gathering techniques offers a great competitive advantage in the industry, as well as save copious amounts of time and resources. It is the new future of large-scale web scraping, and a good head start of the development of future-proof solutions.

建立由AI和ML支持的数据收集技术在行业中提供了巨大的竞争优势,并且节省了大量的时间和资源。 这是大规模刮网的新未来,也是开发面向未来的解决方案的良好开端。

翻译自: https://towardsdatascience.com/the-new-beginnings-of-ai-powered-web-data-gathering-solutions-a8e95f5e1d3f

ai驱动数据安全治理


http://www.taodudu.cc/news/show-995056.html

相关文章:

  • 使用K-Means对美因河畔法兰克福的社区进行聚类
  • 因果关系和相关关系 大数据_数据科学中的相关性与因果关系
  • 分类结果可视化python_可视化分类结果的另一种方法
  • rstudio 管道符号_R中的管道指南
  • 时间序列因果关系_分析具有因果关系的时间序列干预:货币波动
  • 无法从套接字中获取更多数据_数据科学中应引起更多关注的一个组成部分
  • 深度学习数据更换背景_开始学习数据科学的最佳方法是了解其背景
  • 数据中台是下一代大数据_全栈数据科学:下一代数据科学家群体
  • 泰坦尼克数据集预测分析_探索性数据分析-泰坦尼克号数据集案例研究(第二部分)
  • 大数据技术 学习之旅_如何开始您的数据科学之旅?
  • 搜索引擎优化学习原理_如何使用数据科学原理来改善您的搜索引擎优化工作
  • 一件登录facebook_我从Facebook的R教学中学到的6件事
  • python 图表_使用Streamlit-Python将动画图表添加到仪表板
  • Lockdown Wheelie项目
  • 实现klib_使用klib加速数据清理和预处理
  • 简明易懂的c#入门指南_统计假设检验的简明指南
  • python 工具箱_Python交易工具箱:通过指标子图增强图表
  • python交互式和文件式_使用Python创建和自动化交互式仪表盘
  • 无向图g的邻接矩阵一定是_矩阵是图
  • 熊猫分发_熊猫新手:第一部分
  • 队列的链式存储结构及其实现_了解队列数据结构及其实现
  • 水文分析提取河网_基于图的河网段地理信息分析排序算法
  • python 交互式流程图_使用Python创建漂亮的交互式和弦图
  • 最接近原点的 k 个点_第K个最接近原点的位置
  • 熊猫分发_熊猫新手:第二部分
  • 数据分析 绩效_如何在绩效改善中使用数据分析
  • 您一直在寻找5+个简单的一线工具来提升Python可视化效果
  • 产品观念:更好的捕鼠器_故事很重要:为什么您需要成为更好的讲故事的人
  • 面向Tableau开发人员的Python简要介绍(第2部分)
  • netflix_Netflix的计算因果推论

ai驱动数据安全治理_AI驱动的Web数据收集解决方案的新起点相关推荐

  1. ai驱动数据安全治理_JupyterLab中的AI驱动的代码完成

    ai驱动数据安全治理 As a data scientist, you almost surely use a form of Jupyter Notebooks. Hopefully, you ha ...

  2. ai驱动数据安全治理_人工智能驱动的Microsoft工具简介

    ai驱动数据安全治理 介绍 (Introduction) Microsoft is nowadays one of the major providers for AI powered cloud s ...

  3. 让数据使用自由而安全,安华金和“三驾马车”驱动数据安全治理

    科技云报道原创. 由中国网络安全产业联盟(CCIA).科技云报道共同主办的"解码2022中国网安强星"活动正式拉开帷幕.本次活动以"网安力量 照见未来"为主题, ...

  4. 工业数据安全治理参考框架

    工业数据是指工业企业在开展研发设计.生产制造.经营管理.应用服务等业务时,围绕客户需求.订单.计划.研发.设计.工艺.制造.采购.供应.库存.销售.交付.售后.运维.报废或回收等工业生产经营环节和过程 ...

  5. 5000字详解数据安全治理

    2010年,针对数据安全治理,微软提出了专门强调隐私.保密和合规的数据安全治理框架(DGPC),希望企业和组织能够以统一的跨学科的方式来实现目标,而非组织内不同部门独立实现.DGPC框架能够与企业现有 ...

  6. 腾讯安全董志强:四大关键步骤促进数据安全治理闭环,提升企业免疫力

    高速发展的数字时代,数据已成为推动产业发展的最重要生产要素之一,真正成为了创造经济财富的数字能源,守护数据资产的安全成为企业高质量发展不可回避的重要命题. 6月13日,腾讯安全联合IDC发布" ...

  7. 天空卫士参与编写的《数据安全治理实践指南(2.0)》正式发布

    2023年1月5日,由中国信息通信研究院(以下简称"中国信通院").中国通信标准化协会指导,中国通信标准化协会大数据技术标准推进委员会主办,数据安全推进计划承办的第二届数据安全治理 ...

  8. 媒体报道 | 《数据安全治理自动化技术框架(DSAG)》白皮书诞生,探索数据安全治理技术“最优解”

    持续的疫情冲击,对于大部分企业,在经历了最初的迷茫期.阵痛期到之后的恢复期之后,现在更多看到的是发展机会.在远程办公的情况下,无边界网络对安全提出了更多的要求,活下来的企业几乎都进行了数字化转型. 在 ...

  9. 数据治理和数据安全治理有何不同?

    在"数字中国"发展战略指引下,数据成为经济发展的新动能,拥抱数字化变革是企事业单位的必然选择.伴随着数字业务的飞速发展,数据安全治理成为企业正常发展的最基本保障.<数据安全法 ...

最新文章

  1. .net版 类似火车头的网页采集
  2. applicationContext.xml中设置读取jdbc.properties文件
  3. 你是什么时候真正从产品助理成长为产品经理的?
  4. 吴恩达入驻知乎首答:如何系统学习机器学习?
  5. vue组件-使用插槽分发内容(slot)
  6. 【AtCoder - 4242 】To Infinity(思维)
  7. 2019年技术盘点微服务篇(一) | 程序员硬核评测
  8. Eclipse集成PyDev5.2.0开发插件
  9. ubuntu pycharm设置快捷图标_这些Ubuntu中的小技巧,你知道吗?
  10. MySQL_数据库表结构的操作
  11. iPhone 12 Mini曝光:售价5000内、电池容量不忍看
  12. ambari 2.6.0.0开发环境配置
  13. 08面向对象编程风格
  14. android设备分辨率排行,[图表]主流安卓旗舰手机像素密度排行榜出炉
  15. 改了计算机名字后重启断网了,电脑断网重启就好了是什么回事
  16. Mozilla5.0的含义
  17. linux redhat下载地址
  18. 冲刺中高考,AI辅助学习靠谱吗?
  19. 可以检测手机帧率和温度的软件_拯救者电竞手机Pro评测:不只是一台手机,更是游戏主机...
  20. 面试时关于“工作可预见困难有哪些”应聘者如何巧妙回答

热门文章

  1. C++输入输出:cin/cout 还是 scanf/printf?
  2. mmap内存映射、system V共享内存和Posix共享内存
  3. java支付模块架构,涨薪7K!
  4. 三年Java开发,尚学堂java马士兵全套
  5. 7年老Android一次操蛋的面试经历,讲的太透彻了
  6. 网易云的朋友给我这份339页的Android面经,持续更新中
  7. android页面设置背景图片大小,android页面设置background为图片后,页面滑动掉帧问题...
  8. js含有特定文字不能跳转
  9. docker下用keepalived+Haproxy实现高可用负载均衡集群
  10. SQLite学习手册