【转】 基于C#.NET的高端智能化网络爬虫2

本篇故事的起因是携程旅游网的一位技术经理,豪言壮举的扬言要通过他的超高智商,完美碾压爬虫开发人员,作为一个业余的爬虫开发爱好者,这样的言论我当然不能置之不理。因此就诞生了上一篇基础爬虫以及这一篇高级爬虫的开发教程。

有人评论我上一篇的简单爬虫:代码太过简单以至于弱爆了,真是被这群有文化的孩子给雷到了!不得不猜测你是不是携程网的托儿,我还没写完你咋就知道弱爆了?看来不下点猛料你是得不到满足啊!

今天我们就来学习高级爬虫的开发,同时我们还要利用之前的简单爬虫程序,来实现分布式爬虫的Links Master部分,以提高分布式抓取的效率。

下边的我们要讲的内容,涉及了众多开源软件。先别太紧张,越是高级的东西通常都封装的越好,只要放开心态综合运用就行了,我先假设你对下边这些工具都有过了解:

  • RabbitMQ:用于分布式消息传递。

  • ***:用于代理加密。

  • PhantomJS:用于Web页面渲染。

  • Selenium:用于Web自动化控制。

一、什么是高级爬虫?

我们长谈到的高级爬虫,通常是说它具有浏览器的运行特征,需要第三方的类库或工具的支持,比如说以下这些常见的东东:

  • Webkit

  • WebBrowser

  • PhantomJS + Selenium

很多人都觉得,分布式爬虫才能算是高级的爬虫。这绝对是一种错误的理解,分布式只是我们实现爬虫架构的一种手段,而并非是用来定义它高级的因素。

我们之所以称它们为高级爬虫组件,主要是因为他们不但可以直接抓取网页源代码,同时还能能渲染网站页面的HTML、CSS、Javascript等内容。

这样的功能,对于开发爬虫到底有什么好处呢?说起这好处那是有点谦虚了,丝毫不夸张的说:这玩意简直可以称为“爬无敌”!!!

我猜你还是这个表情,因为它的强大机制,让我们可以直接在网站页面:执行Javascript代码、触发各类鼠标键盘事件、操纵页面Dom结构、利用XPath语法抓取数据,几乎可以做一切在浏览器上能做的事情。

很多网站都用Ajax动态加载、翻页,比如携程网的评论数据。如果是用之前那个简单的爬虫,是很难直接抓取到所有评论数据的,我们需要去分析那漫天的Javascript代码寻找API数据接口,还要时刻提防对方增加数据陷阱或修改API接口地。

如果通过高级爬虫,就可以完全无视这些问题,无论他们如何加密Javascript代码来隐藏API接口,最终的数据都必要呈现在网站页面上的Dom结构中,不然普通用户也就没法看到了。所以我们可以完全不分析API数据接口,直接从Dom中提取数据,甚至都不需要写那复杂的正则表达式。

二、如何开发一款高级爬虫?

现在我们就来一步一步实现这个高级爬虫,接下来就用目前潮到爆的两个组件,来完成一个有基本功能的高级爬虫,首先我们去下载开源组件:

PhantomJS:算是一个没有UI界面的浏览器,主要用来实现页面自动化测试,我们则利用它的页面解析功能,执行网站内容的抓取。下载解压后将Bin文件夹中的phantomjs.exe文件复制到你爬虫项目下的任意文件夹,我们只需要这个。

下载地址:http://phantomjs.org/download.html

Selenium:是一个自动化测试工具,封装了很多WebDriver用于跟浏览器内核通讯,我用开发语言来调用它实现PhantomJS的自动化操作。它的下载页面里有很多东西,我们只需要Selenium Client,它支持了很多语言(C#、JAVA、Ruby、Python、NodeJS),按自己所学语言下载即可。

下载地址:http://docs.seleniumhq.org/download/

这里我我下载C#语言客户端,将这4个DLL文件都添加到项目引用中,其他语言开发者请自行寻找方法,然后开始我们的编码之旅。

老规矩,打开Visual Studio 2015 新建一个控制台应用程序,增加一个简单的StrongCrawler类,由于这两个爬虫类具有公共部分,本着DRY的原则,需要对部分代码重构,我们先提取一个ICrawler接口:

然后我们用StrongCrawler类来实现这个接口:

接着我们来编写它的异步爬虫方法:

好了,这个高级爬虫的基本功能就定义完成了,还是用携程的酒店数据作为抓取的例子,我们测试一下抓取(酒店名称、地址、评分、价格、评论数量、评论当前页码、评论下一页码、评论总页数、每页评论数量)等详细数据试试。我们现在用控制台程序来调用一下:

由上图可知,等待酒店页面加载完成后,我们通过XPath语法查找页面元素,首先点击了页面上的“酒店评论”按钮,再等待页面的Dom结构发生变化,也就是说等待Ajax加载成功,然后对需要的数据进行抓取。看看代码的执行结果:

我们很轻松的抓取到了酒店的信息,以及酒店的第一页全部评论数据。因为携程网的评论数据是通过Ajax翻页的,因此要想抓取所有评论,还抓取了评论的页码等数据。再看看执行性能:

还算不错,484毫秒,可以说在所有高级爬虫组件中,PhantomJS的效率应该是最高的了,几乎没有其他组件可以直接与之抗衡。有了页码数据,我们就可以对评论进行执行翻页抓取操作,以这个速度,抓取几百页的评论数据根本不需要搞分布式。

三、如何实现分布式?

分布式爬虫通常使用消息队列来实现,目前互联网上的开源消息队列非常多,今天我们就来介绍一款非常拉风的分布式消息队列开源组件:

RabbitMQ是一个开源的AMQP实现,服务器端用Erlang语言编写,支持多种客户端,如:.NET、Python、Ruby、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等,支持AJAX。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现都非常好。

下载地址:http://www.rabbitmq.com/download.html

分布式爬虫通常需要两个端:

  • 控制端

  • 爬虫端

控制端主要负责控制爬虫运行、监控爬虫状态、配置爬虫抓取方式等。爬虫端主的功能就是抓取数据并将数据提交给数据清洗服务。

爬虫端还需要分出Master爬虫及Worker爬虫,Master爬虫主要利用简单爬虫的运行方式实现高性能的超连接(Links)的抓取。Worker爬虫则利用高级爬虫特性来采集精细化的数据,例如Ajax加载的内容。把最擅长的事情交给最合适的爬虫来做。

聪明的你应该想到了,他们之间的沟通方式就是消息队列。Master爬虫只需要将抓取的Links扔进数据抓取队列。Worker爬虫通过定时拉去队列中的Links来实现数据抓取,抓取完成后将数据再提交至数据清洗队列。

原理应该都讲清楚了吧?那就自己实现代码吧,RabbitMQ官网上都有示例代码,我就不再这里啰嗦了。

四、如何实现稳定的加密代理?

在这个互联网时代,免费的东西基本上快消失殆尽了,就算有也肯定很垃圾。所以今天我要讲的***,也是一个需要付少量费用的东西,这个东西的强大之处,就在于其流量特征不明显,可以非常稳定的提供上网代理。

下载地址:https://github.com/shadowsocks

***客户端会在本地开启一个socks5代理,通过此代理的网络访问请求由客户端发送至服务端,服务端发出请求,收到响应数据后再发回客户端。中间通过了AES-256来加密传输数据,因此要必普通的代理服务器安全得多,我们来看看它的运行方式:

由图得知,它需要先在本地运行客户端程序,连接远程代理服务器的服务端程序实现加密通讯。再在本地模拟代理端口,让本机流量先经过本地客户端加密,然后再传输至远程服务端,完成代理的转发服务。

因此我们只需要买一台基于Linux的VPS服务器,成本大约在15元人民币每月,安装好服务端后,就可以实现一个非常稳定的加密代理服务。相关教材网上一大堆,我也就不再这里啰嗦。

五、结束语

迫于一些压力,我就不在这里公布详细的爬虫源代码了,看上面的例子肯定能自己完成一个更强大的高级爬虫。全部源代码下载:https://github.com/coldicelion/Simple-Web-Crawler

原文地址:http://www.toutiao.com/i6304492725462893058/


.NET社区新闻,深度好文,微信中搜索dotNET跨平台或扫描二维码关注

转载于:https://www.cnblogs.com/coky/p/6755643.html

【转】 基于C#.NET的高端智能化网络爬虫 2相关推荐

  1. 基于C#.NET的高端智能化网络爬虫

    前两天朋友发给我了一篇文章,是携程网反爬虫组的技术经理写的,大概讲的是如何用他的超高智商通过(挑衅.怜悯.嘲讽.猥琐)的方式来完美碾压爬虫开发者.今天我就先带大家开发一个最简单低端的爬虫,突破携程网超 ...

  2. 基于C#.NET的高端智能化网络爬虫(二)(攻破携程网)

    本篇故事的起因是携程旅游网的一位技术经理,豪言壮举的扬言要通过他的超高智商,完美碾压爬虫开发人员,作为一个业余的爬虫开发爱好者,这样的言论我当然不能置之不理.因此就诞生了以及这一篇高级爬虫的开发教程. ...

  3. 基于Spyder(Python 3.8)网络爬虫东方财经股票数据

    基于Python爬取豆瓣电影排行榜单的博主经验,本文将爬取东方股票的某些数据. 代码来自网络且基于此稍有改编. 一.Anaconda是什么? 简单来说,Anaconda是Python的包管理器和环境管 ...

  4. 【数据竞赛】竞赛宝典黑科技:基于开源结果的高端融合策略

    作者: 尘沙杰少,樱落 竞赛宝典黑科技_基于开源结果的融合 (轻轻松松挖银牌) 背景 本篇文章的思想很简单,不需要自己跑任何的模型,只需要将现有的开源提交结果进行"直接优化两步走" ...

  5. 研报解读:用友U9领航,高端ERP市场成为新蓝海

    近期,国内IT权威研究机构计世资讯(CCW Research)与制造业信息化专业机构E-works Research分别就国内管理软件高端ERP市场发展状况.用友U9 V2.0版产品进行了第三方研究. ...

  6. 电流检测放大器在高端电流监测中的应用

    简介 电流测量是大多数能量采集设计和一般功率敏感电子应用的基本要求.测量电流的能力在广泛的应用中很重要,但在与能量产生和存储相关的能量收集应用中通常是至关重要的.对于能量产生,电流感测提供了防止诸如过 ...

  7. 得力助手 消防员的 消防机器人_消防云科技:高端智能化成消防员“得力助手”...

    原标题:消防云科技:高端智能化成消防员"得力助手" 随着技术的不断进步,消防云科技+VR技术+人工智能成了消防员的"得力助手",随着技术的不断研发,越来越多的高 ...

  8. 得力助手 消防员的 消防机器人_高端智能化成消防员“得力助手” (消防云科技)...

    随着技术的不断进步,消防云科技+VR技术+人工智能成了消防员的"得力助手",随着技术的不断研发,越来越多的高科技运用其中. 消防机器人已由具有感知功能的第二代发展到了高端智能化的第 ...

  9. 爬虫+数据分析+可视化大作业:基于大数据的高质量电影分析报告

    主要目的是为了学习Scrapy与Sklearn而不是写论文,结论是瞎扯的,轻喷求求了 目录 摘要 数据爬虫程序设计和实现 Scrapy框架 Scrapy框架简介 Scrapy的组件 Scrapy的工作 ...

最新文章

  1. python __file__ 与相对路径
  2. 机房那么大,我想用AR来看看!
  3. 与JSP的初次邂逅……
  4. 学习笔记之卸载远程目标进程中的DLL模块(转)
  5. android使用 注解框架,Android实践 | 注解框架ButterKnife基本使用
  6. spark 广播变量大数据_大数据处理 | Spark集群搭建及基本使用
  7. mysql中列的默认值
  8. Bootstrap3基础 glyphicon 设置图标的颜色与大小
  9. Wget漏洞(CVE-2016-4971)利用方式解析
  10. WebSphere 管理员界面 修改配置之后,没有反应的原因,需要按下[保存]link
  11. Python Tricks(五)—— 计算 list of lists 的长度(元素个数)
  12. 章节3.4----队列的实现与应用
  13. 计算平均成绩,科目数已知
  14. 考研倒计时一幕刷屏!网友:这一定是最接近梦想的人!
  15. QT添加图标/任务栏样式记录
  16. Android之 APP创建或删除快捷方式
  17. 03 【Nginx虚拟主机和域名解析】
  18. 在mosquitto和Node-Red间使用基于的MQTTS双向认证通讯( 私有CA)
  19. mac升级Monterey12.3 AccessClient打不开
  20. 华为畅享z和荣耀x10哪个好?

热门文章

  1. 单反相机很久没有更新产品问世了,真的已经被抛弃了吗?
  2. 你见过使用寿命最长的手机有多少年?
  3. 黄奕:我之前弄了一个母婴网站,根本就不会做生意,几个月上千万就赔进去了
  4. Java - String字符串的部分操作
  5. azure云数据库_如何将MySQL表迁移到Microsoft Azure SQL数据库
  6. sql azure 语法_如何使用Azure门户,Cloud Shell和T-SQL复制Azure SQL数据库
  7. SQL Server中的零碎数据库还原
  8. [GO]结构体成员的使用:普通变量
  9. python--pdb
  10. webstorm的debug模式