[DotnetSpider 系列目录]

  • 一、初衷与架构设计
  • 二、基本使用
  • 三、配置式爬虫
  • 四、JSON数据解析与配置系统
  • 五、如何做全站采集

为什么要造轮子

同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JAVA、PYTHON,甚至于还有NODEJS,C++;再或者去开源中国查询C#的爬虫项目,仅有几个非常简单或是几年没有更新的项目。

而单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,反而有开发上的优势(得益于世界上最强大的IDE)。爬虫性能瓶颈大多是在并发下载(网速)、IP池,那么为什么.NET没有一个强大的爬虫框架呢?说真的我不知道,可能爬虫框架核心上比较简单,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。直到.NET要出开源版的消息传来,我觉得是时候开发一个跨平台,跨语言的爬虫框架了。但一开始是比较忐忑的,觉得自己水平不够去完全重新设计一个新的框架出来,因此参考了JAVA的一个轻量级爬虫框架webmagic,并加入了我自己的理解和改进。如果设计或写得不好请大家指正海涵

框架设计

由于我是参考的webmagic,所以整体架构上没有什么大的变化,设计图如下(图片是直接从webmagic上拿的)

  • Scheduler:负责URL的调度、去重,可以实现如Queue, PriorityQueueScheduler, RedisScheduler(可用于分布式)等等
  • Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等
  • PageProcesser: 负责HTML解析、目标URL的选择
  • Pipeline: 负责数据的存储, 已实现文件存储, MySql存储, MySqlFile存储(脚本),MSSQL存储,MongoDb存储, 更多存储期待您的贡献

优点

  • 数据对象是通过Json结构来解析的:可以实现类中属性是类的情况(较少此种情况, 而且数据Pipeline仅限MongoDB时才能存储此种类型数据)
  • 支持Json文件定义爬虫:最终实现跨语言调用
  • 自动创建数据库、数据表
  • 支持 .NET CORE,可以跨平台
  • 支持ADSL拨号换IP:如果所有爬虫统一部署, 可以实现单台机器同时运行多个任务拨号互不影响、或者一个路由下面多个电脑下多个任务拨号互不影响
  • 支持自定义代理池

基本使用

基本使用只需要引用DotnetSpider2.Core(Nuget中获取)

DotnetSpider实现一个完整爬虫是需要4个模块的:Scheduler、Downloader、PageProcessor、Pipeline。由于Downloader和Scheduler都是有基本实现的,因此只需要实现PageProcessor和Pipeline就可以实现一个基本爬虫了,这种方式也是最自由的方式。

完全自定义的例子如下:

        public static void Main(string[] args){// Custmize processor and pipeline 完全自定义页面解析和数据管道BaseUsage.CustmizeProcessorAndPipeline();Console.WriteLine("Press any key to continue...");Console.Read();}public static void CustmizeProcessorAndPipeline(){// Config encoding, header, cookie, proxy etc... 定义采集的 Site 对象, 设置 Header、Cookie、代理等var site = new Site { EncodingName = "UTF-8", RemoveOutboundLinks = true };for (int i = 1; i < 5; ++i){// Add start/feed urls. 添加初始采集链接site.AddStartUrl("http://" + $"www.youku.com/v_olist/c_97_g__a__sg__mt__lg__q__s_1_r_0_u_0_pt_0_av_0_ag_0_sg__pr__h__d_1_p_{i}.html");}Spider spider = Spider.Create(site,// use memoery queue scheduler. 使用内存调度new QueueDuplicateRemovedScheduler(),// use custmize processor for youku 为优酷自定义的 Processornew YoukuPageProcessor())// use custmize pipeline for youku 为优酷自定义的 Pipeline.AddPipeline(new YoukuPipeline())// dowload html by http client.SetDownloader(new HttpClientDownloader())// 1 thread.SetThreadNum(1);spider.EmptySleepTime = 3000;// Start crawler 启动爬虫spider.Run();}public class YoukuPipeline : BasePipeline{private static long count = 0;public override void Process(ResultItems resultItems){foreach (YoukuVideo entry in resultItems.Results["VideoResult"]){count++;Console.WriteLine($"[YoukuVideo {count}] {entry.Name}");}// Other actions like save data to DB. 可以自由实现插入数据库或保存到文件}}public class YoukuPageProcessor : BasePageProcessor{protected override void Handle(Page page){// 利用 Selectable 查询并构造自己想要的数据对象var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-pack pack-film']")).Nodes();List<YoukuVideo> results = new List<YoukuVideo>();foreach (var videoElement in totalVideoElements){var video = new YoukuVideo();video.Name = videoElement.Select(Selectors.XPath(".//img[@class='quic']/@alt")).GetValue();results.Add(video);}// Save data object by key. 以自定义KEY存入page对象中供Pipeline调用page.AddResultItem("VideoResult", results);// Add target requests to scheduler. 解析需要采集的URLforeach (var url in page.Selectable.SelectList(Selectors.XPath("//ul[@class='yk-pages']")).Links().Nodes()){page.AddTargetRequest(new Request(url.GetValue(), null));}}}public class YoukuVideo{public string Name { get; set; }}            

配置式爬虫

配置式爬虫需要额外引用DotnetSpider2.Extension(Nuget中获取)

大部分情况下只需要配置式来实现一个采集任务。相对于基本使用方式,配置式爬式只需要短短的几行代码就可以实现一个爬虫。但凡事有利就有弊,配置式爬的自由度相对低了一些。

使用配置式爬虫的步骤如下:

  1. 定义数据实体类,通过添加Attribute来定义数据的存储规则、数据从页面的解析规则
  2. 定义爬虫任务的定义,继承EntitySpiderBuilder
  3. 在Maink中实例化定义好的爬虫任务,并调用Run方法

完整代码如下, 感受一下就好,后面章节会详细介绍如何实现:

    public class JdSkuSampleSpider : EntitySpiderBuilder{protected override EntitySpider GetEntitySpider(){EntitySpider context = new EntitySpider(new Site{//HttpProxyPool = new HttpProxyPool(new KuaidailiProxySupplier("快代理API"))});context.SetThreadNum(1);context.SetIdentity("JD_sku_store_test_" + DateTime.Now.ToString("yyyy_MM_dd_hhmmss"));// dowload html by http clientcontext.SetDownloader(new HttpClientDownloader());// save data to mysql.context.AddEntityPipeline(new MySqlEntityPipeline("Database='test';Data Source=localhost;User ID=root;Password=1qazZAQ!;Port=3306"));context.AddStartUrl("http://list.jd.com/list.html?cat=9987,653,655&page=2&JL=6_0_0&ms=5#J_main", new Dictionary<string, object> { { "name", "手机" }, { "cat3", "655" } });context.AddEntityType(typeof(Product));return context;}[Schema("test", "sku", TableSuffix.Today)][EntitySelector(Expression = "//li[@class='gl-item']/div[contains(@class,'j-sku-item')]")][Indexes(Index = new[] { "category" }, Unique = new[] { "category,sku", "sku" })][TargetUrlsSelector(XPaths = new[] { "//span[@class=\"p-num\"]" }, Patterns = new[] { @"&page=[0-9]+&" })]public class Product : ISpiderEntity{[StoredAs("sku", DataType.String, 25)][PropertySelector(Expression = "./@data-sku")]public string Sku { get; set; }[StoredAs("category", DataType.String, 20)][PropertySelector(Expression = "name", Type = SelectorType.Enviroment)]public string CategoryName { get; set; }[StoredAs("cat3", DataType.String, 20)][PropertySelector(Expression = "cat3", Type = SelectorType.Enviroment)]public int CategoryId { get; set; }[StoredAs("url", DataType.Text)][PropertySelector(Expression = "./div[1]/a/@href")]public string Url { get; set; }[StoredAs("commentscount", DataType.String, 32)][PropertySelector(Expression = "./div[5]/strong/a")]public long CommentsCount { get; set; }[StoredAs("shopname", DataType.String, 100)][PropertySelector(Expression = ".//div[@class='p-shop']/@data-shop_name")]public string ShopName { get; set; }[StoredAs("name", DataType.String, 50)][PropertySelector(Expression = ".//div[@class='p-name']/a/em")]public string Name { get; set; }[StoredAs("venderid", DataType.String, 25)][PropertySelector(Expression = "./@venderid")]public string VenderId { get; set; }[StoredAs("jdzy_shop_id", DataType.String, 25)][PropertySelector(Expression = "./@jdzy_shop_id")]public string JdzyShopId { get; set; }[StoredAs("run_id", DataType.Date)][PropertySelector(Expression = "Monday", Type = SelectorType.Enviroment)]public DateTime RunId { get; set; }[PropertySelector(Expression = "Now", Type = SelectorType.Enviroment)][StoredAs("cdate", DataType.Time)]public DateTime CDate { get; set; }}}

public class Program
{public static void Main(string[] args){JdSkuSampleSpider spiderBuilder = new JdSkuSampleSpider();spiderBuilder.Run();}
}

代码地址

https://github.com/zlzforever/DotnetSpider  望各位大佬加星 :)

发现一个更简单可以帮助小白做数据采集的工具

爬一爬 http://www.pa1pa.com

参与开发或有疑问

QQ群: 477731655

邮箱: zlzforever@163.com

转载于:https://www.cnblogs.com/jjg0519/p/6707513.html

[开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计相关推荐

  1. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计 - ModestMT.Zou - 博客园...

    [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计 - ModestMT.Zou - 博客园

  2. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [三] 配置式爬虫

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 上一篇介绍的基本的使用方式,自由度很高,但是编写的代码相对 ...

  3. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [四] JSON数据解析

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 场景模拟 接上一篇, 假设由于漏存JD SKU对应的店铺信 ...

  4. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

    一 ,为什么要造轮子 有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求,大多是JAVA,PYTHON甚至于还有NODEJS,C++,再或者在开源中国查询C#的爬虫,仅有几个非常简单或是几年没有更新 ...

  5. .Net开源的跨平台爬虫框架 DotnetSpider

    项目详细介绍 DotnetSpider是开源的.NET跨平台数据采集爬虫框架.需要 Scheduler,Downloader ,Processor,Pipeline 四部分. 1 2 3 4 5 6 ...

  6. 社会化海量数据采集爬虫框架搭建

    随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前.如何能够做到所见即所得的无阻拦式采集.如何快速把不规则页面结构化并存储.如何满足越来越多的数据采集还要在有限 ...

  7. 孢子框架-互联网金融平台微服务架构设计(转)

    非常感谢http://www.cnblogs.com/skyblog/p/4915383.html 对互联网金融理财平台进行微服务架构设计.假设我们设计的目标是5年后的陆金所(https://www. ...

  8. 分享一个.NET平台开源免费跨平台的大数据分析框架.NET for Apache Spark

    今天早上六点半左右微信群里就看到张队发的关于.NET Spark大数据的链接https://devblogs.microsoft.com/dotnet/introducing-net-for-apac ...

  9. Java高并发、分布式框架,从无到有微服务架构设计

    微服务架构模式(Microservice Architect Pattern).近两年在服务的疯狂增长与云计算技术的进步,让微服务架构受到重点关注 微服务架构是一种架构模式,它提倡将单一应用程序划分成 ...

最新文章

  1. c2 链路_POS链路不能打开的解决办法
  2. 基于java多线程来实现生产者和消费者的实例
  3. QOS仍然很有价值-Vecloud
  4. linux怎么挂载第二块硬盘分区,linux下挂载第二块已有linux分区的硬盘,要读取从硬盘的文件,应该怎么打开第二块硬盘?...
  5. 桶排序+基数排序+计数排序
  6. netty源码分析系列——Channel
  7. macbook 终端命令怎么使用_Mac 常用终端命令整理
  8. 确定空间直线延长线上的一点
  9. win7时间同步出错
  10. 推荐交互设计师阅读的一本书
  11. 新闻分类实战-贝叶斯
  12. 瑞数信息的“狩猎术”
  13. 使用VGG模型自定义图像分类任务
  14. com.ibm.db2.jcc.b.SqlException:Parameter instance is invalid for requested conversion.
  15. 第八章、使用matplotlib绘制高级图表
  16. 常见问题---空指针异常
  17. 安卓强制横屏的坑!正确设置横屏的姿势!
  18. 福州大学计算机学硕分数,2021年福州大学考研录取分数线应该在哪里查询?
  19. 设计模式六大原则(初步理解)
  20. 计算机国际会议 2017,2017计算机辅助设计与图形学国际会议(CAD/Graphics 2017)在张家界召开...

热门文章

  1. 详解vue项目和普通项目如何解决开发环境与生产环境下的跨域问题
  2. Ubuntu14.04引导菜单修复
  3. 其他平台上测试工具的使用
  4. 求两个Linux文本文件的交集、差集、并集
  5. SpringBoot 自动开启事务原理
  6. springboot activiti 配置项详解
  7. 给初级拍摄者的十条好建议
  8. 轻松理解spring IOC
  9. iOS中的图像处理(一)——基础滤镜
  10. [Nodejs]初探nodejs学习笔记- 如何使用nodejs搭建简单的UDP聊天功能