玩玩小爬虫——试搭小架构

第一篇我们做了一个简单的页面广度优先来抓取url，很显然缺点有很多，第一：数据结构都是基于内存的，第二：单线程抓取

速度太慢，在实际开发中肯定不会这么做的，起码得要有序列化到硬盘的机制，对于整个爬虫架构来说，构建好爬虫队列相当重要。

先上一幅我自己构思的架构图，不是很完善，算是一个雏形吧。

一：TODO队列和Visited集合

在众多的nosql数据库中，mongodb还是很不错的，这里也就选择它了，做集群，做分片轻而易举。

二：中央处理器

群架，斗殴都是有带头的，那中央处理器就可以干这样的事情，它的任务很简单，

第一：启动时，根据我们定义好的规则将种子页面分发到各个执行服务器。

第二：定时轮询”TODO——MongoDB“，将读取的新Url根据规则分发到对应的执行服务器中。

三：分发服务器

中央处理器将url分发到了执行服务器的内存中，分发服务器可以开启10个线程依次读取队列来获取url，然后解析url，

第一：如果url是外链，直接剔除。

第二：如果url不是本机负责抓取的，就放到”TODO——MongoDB“中。

第三：如果是本机负责的，将新提取的url放入本机内存队列中。

四：代码实现

首先下载mongodb http://www.mongodb.org/downloads，简单起见就在一个database里面建两个collection。迫不及

待了，我要爬一个美女网站，http://www.800meinv.com ，申明一下，并非推广网站，看下”中央处理器“的实现。

 1 namespace CrawlerCPU
 2 {
 3     /* 根据规格，一个服务爬取3个导航页（由 中央处理器 统一管理）
 4      * 第一个服务：日韩时装，港台时装
 5      * 第二个服务：，欧美时装，明星穿衣，显瘦搭配
 6      * 第三个服务：少女搭配，职场搭配，裙装搭配
 7      */
 8     public class Program
 9     {
10         static Dictionary<string, string> dicMapping = new Dictionary<string, string>();
11
12         static void Main(string[] args)
13         {
14             //初始Url的分发
15             foreach (var key in ConfigurationManager.AppSettings)
16             {
17                 var factory = new ChannelFactory<ICrawlerService>(new NetTcpBinding(), new EndpointAddress(key.ToString()))
18                                  .CreateChannel();
19
20                 var urls = ConfigurationManager.AppSettings[key.ToString()]
21                                                .Split(new char[] { ';' }, StringSplitOptions.RemoveEmptyEntries)
22                                                .ToList();
23
24                 factory.AddRange(urls);
25
26                 //将网址和“WCF分发地址“建立Mapping映射
27                 foreach (var item in urls)
28                     dicMapping.Add(item, key.ToString());
29             }
30
31             Console.WriteLine("爬虫 中央处理器开启，正在监视TODO列表！");
32
33             //开启定时监视MongoDB
34             Timer timer = new Timer();
35
36             timer.Interval = 1000 * 10; //10s轮询一次
37             timer.Elapsed += new ElapsedEventHandler(timer_Elapsed);
38             timer.Start();
39
40             Console.Read();
41         }
42
43         static void timer_Elapsed(object sender, ElapsedEventArgs e)
44         {
45             //获取mongodb里面的数据
46             MongodbHelper<Message> mongodb = new MongodbHelper<Message>("todo");
47
48             //根据url的类型分发到相应的服务器中去处理
49             var urls = mongodb.List(100);
50
51             if (urls == null || urls.Count == 0)
52                 return;
53
54             foreach (var item in dicMapping.Keys)
55             {
56                 foreach (var url in urls)
57                 {
58                     //寻找正确的 wcf 分发地址
59                     if (url.Url.StartsWith(item))
60                     {
61                         var factory = new ChannelFactory<ICrawlerService>(new NetTcpBinding(),
62                                       new EndpointAddress(dicMapping[item]))
63                                       .CreateChannel();
64
65                         //向正确的地方分发地址
66                         factory.Add(url.Url);
67
68                         break;
69                     }
70                 }
71             }
72
73             //删除mongodb中的TODO表中指定数据
74             mongodb.Remove(urls);
75         }
76     }
77 }

接下来，我们开启WCF服务，当然我们可以做10份，20份的copy，核心代码如下：

 1         /// <summary>
 2         /// 开始执行任务
 3         /// </summary>
 4         public static void Start()
 5         {
 6             while (true)
 7             {
 8                 //监视工作线程，如果某个线程已经跑完数据，则重新分配任务给该线程
 9                 for (int j = 0; j < 10; j++)
10                 {
11                     if (tasks[j] == null || tasks[j].IsCompleted || tasks[j].IsCanceled || tasks[j].IsFaulted)
12                     {
13                         //如果队列还有数据
14                         if (todoQueue.Count > 0)
15                         {
16                             string currentUrl = string.Empty;
17
18                             todoQueue.TryDequeue(out currentUrl);
19
20                             Console.WriteLine("当前队列的个数为:{0}", todoQueue.Count);
21
22                             tasks[j] = Task.Factory.StartNew((obj) =>
23                             {
24                                 DownLoad(obj.ToString());
25
26                             }, currentUrl);
27                         }
28                     }
29                 }
30             }
31         }

然后我们把”分发服务器“和”中央处理器“开启：

好了，稍等会，我们就会看到，数据已经哗啦啦的往mongodb里面跑了。

五：不足点

有的时候会出现某些机器非常free，而某些机器非常busy，这时就要实现双工通讯了，当执行服务器的内存队列到达

一个量级的时候就应该通知中央处理器，要么减缓对该执行服务器的任务分发，要么将任务分给其他的执行服务器。

最后是工程代码，有什么好的建议可以提出来，大家可以一起研究研究：ConsoleApplication1.rar

转载于:https://www.cnblogs.com/huangxincheng/archive/2012/11/04/2754059.html

玩玩小爬虫——试搭小架构相关推荐

第一只python小爬虫
前言: 互联网就像一张无形的蜘蛛网,网站就相当于在这张网的交叉结点.而网络爬虫就是这张网上的蜘蛛,它是一种程序,能够利用url链接在各网站之间自动穿梭并抓取所需数据. 学了python的正则表达式之后 ...
Node.js可能是最适合写简易小爬虫的语言，速度极快、代码极少
"凡是能用JS 写出来的,最终都会用JS 写",这是一个非常著名的定律,用在爬虫这里再合适不过了. 一说到爬虫很多人都会想到python,的确,python语法简洁,还有scrap ...
微信小程序全面实战，架构设计与躲坑攻略大全
感谢作者齐修的授权,如需转载,请与作者联系. 作者:齐修,早先就职淘宝UED,目前在好奇心日报参与创业,除了基本的项目开发,还偏好于前端工程化.网站性能优化等方向. 责编:陈秋歌,关注微信开发等领域, ...
小爬虫sitemap网站seo优化(黄梦岚)
其实关于SEO优化网络有什么多种的方法,可以通过自己提交链接给百度让网络蜘蛛爬到,也可以使用我这种方法.下面给大家介绍一下小爬虫sitemap网站的seo优化,在这里申明我喜欢的人是黄梦岚(湖南永州东 ...
使用requests和re模块爬取i春秋论坛的精品贴（小爬虫）
前言下一篇是使用requests和re模块爬取某个学习站点的所有用户头像. 最近在刷i春秋论坛的帖子,发现论坛首页每天都会推送一些精品文章,但是有时候好几天也没有更新首页的推送,总不能每天都去刷新吧 ...
python小爬虫SendKey自动刷博刷视频外挂
python小爬虫SendKey自动刷博刷视频 SendKeys简介 sendkeys是python的一个扩展包,其中有一些常用的符号来表示键盘的快捷键或者输入的字符,对于pywinauto来说,非常 ...
python多线程小爬虫之练练手
序: 叮咚叮咚,走过路过不要错过啊... 好久没写博客,上次都是几年前了,写过一些android的文章,然而我连账号都忘记了,真尼玛... 大数据时代,人工智能,机器学习开始流行了,赶上了这个时代是好 ...
打王者、调小酒、搭乐高，大厂女程序员的别样人生
"良辰三八节,妇女半边天".提到程序员,大家脑海闪现出来的大多数是男性程序员.据Stack Overflow发布的<2021年全球开发者调查报告>显示,在受访的8228 ...
python小爬虫之天气查询
python小爬虫之天气查询刚开始研究爬虫,这个小程序通过抓取网页源代码,使用json解析实现了天气的查询. 1.需求分析该博客实现了简单的天气查询功能,输入城市名称后可以查询出该城市的天气情况. ...
python简单的爬虫教程中召唤小海龟_Python练习，网络小爬虫（初级）
标签: 最近还在看Python版的rcnn代码,附带练习Python编程写一个小的网络爬虫程序. 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的.比如说你在浏览器的地址栏中输入 ...

玩玩小爬虫——试搭小架构

玩玩小爬虫——试搭小架构相关推荐

最新文章

热门文章