2.这就是搜索引擎:核心技术详解 --- 网络爬虫

1.爬虫框架：1.批量2.增量3.垂直2.优秀爬虫特性：1.高性能2.可扩展3.健壮4.友好性3.爬虫质量的评价标准：1.抓取网页的覆盖率2.抓取网页时新性3.抓取网页重要性4.抓取策略：1.宽度优先遍历策略2.非完全PageRank策略3.OCIP策略(在线页面重要性计算)4.大站优先策略5.网页更新策略:1.历史参考策略2.用户体验策略3.聚类抽样策略6.暗网抓取:1.查询组合问题2.文本框填写问题7.分布式爬虫:1.主从式分布爬虫2.对等式分布爬虫通用爬虫引擎的处理对象是互联网网页，目前网页数量以百亿级，所以搜索引擎首先面临的问题就是：如何能够设计出高效的下载系统，以将如此海量的网页数据传送到本地，在本地形成互联网网页的镜像备份。2.1　通用爬虫框架　通用爬虫框架流程:首先从互联网页面中精心挑选一部分网页，以这些网页的链接地址作为种子url，将这些种子url放入待抓取的url队列中，爬虫从待抓取url队列依次读取，并将url通过dns解析，把链接地址转换为网站服务器对应的ip地址。然后将其和网页相对路径名称交给网页下载器，网页下载器负责页面内容的下载。对于下载到本地的网页，一方面将其存储到页面库中，等待建立索引等后续处理；另一方面将下载网页的url放入已抓取url队列中，这个队列记载了爬虫系统已经下载过的网页url，以避免网页的重复抓取。对于刚下载的网页，从中抽取出所包含链接信息，并在已抓取url队列中检查，如果发现链接没有被抓取过，则将这个url放入待抓取url队列末尾，在之后的抓取调度中会下载这个url对应的网页。如此这般，直到待抓取url队列为空，这代表着爬虫系统已经能够将抓取的网页尽数抓完，此时完成了一轮完成的抓取过程。对于爬虫来说，往往还需要考虑进行网页去重及网页反作弊。如果从更加宏观的角度考虑，处于动态抓取过程中的爬虫和互联网所有网页之间的关系，将互联网页面划分为5个部分：1.已下载网页集合爬虫已经从互联网下载到本地进行索引的网页集合。2.已过期网页集合由于网页数量巨大，爬虫完整抓取一轮需要较长时间，在抓取过程中，很多已经下载的网页可能过期。之所以如此，是因为互联网网页处于不断的动态变化过程中，所以易产生本地网页内容和真实互联网网页不一致的情况。3.待下载网页集合待抓取url队列中的网页，这些网页即将被爬虫下载。4.可知网页集合这些网页没有被爬虫下载，也没有出现在待抓取url队列中，不过通过已经抓取的网页或者待抓取url队列中的网页，总是能够通过链接关系发现它们，稍晚的时候会被爬虫抓取并索引。5.不可知网页集合有些网页对于爬虫来说是无法抓取的，这部分网页构成了不可知网页集合。事实上，这部分网页所占的比例很高。从理解爬虫的角度看，对于互联网网页给出如上划分有助于深入理解搜索引擎爬虫所面临的主要任务和挑战。大体而言，可以将爬虫划分为如下3种类型：1.批量爬虫型批量爬虫型有比较明确的抓取范围和目标，当爬虫达到这个设定的目标后，即停止抓取过程。至于具体目标可能各异，也许是设定抓取一定数量的网页即可，也许是设定抓取消耗的时间等。2.增量爬虫型与批量爬虫不同，会保持不断抓取的过程，对于抓取的网页，要定期更新，因为互联网网页处于不断变化中，新增的网页，网页被删除或者网页内容更改都很常见，而增量型爬虫需要及时反映这种变化，所以处于持续不断的抓取过程中，不是在抓取新的网页，就是在更新已有的网页。通用的商业搜索引擎爬虫基本属于此类。3.垂直爬虫型垂直爬虫关注特定主题内容或者属于特定行业的网页。垂直爬虫一个最大的特点和难点就是：如何识别网页内容是否属于特定行业或者主体。从节省系统资源的角度来说，不太可能把所有互联网页面下载下来之后再去筛选，这样浪费资源就太过分了，往往需要爬虫在抓取阶段就能够动态识别某个网址是否与主题相关，并尽量不去抓取无关页面，以达到节省资源的目的。垂直搜索网站或者垂直行业网站往往需要此种类型的爬虫。2.2　优秀爬虫的特性　1.高性能这里的性能主要是指爬虫下载网页的抓取速度，常见的评价方式是以爬虫每秒能够下载的网页数量作为性能指标，单位时间内能够下载的网页数量越多，则爬虫的性能越高。要提高爬虫的性能，在设计时程序访问磁盘的操作方法和具体实现时数据结构的选择很关键，比如对于待抓取的url队列和已抓取的url队列，因为url数量非常大，不同实现方式性能 表现迥异，所以高效的数据结构对于爬虫性能影响很大。2.可扩展性即很容易通过增加抓取爬虫服务器和爬虫数量来达到此目的。目前使用的大型网络爬虫一定是分布式的，即多台服务器专做抓取，每台服务器部署多个爬虫，每个爬虫多线程运行，通过多种方式增加并发性。对于商业搜索引擎来说，可能还要在全球范围，不同地域分别部署数据中心，爬虫也被分配到不同的数据中心。3.健壮性爬虫要访问各种类型的网站服务器，可能会遇到很多种非正常的情况，比如网页html编码不规范，被抓取服务器突然死机，甚至是爬虫陷阱。对各种异常情况能够正确处理非常重要，否则可能会不定期停止工作，这是无法容忍的。4.友好性爬虫的友好性包括2方面：一是保护网站的部分隐私，另外一个是减少被抓取网站的网络负载。爬虫抓取的对象是各种类型的网站，对于网站拥有者来说，有些内容不希望被爬取，所以需要设定协议，来告知爬虫哪些内容是不允许抓取的。目前有2个主流方法可达到此目的：爬虫禁抓协议和网页禁抓协议。爬虫禁抓协议(Robot Exclusion Protocol)指的是由网站所有者生成一个指定的文件robot.txt，并放在网站服务器的根目录下，这个文件指明了网站中哪些目录下的文件是不允许爬虫抓取的。具有友好性的爬虫在抓取该网站的网页前，首先要读取robot.txt,对禁止抓取的网页一般不进行下载。robot.txtUser-Agent:GoogleBot  // 针对哪个爬虫Disallow:/tmp/    //不允许抓取的目录Disallow:/cgi-bin/Disallow:/users/paranoid/爬虫禁抓协议一般以目录为单位，即整个目录下的网页或内容都不允许被抓取。如果只想让单个网页不被抓取，该如何做？网页禁抓协议标记(Robot META tag)可在此场合派上用场。即在网页的html代码里面加入 meta name="robots" 标记，content字段指出允许或者不允许爬虫的哪些行为。可分为2种，一种是告知爬虫不要索引该网页内容，以noindex作为标记；另外一种是告知爬虫不要抓取网页所包含的链接，以nofollow作为标记。通过这种形式，可以达到对网页内容的一种隐私保护。//禁止索引网页内容<meta name="robots" content="noindex"> //禁止抓取网页链接<meta name="robots" content="nofollow">遵从以上协议的爬虫可以被认为是友好的，这是从保护私密性的角度考虑的。另外一种友好是，希望爬虫对某网站的访问造成的网络负载较低。2.3　爬虫质量的评价标准　从搜索引擎用户体验的角度考虑，对爬虫工作效果有不同的评价标准：1.抓取网页的覆盖率爬虫系统抓取的网页数量占互联网所有网页数量的比例。2.抓取网页时新性对于抓到本地的网页来说，很多网页可能已经发生变化，或者被删除，或者内部被修改，因为爬虫完成抓取一轮需要较长的时间周期，所以有一部分过期数据，网页的时新性越好，对用户体验的作用不言而喻。3.抓取网页重要性通盘考虑以上3个因素，可将爬虫研发的目标简单描述为：在资源有限的情况下，既然只能抓取互联网网页的一部分，那么就尽可能选择比较重要的那部分网页来索引；对于已经抓取的网页，尽可能的更新其内容，使索引网页和互联网对应的网页内容同步更新；在此基础上，尽可能扩大抓取范围，抓取到更多以前无法发现的网页。以google为例，至少包含2套不同目的的爬虫系统，一套被称为Fresh Bot,主要考虑网页的时新性，对于内容更新频繁的网页，目前可以达到秒计的更新周期；而另外一套被称为Deep Crawl Bot，主要针对其他更新不是那么频繁的网页抓取，以天为更新周期。此外，还有对暗网抓取的系统。其中，暗网抓取技术是为了增加网页覆盖率，网页更新策略也是为了增加下载网页的时效性，网页重要性评价标准则是抓取策略的核心，而分布式爬虫的分布机制也决定了爬虫系统的性能。2.4　抓取策略　在爬虫系统中，待抓取url队列是很关键的部分，需要爬虫抓取网页url在其中顺序排列，形成一个队列结构，调度程序每次从队列头取出某个url，发送给网页下载器下载页面内容，每个新下载的页面包含url会追加到待抓取url队列的末尾，如此形成循环，整个爬虫系统可以说是靠这个队列驱动的。待抓取url队列中的页面顺序是如何确定的？爬虫的不同抓取策略，就是利用不同的方法来确定待抓取url队列中url优先顺序的。爬虫的抓取策略有很多种，但不论方法如何，其基本目标一致：优先选择重要网页进行抓取。在爬虫系统中，所谓网页的重要性，其评判标准可以选择不同的方法，但是大部分都是按照网页的流行性来定义的。'链接分析'介绍的PageRank 就是评价网页重要性的常用标准。抓取的策略很多，包括4种：宽度优先遍历策略，非完全PageRank策略，OCIP策略及大站优先策略。2.4.1　宽度优先遍历策略（Breath　First）宽度优先遍历是一种非常简单直观且历史悠久的遍历方法，在搜索引擎爬虫一出现就开始采用，新提出的抓取策略往往会将这种方法作为比较基准。但应该注意到的是，这种策略也是一种相当强悍的方法，很多新方法实际效果不见得比宽度优先遍历策略好，所以至今这种方法也是很多实际爬虫系统优先采用的策略。"将新下载的网页包含的链接直接追加到待抓取url队列的末尾"，这就是宽度优先遍历的思想。也就是说，这种方法没有明确提出和使用网页重要性衡量标准，只是机械的将新下载的网页抽取链接，并追加到待抓取url队列中，以此安排url的下载顺序。实验表明这种策略效果很好，虽然看似机械，但实际上的网页抓取顺序基本是按照网页的重要性排序的。之所以如此，有研究人员认为：如果某个网页包含很多入链，那么更有可能被宽度优先策略遍历策略早早的抓到，而入链个数从侧面体现了网页的重要性，即实际上宽度优先遍历策略隐含了一些网页优先级假设。2.4.2　非完全PageRank策略（Partial　PageRank）　pagerank是一种著名的链接分析算法，可以用来衡量网页的重要性。很自然的，可以想到用pagerank的思想来对url优先级进行计算排序。但这有个问题，pagerank是全局性算法，也就是说当所有网页都下载完成后，其计算结果才是可靠的，而爬虫的目的就是去下载网页，在运行过程中只能看到一部分页面，所以在抓取阶段的网页是无法获得可靠的pagerank得分的。如果我们仍然坚持在这个不完整的互联网页面子集内计算pagerank呢？这就是非完全pagerank策略的基本思路：对于已经下载的网页，加上待抓取url队列中的url一起，形成网页集合，在此集合内进行pagerank计算，计算完成后，将待抓取url队列中的网页按照pagerank得分由高到低排序，形成的序列就是爬虫接下来应该依次抓取url列表。这也是称之为'非完全pagerank'的原因。如果每次新抓取一个网页，就将所有已经下载的网页重新计算新的非完全pagerank值，明显效率更低。一个折中的方法是：每当新下载的万个亿攒够k个，然后就将所有的页面重新计算一遍非完全pagerank。这样的计算效率还能勉强接受，但是又引来新问题：在展开下一轮pagerank计算之前，从新下载的网页抽取包含的链接，很有可能这些链接的重要性非常高，理应优先下载，这种情况如何解决？非完全pagerank赋予这些新抽取出来但是又没有pagerank值的网页一个临时pagerank值，将这个网页的所有入链传导的pagerank值汇总，作为临时pagerank值，如果这个值比待抓取url队列中已经计算出来的pagerank值的网页高，那么优先下载这个url。2.4.3　OCIP策略（Online　Page　Importance　Computation）　OCIP的字面含义是'在线页面重要性计算'，可以将其看做是一种改进的pagerank算法。在算法开始之前，每个互联网页面都赋予相同的'现金'（cash），每当下载了某个页面p后，p将自己的拥有的现金平均分配给页面中包含的链接页面，把自己的现金清空。而对于带抓取url队列中的网页，则根据手头拥有的现金金额多少排序，优先下载现金最充裕的网页。ocip从大的框架上与pagerank思路基本一致，区别在于：pagerank每次需要迭代计算，而ocip策略不需要迭代过程，所以计算速度远远大于pagerank，适合实时计算使用。同时，pagerank在计算时，存在向无连接关系网页的远程的跳转过程，而ocip没有这一计算因子。实验结果表明，ocip是种较好的重要性策略，效果略优于宽度优先遍历策略。2.4.4　大站优先策略（Larger　Sites　First）　大站优先策略很直接：以网站为单位来衡量网页的重要性，对于待抓取url队列中的网页，根据所属网站归类，如果哪个网站等待下载的页面最多，则优先下载这些链接。其本质思想倾向于优先下载大型网站，因为大型网站往往包含更多的页面。2.5　网页更新策略　对于已经抓取过的网页，爬虫还要负责保持其内容与互联网网页内容的同步，这取决于爬虫采用的网页更新策略。网页更新策略的任务是要决定何时重新抓取之前已经下载过的网页，一般有3种：历史参考策略，用户体验策略和聚类抽样策略。2.5.1　历史参考策略　历史参考策略是最直观的一种更新策略，它建立在如下假设之上：过去频繁更新的网页，那么将来也会频繁更新。所以，为了预估某个网页何时进行更新，可以通过参考其历史更新情况做出决定。这种方法常常利用泊松过程来对网页的变化进行建模，根据每个网页过去的变动情况，利用模型预测将来何时内容会再次发生变化，以此来指到爬虫的抓取过程。2.5.2　用户体验策略　一般来说，搜索引擎用户提交查询后，相关的搜索结果可能成千上万，而用户没有耐心看排在后面的结果。用户体验策略就是利用搜索引擎用户的这个特点来设计更新策略的。这种更新策略以用户体验为核心，即使本地索引的网页内容是过时的，但是如果不影响用户体验，那么晚些更新这些过时网页也未尝不可。用户体验策略保存网页的多个历史版本，并根据过去每次内容变化对搜索质量的影响，得出一个平均值，以此作为判断爬虫抓取网页时机的参考依据，对于影响越厉害的网页，则越优先调度重新抓取。2.5.3　聚类抽样策略　上面2种网页更新策略严重依赖网页的历史更新信息，因为这是能够进行后续计算的基础。但是现实中，为每个网页保存历史信息，搜索系统会大量增加额外的负担。从另外的角度看，如果是首次抓取的网页，因为没有历史信息，所以也就无法按照这2种思路去预估其更新周期。聚类抽样策略即是为了解决上述缺点而提出的。聚类抽样策略认为：网页具有一些属性，根据这些属性可以预测其更新周期，具有相似属性的网页，其更新周期也是类似的。于是，可以根据这些属性将网页归类，同一类别的网页具有相同的更新频率。为了计算某个类别的更新周期，只需对类别内的网页进行采样，以这些被采样网页的更新周期作为类别内所有其他网页的更新周期。与上述的2种方案对比，这种策略一方面无需为每个网页保存历史信息；另一方面，对于新网页，即使没有历史信息，也可以根据其所属类别来进行更新。研究中，将能够体现网页更新周期的属性划分为2大类：静态特征和动态特征。静态特征包括：页面的内容，图片数量，页面大小，链接深度，pagerank值等十几种；而动态特征则体现了随着时间的变化情况，比如图片数量的变化情况，入链出链的变化情况等。根据这2类特征，即可对网页进行聚类。实验表明，聚类抽样策略效果好于前述2种更新策略，但是对以亿计的网页进行聚类，其难度也是非常大的。2.6　暗网抓取（Deep　Web　Crawling）　所谓暗网，是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。如前面所说，搜索引擎的爬虫依赖页面中的链接关系发现新的页面，但很多网站的内容是以数据库方式存储的，典型的例子就是垂直网站，比如携程的机票数据，很难有显式链接指向其数据库内的记录，往往是服务网站提供组合查询页面，只有用户按照需求输入查询之后，才可能获得相关数据。所以，常规的爬虫是无法索引这些数据内容，这是暗网的命名由来。为了能够对暗网的数据进行索引，需要研发与常规爬虫机制不同的系统，这类爬虫被称为暗网爬虫。暗网爬虫的目的是将暗网数据从数据库中挖掘出来，并将其加入搜索引擎的索引，这样用户在搜索时变可利用这些数据，增加信息覆盖的程度。垂直网站提供的搜索页面，往往需要人工选择或者填写内容，比如机票搜索需要选择出发地，目的地等。而暗网爬虫为了能够挖掘数据库的记录，必须模拟人的行为，填写内容并提交表单。对于暗网爬虫来说，其技术挑战有2点：一是查询组合太多，如果一一组合，那么会给被访问网站造成太大的压力，所以如何精心组合查询选项是个难点；第二点在于：有的查询是文本框，比如图书中输入书名，爬虫怎样才能填入合适的内容？也是个挑战。2.6.1　查询组合问题　 暗网爬虫希望能够将某个垂直网站的数据库记录尽可能多的下载到索引库中，但这是约束和前提条件的，即不能给被访问网站造成过大的访问压力，同时尽可能节省爬虫本身的资源。垂直网站往往会给用户提供多个查询输入框，不同输入框代表了搜索对象某方面的属性，通过组合这些属性来将搜索范围缩小。对于暗网爬虫来说，一个简单粗暴的方式就是：将各种输入框的可能输入值组合起来遍历一遍。这种没有必要，因为很多组合是无效的，也给网站造成压力。google对此提出了解决方案，称之为富含信息查询模板技术。对于一个固定的垂直搜索来说，其查询模板组合起来很多，我们的任务是找到富含信息的查询模板，那么什么又是富含信息的查询模板？google给的技术方案是如此定义的：对于某个固定的查询模板来说，如果给模板内的每个属性都赋值，形成不同的查询组合，提交给垂直搜索引擎，观察所有返回页面的内容，如果相互之间内容差异比较大，则这个查询模板就是富含信息查询模板。这样规定，是基于如下考虑：如果返回结果页面内容重复太多，很可能这个查询模板的维度太高，导致很多种组合无搜索结果，抑或构造的查询本身就是错误的，搜索系统返回了错误页面。假设按照上面方式对所有查询模板一一试探，判断其是否富含信息查询模板，则因为查询模板数量太多，系统效率还是会很低。google为此提出了技术方案是使用ISIT算法。ISIT算法的基本思路是：首先从一维模板开始，对一维查询进行逐个考察，看其是否为富含信息模板，如果是的话，则将这个一维模板扩展到二维，再观察，逐步增加维数，直到再也无法找到富含信息的查询模板为止。通过这种方式，就可以找到大多数富含信息查询模板，同时也尽可能减少了提交的查询总数。2.6.2　文本框填写问题　对于输入中的文本框，需要爬虫自动生成查询。在爬虫运转起来之前，因为对目标网站一无所知，所以必须提供一些提示。通过人工观察网站进行定位，提供一个与网站内容相关的初始种子查询关键字，对于不同的网站，需要人工提供不同的词表，以此作为爬虫能够继续工作的基础条件。爬虫根据初始种子词表，向垂直搜索引擎提交查询，并下载返回的结果页面。之后从返回结果中自动挖掘出相关的关键字，并形成一个新的查询列表，依次将新挖掘的查询提供给搜索引起。如此反复，直到无法下载到新的内容为止。这种通过人工启发结合递归迭代的方式，尽可能的覆盖数据库里的记录。2.7　分布式爬虫　对于商业搜索引擎来说，分布式爬虫架构是必须采用的技术。分布式架构可以分为若干个分布式层级，不同的应用可能由其中部分层级构成。如，分布式数据中心，分布式抓取服务器以及分布式爬虫程序。整个爬虫系统由全球多个分布式数据中心构成，每个数据中心负责抓取本地域周边的互联网网页。每个数据中心又由多台高速网络连接的抓取服务器组成，而每台服务器又可能部署多个爬虫程序。对于同一数据中心的多台抓取服务器，不同机器之间的分工协作方式会有差异，常见的分布式架构有2种：主从分布式和对等式分布式爬虫。2.7.1　主从式分布爬虫（Master-Slave）　不同的服务器承担不同的角色分工，其中一台专门负责对其他服务器提供url分发服务，其他机器则进行实际的网页下载。url服务器维护待抓取url对垒，并从中获得待抓取网页的url，分配给不同的抓取服务器，另外还要对抓取服务器之间的工作进行负载均衡，使得各个服务器承担的工作量大致相等。抓取服务器之间没有通信联系，每个抓取服务器只和url服务器尽心消息通信。url服务器容易成为瓶颈。2.7.2　对等式分布爬虫（Peer　to　Peer）在对等分布式爬虫体系中，服务器之间不存在分工差异，每个服务器承担相同的功能，各自负担一部分url的抓取工作。Mercator爬虫采用此种体系架构。由于没有url服务器存在，每台抓取服务器的任务分工就成为问题。由服务器自己来判断某个url是否应该由自己来抓取，或者将这个url传递给相应的服务器。至于采用的判断方法，则是对网址的主域名进行哈希，之后取模(即hash[域名]%m,这里的m对应服务器个数)，如果计算所得的值和抓取服务器编号匹配，则自己下载该网页，否则将该网址转发给对应编号的抓取服务器。缺点是，如果抓取过程中某台服务器宕机，或者此时新加入一台服务器，因为取模的m是固定的，此时m发生变化，会导致大部分url哈希取模后的值跟着变化。可以采用一致性哈希。

2.这就是搜索引擎:核心技术详解 --- 网络爬虫相关推荐

《这就是搜索引擎:核心技术详解》---读后感
搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻.搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大 ...
这就是搜索引擎核心技术详解@学习笔记
对应文章的下载地址: http://download.csdn.net/detail/yijiyong100/6356227 背景关于本篇学习笔记,只是把书中的一些概念进行了归纳,同时把个人的一 ...
1.这就是搜索引擎:核心技术详解 --- 搜索引擎及其技术架构
1.搜索引擎及其技术架构1.2 搜索引擎技术发展史 1.2.1 史前时代:分类目录的一代 1.2.2 第一代:文本检索的一代 1.2.3 第二代:链接分析的一代这一代的搜索引擎充分利用了网页之间的链 ...
详解网络爬虫：网络爬虫是干什么的？有哪些应用场景？
随着互联网信息的爆炸,网络爬虫渐渐为人所熟知.作为一种自动爬取网页信息的手段,很多人其实都不太清楚它在实际生活的巨大作用.那么,网络爬虫是干什么的?有哪些应用场景呢?简单来讲,搜索引擎.统计数据.出行 ...
这就是搜索引擎：核心技术详解
这就是搜索引擎:核心技术详解张俊林著 ISBN 978-7-121-14865-1 2012年1月出版定价:45.00 元 16开 320页宣传语:改变全世界人们生活方式的"信息之门 ...
ARP命令详解--网络命令详解二
显示和修改"地址解析协议 (ARP)"缓存中的项目.ARP 缓存中包含一个或多个表,它们用于存储 IP 地址及其经过解析的以太网或令牌环物理地址.计算机上安装的每一个以太网或令牌环 ...
php操作ElasticSearch搜索引擎流程详解
更多python.php教程请到友情连接: 菜鸟教程https://www.piaodoo.com 茂名一技http://www.enechn.com ppt制作教程步骤 http://www.tpy ...
90分钟详解网络编程相关的细节处理丨 reactor丨网络io丨epoll丨C/C++丨Linux服务器开发丨后端开发丨Linux后台开发
90分钟搞懂网络编程相关细节处理 1. 网络编程四要素 2. io多路复用 3. reactor三种基础封装方式视频讲解如下,点击观看: 90分钟详解网络编程相关的细节处理丨 reactor丨网络i ...
Python爬虫详解：爬虫是什么，如何做爬虫？
Python爬虫详解:爬虫是什么,如何做爬虫? 读前必看: 本篇文章为教学向文章,通俗易懂的语言难免有不合适的地方,请大佬自行退场爬虫是什么? 去查网,你会看到这样的解释: 爬虫是一种按照一定的规则 ...
python编程入门与案例详解pdf-Python爬虫天气预报实例详解（小白入门）
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬 ...

2.这就是搜索引擎:核心技术详解 --- 网络爬虫

2.这就是搜索引擎:核心技术详解 --- 网络爬虫相关推荐

最新文章

热门文章