如何快速建立一个网络爬虫（初学者指南）

作为一个采集新手，我搭建了一个网络爬虫，成功的从Amazon Career 网站中提取了20000条数据。如何建立一个网络爬虫并导出到数据库，最终可以将数据无成本地转变成你的财富? 跟着我我往下看吧。

什么是网络爬虫?

网络爬虫是一种网络机器人，它将互联网上的网页内容进行索引，然后它会自动抓取目标信息和数据。最后，它将数据导出为结构化的格式(列表/表格/数据库)。

为什么我们会需要网络爬虫，特别是对于企业来说?

假设百度搜索不存在。不使用搜索引擎输入关键词，你要花多长时间才能得到宫保鸡丁的配方? 每天有2.5亿亿个字节的数据被创建，也就是说，如果没有百度搜索，你几乎不可能在海量数据中找到需要的信息。

Ethan Jarrell《黑客正午》(Hackernoon)

百度搜索引擎是一种特别的网络爬虫，他会对全部网站进行索引，为我们找到需要的网站。除了百度搜索引擎，你也可以自己建立一个网络爬虫来帮助你实现：

1、内容聚合：将来自各个渠道的关于某一特定主题的信息集合到单个平台中。因此，抓取热门网站数据以及时为您的平台提供内容是非常有必要的。

2、情感分析：也叫意见挖掘。顾名思义，它是分析公众对一种产品和服务的态度的功能，它需要获取一组数据集来精确评估用户的正负面情感倾向。网络爬虫可以抓取博文帖子、用户回复和评论进行情感分析。

3、潜在客户线索挖掘：每个企业都需要主动挖掘潜在客户线索并跟进。假设你计划针对某一特定行业开展营销活动，你可以从参展商、参加商展的人员名单中获取其电子邮件、电话号码和公开资料，例如2018年法律招聘峰会的与会者信息。

作为初学者如何快速建立一个网络爬虫?

A.使用编程语言进行抓取

用计算机语言编写脚本的方式主要由程序员使用。下面是计算机编程代码片段的示例。

来源Kashif Aziz

Python是常用的爬虫程序语言。使用Python进行Web抓取包括三个主要步骤：

1、发送一个HTTP请求到网页的URL。它通过返回网页内容来响应你的请求。

2、解析网页。当网页交织和嵌套在一起时，解析器将创建HTML的树状结构。树状结构将帮助机器人沿着我们创建的路径查询和导航以获取信息。

3、使用python库搜索解析树。

在支持网络爬虫的计算机语言中，与PHP和Java相比，Python更易于实现，但它仍然有一个艰难的学习曲线。对于许多非技术人员来说，在有限的时间内学会Python爬虫，实现业务的数据采集需求，几乎是很难完成的一件事情。

B.使用网页采集器抓取数据

网页采集器有很多选择，我使用的是八爪鱼采集器，操作简单方便。相比于Python爬虫，八爪鱼可以说是毫无难度。

让我们回到Amazon Career网站的那个例子：

目标: 快速建立一个爬虫程序来采集行政岗位，包括职位标题、职位ID、描述、基本任职要求、优先任职要求和网页URL。

URL: https://www.amazon.jobs/en/job_categories/administrative-support

具体怎么做呢？

1. 打开八爪鱼采集器并选择“自定义采集”。输入上面的URL来设置一个新任务。

2. 正如大家所知，网页中包含了可翻到其他页面的多个分页。因此，我们需要设置自动翻页步骤，以便采集器能够自动浏览并采集其他页面。所以，点击页面上“下一页”按钮，并从操作提示框中选择“循环点击单个按钮”。

3.当我们想要点击每个职位列表项时，我们需要创建一个自动点击的循环项。因此，先点击第一个职位列表，然后八爪鱼采集器会发挥它的魔力，自动识别出页面上其他所有的职位列表。从操作提示框中选择“选中全部”选项，然后选择“循环点击每个元素”选项。

4. 现在，我们进入了详情页，我们需要告诉采集器去提取哪些数据。在本例中，点击“职位标题”，并从操作提示框中选择“采集该元素的文本”选项。接下来重复这个步骤，依次获得“职位ID”、“描述”、“基本任职要求”、“优先任职要求”和页面URL。

5. 设置好要提取的字段后，点击“开始采集”运行这个脚本就可以获取到数据了。

此外，该采集器还有其他亮点！

对于SaaS软件来说，使用采集器往往要求新用户先大量练习和看培训教程，然后才能充分享受到采集器带来的便利。八爪鱼为了进一步降低采集数据的难度，在软件内添加了覆盖了超过130个网站的“简易模板”。这些简易模板可以让用户不用设置任务脚本，就能直接获取到数据。

不过对于经验丰富的采集专家来说，“自定义模式”功能更强大，能够灵活稳定地抓取出企业级规模的数据量。八爪鱼采集器还为用户提供了丰富的培训教程，可以实战采集大量网站。

最后的想法

编程写脚本是很痛苦的，因为它有很高的初期制作和后期维护成本。没有两个网站是完全相同的，程序员需要为每个网站编写一个脚本。如果你需要抓取很多网站，写代码的方式可没那么高效。另外，网站可能会改变其布局版式和网页结构，所以程序员必须调整爬虫代码，以让他能采集到改版后的网页数据。这样太麻烦了！

通用的网页采集器则更加实用，而且花费更少，建议大家使用网页采集器，尤其建议企业使用。

如果您不知道如何选择合适的网页数据采集器，可以参考此文章：https://www.bazhuayu.com/blog/421