新媒体人必备数据分析工具|Web Scraper初级用法

关注公众号：Python爬虫数据分析挖掘，免费获取更多开源项目源码

对于新媒体运营来说，数据分析是必备的能力之一。工作中很多时候都会有很多需要进行数据收集的情况，这时候如果采用手动采集的情况，不仅效率极低，很浪费时间，也容易出错。

我一开始学习新新媒体运营的时候，有一次我在收集一个知乎大v的文章想要分析研究他的选题时，大晚上的我用复制黏贴到表格的方式整整用了一个小时。工作做完之后都有点手抖眼抽筋，累觉不爱，再也不想做这样的工作了。想偷懒的我在网络上扒了又扒，终于找到了这款傻瓜式的爬虫工具——web scraper。

web scraper最大的特点就是对于新手小白非常的友好，非常简单易学，不需要太复杂的编程代码知识，只需要轻松几步，就可以抓取到你所需的内容，一个小时就能轻松掌握。

注意了.jpg

一、Web scraper的下载安装

web scraper是一款chrome插件软件，你可以选择在chrome应用商店中下载安装，如果无法进入应用商店的话可以给我评论区留言，领取web scraper的安装包手动安装，只需要把压缩包拖到扩展工具中就可以了。

扩展工具.png

二、打开Web scraper

打开你想要抓取的网页内容，然后右键点击检查，就可以找到webscraper工具。或者选择通过Ctrl + Shift + I 或者直接点击F12 的方式打开。

打开web scraper.png

三、新建sitemap

create new sitemap下方的有creat sitemap和import sitemap两条命令，前一个是新建，后一个是通过倒入之前建立的代码来执行抓取命令。由于我们是入门，所以选择creat sitemap。

新建sitemap.png

输入sitemap name：这里可以输入你所在的网页名称，如果是豆瓣页，可以输入douban
输入start url(初始网页链接)：输入你所在的网页链接就行

四、参数设置

web scraper其实是模拟人的操作来实现数据的抓取的。想抓取二级页面要先抓取到一级页面的内容。
举个例子来说，你要做竞品分析，研究某个知乎创作者写的文章，想抓取标题、赞同数、评论数这些内容，那你必须首先要抓取到文章整体才能进一步抓取到标题、赞同数、评论数这些元素。
创建sitemap之后，就出现一个add new seletor（创建一个选择器）的参数。

参数设置.png

id：这里可以填写你要选择的内容名，比较随意，方便你自己的识别就可以了。比如我想抓取知乎创作者运营的小事的文章，这里我就填入yunyingdexiaoshi。
Type:你要抓取的内容的类型。这里边的下拉选项有text(文本)、link(链接）、image(图片)、table(表格)等等。我们这次要先抓取文章整体可以选择element选项。
Selector:点击选择Select。然后把鼠标移动到想要抓取的内容上方，直到选中整篇文章。先点击选中第一篇文章，然后点击选中第二篇文章，后边的文章就自动识别抓取。然后点击done selecting。

done selecting.png

Multiple:如果要抓取多个要素时点击选择multiple前面的小框。若是单个元素就不必点选了。
Save selecting:保存选择参数时点save selecting。

这样一级页面文章就选择完了，下一步是在文章页面下设置赞同数等二级选择。进入文章整体选择标题等元素时，root/ 后边这部分就是你刚刚抓取的一级选择内容名称。

进入二级页面.png

接下来就是设置二级选择的操作。和一级页面的操作类似。只是Type类型这要根据你想抓取的内容类型进行相应的选择，如果要抓取赞同数或者赞同数时，要选择Text的下拉选项，要抓取标题和链接时，选择的link的下拉选项。

五、爬取数据

点击scrape开始抓取数据，会出现两个参数：request interval和page load delay 默认的数值是2000，这个数值和网速有关，一般情况下2000是ok的。如果网速慢的话加载会比较慢，这样可能就会导致抓取到空白的内容。这种情况下可以把这两个数值设置的大一些，比如设置到3000甚至更大。

抓取时页面不能关，关的话容易出现错误。最后出现no data scraped yet.的页面就代表抓取完了。点refresh就可以预览抓取的内容。
最后想导出表格文件可以点击export data as CSV(csv是一种文件格式，支持excel)，然后download now。

六、用web scraper抓取多页

上述的操作可以抓取到你所在的页面单页的内容，如果你想抓取的网页是数字分页的形式，可以通过修改URL的方式实现抓取多页的目的。

一般数字分页这种多页的链接都是有一定规律的
如运营的小事的文章
第一页的链接： https://www.zhihu.com/people/CYFCX/posts?page=1
第二页的链接： https://www.zhihu.com/people/CYFCX/posts?page=2
第三页的链接： https://www.zhihu.com/people/CYFCX/posts?page=3
...

查看你所要抓取的首页和末页的页数，找到差值，如以上页面的差值是1。（不一定所有的差值都是1，一定要先观察好）。然后把规律链接的页数n改为[首页-末页:差值]，差值为1时可以忽略不写差值和冒号的部分。

如想要抓取运营的小事的1-4页的文章，在设置URL的时候可以先复制第一页的链接，把最后的数字1改为[1-4]，https://www.zhihu.com/people/CYFCX/posts?page=[1-4]，把它填入Start URL中。

多页抓取.png

这款傻瓜爬虫工具你get到了吗，快来练习起来吧！