关注公众号:Python爬虫数据分析挖掘,免费获取更多开源项目源码

对于新媒体运营来说,数据分析是必备的能力之一。工作中很多时候都会有很多需要进行数据收集的情况,这时候如果采用手动采集的情况,不仅效率极低,很浪费时间,也容易出错。

我一开始学习新新媒体运营的时候,有一次我在收集一个知乎大v的文章想要分析研究他的选题时,大晚上的我用复制黏贴到表格的方式整整用了一个小时。工作做完之后都有点手抖眼抽筋,累觉不爱,再也不想做这样的工作了。想偷懒的我在网络上扒了又扒,终于找到了这款傻瓜式的爬虫工具——web scraper

web scraper最大的特点就是对于新手小白非常的友好,非常简单易学,不需要太复杂的编程代码知识,只需要轻松几步,就可以抓取到你所需的内容,一个小时就能轻松掌握。

注意了.jpg

一、Web scraper的下载安装

web scraper是一款chrome插件软件,你可以选择在chrome应用商店中下载安装,如果无法进入应用商店的话可以给我评论区留言,领取web scraper的安装包手动安装,只需要把压缩包拖到扩展工具中就可以了。

扩展工具.png

二、打开Web scraper

打开你想要抓取的网页内容,然后右键点击检查,就可以找到webscraper工具。或者选择通过Ctrl + Shift + I 或者直接点击F12 的方式打开。

打开web scraper.png

三、新建sitemap

create new sitemap下方的有creat sitemap和import sitemap两条命令,前一个是新建,后一个是通过倒入之前建立的代码来执行抓取命令。由于我们是入门,所以选择creat sitemap。

新建sitemap.png

输入sitemap name:这里可以输入你所在的网页名称,如果是豆瓣页,可以输入douban
输入start url(初始网页链接):输入你所在的网页链接就行

四、参数设置

web scraper其实是模拟人的操作来实现数据的抓取的。想抓取二级页面要先抓取到一级页面的内容。
举个例子来说,你要做竞品分析,研究某个知乎创作者写的文章,想抓取标题、赞同数、评论数这些内容,那你必须首先要抓取到文章整体才能进一步抓取到标题、赞同数、评论数这些元素。
创建sitemap之后,就出现一个add new seletor(创建一个选择器)的参数。

参数设置.png

id:这里可以填写你要选择的内容名,比较随意,方便你自己的识别就可以了。比如我想抓取知乎创作者运营的小事的文章,这里我就填入yunyingdexiaoshi。
Type:你要抓取的内容的类型。这里边的下拉选项有text(文本)、link(链接)、image(图片)、table(表格)等等。我们这次要先抓取文章整体可以选择element选项。
Selector:点击选择Select。然后把鼠标移动到想要抓取的内容上方,直到选中整篇文章。先点击选中第一篇文章,然后点击选中第二篇文章,后边的文章就自动识别抓取。然后点击done selecting。

done selecting.png

Multiple:如果要抓取多个要素时点击选择multiple前面的小框。若是单个元素就不必点选了。
Save selecting:保存选择参数时点save selecting。

这样一级页面文章就选择完了,下一步是在文章页面下设置赞同数等二级选择。进入文章整体选择标题等元素时,root/ 后边这部分就是你刚刚抓取的一级选择内容名称。

进入二级页面.png

接下来就是设置二级选择的操作。和一级页面的操作类似。只是Type类型这要根据你想抓取的内容类型进行相应的选择,如果要抓取赞同数或者赞同数时,要选择Text的下拉选项,要抓取标题和链接时,选择的link的下拉选项。

五、爬取数据

点击scrape开始抓取数据,会出现两个参数:request interval和page load delay 默认的数值是2000,这个数值和网速有关,一般情况下2000是ok的。如果网速慢的话加载会比较慢,这样可能就会导致抓取到空白的内容。这种情况下可以把这两个数值设置的大一些,比如设置到3000甚至更大。

抓取时页面不能关,关的话容易出现错误。最后出现no data scraped yet.的页面就代表抓取完了。点refresh就可以预览抓取的内容。
最后想导出表格文件可以点击export data as CSV(csv是一种文件格式,支持excel),然后download now。

六、用web scraper抓取多页

上述的操作可以抓取到你所在的页面单页的内容,如果你想抓取的网页是数字分页的形式,可以通过修改URL的方式实现抓取多页的目的。

一般数字分页这种多页的链接都是有一定规律的
如运营的小事的文章
第一页的链接: https://www.zhihu.com/people/CYFCX/posts?page=1
第二页的链接: https://www.zhihu.com/people/CYFCX/posts?page=2
第三页的链接: https://www.zhihu.com/people/CYFCX/posts?page=3
...

查看你所要抓取的首页和末页的页数,找到差值,如以上页面的差值是1。(不一定所有的差值都是1,一定要先观察好)然后把规律链接的页数n改为[首页-末页:差值],差值为1时可以忽略不写差值和冒号的部分。

如想要抓取运营的小事的1-4页的文章,在设置URL的时候可以先复制第一页的链接,把最后的数字1改为[1-4],https://www.zhihu.com/people/CYFCX/posts?page=[1-4],把它填入Start URL中。

多页抓取.png

这款傻瓜爬虫工具你get到了吗,快来练习起来吧!

新媒体人必备数据分析工具|Web Scraper初级用法相关推荐

  1. 新媒体人必备的10个效率工具,神器收藏起来

    开启更多功能,提升办公效能 俗话说的好,一个合格的运营人,要能文能武,能做图能写文,做得了策划也统计得了数据,而想要真正有这么多能力傍身,手头上没有几个超凡的新媒体工具,是办不到的. 或者说有了工具的 ...

  2. 新媒体人必备的4个热点数据分析工具,超实用

    新媒体人需要及时.准确地获取热点资讯.这样才能够及时抓住新闻事件,提供有价值的内容.此外,通过对新闻事件的分析,还能够为新闻机构或企业提供决策参考.因此,对实时热点的数据分析是非常重要的,给大家介绍几 ...

  3. 自媒体人必备运营工具

    大周昨天熬夜整理了一期干货,各种必备的辅助工具分享给粉丝们,发福利啦!抓紧点赞收藏! 1.创作灵感 (1)干货:梅花网.数英网.广告门.鸟哥笔记 (2)创意:adage.topys. 2.热点资讯 ( ...

  4. 地图选择器怎么用_简易数据分析 15 | Web Scraper 高级用法——CSS 选择器的使用....

    [ 这是简易数据分析系列的第 15 篇文章 ] 年末事情比较忙,很久不更新了,后台一直有读者催更,我看了一些读者给我的私信,发现一些通用的问题,所以单独写篇文章,介绍一些 Web Scraper 的进 ...

  5. 新媒体人必备!视频号直播避坑指南

    其中,禁言.警告都算是小惩,而封停直播一次流量就清零,被封10年.20年的视频号基本"宣判死刑". 春节即将到来(榜哥榜妹明天开始也要放假啦),在这个重要的营销节点,微信的监管力度 ...

  6. 营销人、新媒体人、广告人必备神器:电脑录屏工具!

    电脑录屏工具大家了解吗?身边的很多小伙伴们都开始询问怎样录屏了,随着视频越来越普及,很多人都迫不及待的做自己的视频,秀在自己的朋友圈,各种媒体账号上,一不小心就可能成为网红或者主播,对于营销人.新媒体 ...

  7. 自媒体人必备的4大工具,全部免费,快收藏起来

    想要做好自媒体,找准运营工具是必不可少的.从找素材到创作到发布再到运营,工具渗透在自媒体运营整个过程中.今天就给大家介绍一下,自媒体人必备的4大工具,全部免费,大家快收藏起来吧: 01 平台 首先我们 ...

  8. 新媒体人有哪些必备的宝藏网站?

    新媒体人有哪些必备的宝藏网站? 前言 一.图片素材网站 二.文章排版网站--新榜 三.图片设计网站--canva 四.二维码生成网站--二维彩虹 文章目录 前言 一.图片素材网站 二.文章排版网站-- ...

  9. 自媒体人必备的3款宝藏工具,编辑、剪辑、配音软件都全了

    最近这几年,想必大家都经常听到自媒体是未来副业的趋势,什么都可以不做,但是自媒体一定要重视,这些语句,都是这两年听到最多的话题. 许多新手小白会问:自媒体方向有哪些呢?比如我们经常看到的,公众号百家号 ...

最新文章

  1. SpringMVC 学习系列 (3) 之 URL请求到Action的映射规则
  2. window.open()具体解释及浏览器兼容性问题
  3. 算法学习笔记(一):二分法及其实现
  4. C#使用Cookie方法
  5. as it exceeds the max of 500KB._我的英雄学院The “Ultra” Stage角色介绍第三弹!
  6. const与修饰函数形参
  7. 编译32位_实战经验:在Windows平台编译x264
  8. SQL 2005 带自增列 带外键约束 数据导入导出
  9. word2vec原理CBOW与Skip-Gram模型基础
  10. global.asax、global.asax.compiled、PrecompiledApp.config三者关系
  11. docker 僵尸进程
  12. 53Java模拟器,515最好的java模拟器
  13. bootstrap的图标新手使用教程
  14. 金陵五题·并序 刘禹锡
  15. 會懷孕的木乃伊~恐怖!! 使木乃伊懷孕的人~更加恐怖!
  16. 为什么有人会说「感谢拼多多」,让一贫如洗的我还能活下去?
  17. 【C语言 基础】函数的形参与实参
  18. MD5加密算法与SHA加密算法
  19. 小度的进攻,智能音箱的“二战”
  20. Java笔记整理六(File类,递归,字节流IO,字符流IO,流中的异常处理,属性集Properties,缓冲流,转换流,序列化,打印流)

热门文章

  1. 主打智能连接 Qlogic布局以太网及FC市场
  2. 东南大学计算机类学什么,东南大学王牌专业有哪些?最全解析来了!
  3. linux给文件夹下所有文件授权,Linux 如何将一个文件夹的所有内容授权给某一个用户...
  4. 【机器学习】聚类算法、社区发现
  5. HTML网页设计结课作业:商城网站设计——节日礼品购物商城网站html(14页) HTML+CSS+JavaScript
  6. 李子柒一年能赚多少钱?年薪竟然是阿里 P8 级别的 200 倍!
  7. Robotstudio软件二次开发:基于C#语言的Smart组件开发基础
  8. 【Linux】文件与目录管理
  9. 微信小程序--日历模块页面
  10. Python基于Scapy的抓包协议分析器