新媒体人必备数据分析工具|Web Scraper初级用法
关注公众号:Python爬虫数据分析挖掘,免费获取更多开源项目源码
对于新媒体运营来说,数据分析是必备的能力之一。工作中很多时候都会有很多需要进行数据收集的情况,这时候如果采用手动采集的情况,不仅效率极低,很浪费时间,也容易出错。
我一开始学习新新媒体运营的时候,有一次我在收集一个知乎大v的文章想要分析研究他的选题时,大晚上的我用复制黏贴到表格的方式整整用了一个小时。工作做完之后都有点手抖眼抽筋,累觉不爱,再也不想做这样的工作了。想偷懒的我在网络上扒了又扒,终于找到了这款傻瓜式的爬虫工具——web scraper。
web scraper最大的特点就是对于新手小白非常的友好,非常简单易学,不需要太复杂的编程代码知识,只需要轻松几步,就可以抓取到你所需的内容,一个小时就能轻松掌握。
注意了.jpg
一、Web scraper的下载安装
web scraper是一款chrome插件软件,你可以选择在chrome应用商店中下载安装,如果无法进入应用商店的话可以给我评论区留言,领取web scraper的安装包手动安装,只需要把压缩包拖到扩展工具中就可以了。
扩展工具.png
二、打开Web scraper
打开你想要抓取的网页内容,然后右键点击检查,就可以找到webscraper工具。或者选择通过Ctrl + Shift + I 或者直接点击F12 的方式打开。
打开web scraper.png
三、新建sitemap
create new sitemap下方的有creat sitemap和import sitemap两条命令,前一个是新建,后一个是通过倒入之前建立的代码来执行抓取命令。由于我们是入门,所以选择creat sitemap。
新建sitemap.png
输入sitemap name:这里可以输入你所在的网页名称,如果是豆瓣页,可以输入douban
输入start url(初始网页链接):输入你所在的网页链接就行
四、参数设置
web scraper其实是模拟人的操作来实现数据的抓取的。想抓取二级页面要先抓取到一级页面的内容。
举个例子来说,你要做竞品分析,研究某个知乎创作者写的文章,想抓取标题、赞同数、评论数这些内容,那你必须首先要抓取到文章整体才能进一步抓取到标题、赞同数、评论数这些元素。
创建sitemap之后,就出现一个add new seletor(创建一个选择器)的参数。
参数设置.png
id:这里可以填写你要选择的内容名,比较随意,方便你自己的识别就可以了。比如我想抓取知乎创作者运营的小事的文章,这里我就填入yunyingdexiaoshi。
Type:你要抓取的内容的类型。这里边的下拉选项有text(文本)、link(链接)、image(图片)、table(表格)等等。我们这次要先抓取文章整体可以选择element选项。
Selector:点击选择Select。然后把鼠标移动到想要抓取的内容上方,直到选中整篇文章。先点击选中第一篇文章,然后点击选中第二篇文章,后边的文章就自动识别抓取。然后点击done selecting。
done selecting.png
Multiple:如果要抓取多个要素时点击选择multiple前面的小框。若是单个元素就不必点选了。
Save selecting:保存选择参数时点save selecting。
这样一级页面文章就选择完了,下一步是在文章页面下设置赞同数等二级选择。进入文章整体选择标题等元素时,root/ 后边这部分就是你刚刚抓取的一级选择内容名称。
进入二级页面.png
接下来就是设置二级选择的操作。和一级页面的操作类似。只是Type类型这要根据你想抓取的内容类型进行相应的选择,如果要抓取赞同数或者赞同数时,要选择Text的下拉选项,要抓取标题和链接时,选择的link的下拉选项。
五、爬取数据
点击scrape开始抓取数据,会出现两个参数:request interval和page load delay 默认的数值是2000,这个数值和网速有关,一般情况下2000是ok的。如果网速慢的话加载会比较慢,这样可能就会导致抓取到空白的内容。这种情况下可以把这两个数值设置的大一些,比如设置到3000甚至更大。
抓取时页面不能关,关的话容易出现错误。最后出现no data scraped yet.的页面就代表抓取完了。点refresh就可以预览抓取的内容。
最后想导出表格文件可以点击export data as CSV(csv是一种文件格式,支持excel),然后download now。
六、用web scraper抓取多页
上述的操作可以抓取到你所在的页面单页的内容,如果你想抓取的网页是数字分页的形式,可以通过修改URL的方式实现抓取多页的目的。
一般数字分页这种多页的链接都是有一定规律的
如运营的小事的文章
第一页的链接: https://www.zhihu.com/people/CYFCX/posts?page=1
第二页的链接: https://www.zhihu.com/people/CYFCX/posts?page=2
第三页的链接: https://www.zhihu.com/people/CYFCX/posts?page=3
...
查看你所要抓取的首页和末页的页数,找到差值,如以上页面的差值是1。(不一定所有的差值都是1,一定要先观察好)。然后把规律链接的页数n改为[首页-末页:差值],差值为1时可以忽略不写差值和冒号的部分。
如想要抓取运营的小事的1-4页的文章,在设置URL的时候可以先复制第一页的链接,把最后的数字1改为[1-4],https://www.zhihu.com/people/CYFCX/posts?page=[1-4],把它填入Start URL中。
多页抓取.png
这款傻瓜爬虫工具你get到了吗,快来练习起来吧!
新媒体人必备数据分析工具|Web Scraper初级用法相关推荐
- 新媒体人必备的10个效率工具,神器收藏起来
开启更多功能,提升办公效能 俗话说的好,一个合格的运营人,要能文能武,能做图能写文,做得了策划也统计得了数据,而想要真正有这么多能力傍身,手头上没有几个超凡的新媒体工具,是办不到的. 或者说有了工具的 ...
- 新媒体人必备的4个热点数据分析工具,超实用
新媒体人需要及时.准确地获取热点资讯.这样才能够及时抓住新闻事件,提供有价值的内容.此外,通过对新闻事件的分析,还能够为新闻机构或企业提供决策参考.因此,对实时热点的数据分析是非常重要的,给大家介绍几 ...
- 自媒体人必备运营工具
大周昨天熬夜整理了一期干货,各种必备的辅助工具分享给粉丝们,发福利啦!抓紧点赞收藏! 1.创作灵感 (1)干货:梅花网.数英网.广告门.鸟哥笔记 (2)创意:adage.topys. 2.热点资讯 ( ...
- 地图选择器怎么用_简易数据分析 15 | Web Scraper 高级用法——CSS 选择器的使用....
[ 这是简易数据分析系列的第 15 篇文章 ] 年末事情比较忙,很久不更新了,后台一直有读者催更,我看了一些读者给我的私信,发现一些通用的问题,所以单独写篇文章,介绍一些 Web Scraper 的进 ...
- 新媒体人必备!视频号直播避坑指南
其中,禁言.警告都算是小惩,而封停直播一次流量就清零,被封10年.20年的视频号基本"宣判死刑". 春节即将到来(榜哥榜妹明天开始也要放假啦),在这个重要的营销节点,微信的监管力度 ...
- 营销人、新媒体人、广告人必备神器:电脑录屏工具!
电脑录屏工具大家了解吗?身边的很多小伙伴们都开始询问怎样录屏了,随着视频越来越普及,很多人都迫不及待的做自己的视频,秀在自己的朋友圈,各种媒体账号上,一不小心就可能成为网红或者主播,对于营销人.新媒体 ...
- 自媒体人必备的4大工具,全部免费,快收藏起来
想要做好自媒体,找准运营工具是必不可少的.从找素材到创作到发布再到运营,工具渗透在自媒体运营整个过程中.今天就给大家介绍一下,自媒体人必备的4大工具,全部免费,大家快收藏起来吧: 01 平台 首先我们 ...
- 新媒体人有哪些必备的宝藏网站?
新媒体人有哪些必备的宝藏网站? 前言 一.图片素材网站 二.文章排版网站--新榜 三.图片设计网站--canva 四.二维码生成网站--二维彩虹 文章目录 前言 一.图片素材网站 二.文章排版网站-- ...
- 自媒体人必备的3款宝藏工具,编辑、剪辑、配音软件都全了
最近这几年,想必大家都经常听到自媒体是未来副业的趋势,什么都可以不做,但是自媒体一定要重视,这些语句,都是这两年听到最多的话题. 许多新手小白会问:自媒体方向有哪些呢?比如我们经常看到的,公众号百家号 ...
最新文章
- SpringMVC 学习系列 (3) 之 URL请求到Action的映射规则
- window.open()具体解释及浏览器兼容性问题
- 算法学习笔记(一):二分法及其实现
- C#使用Cookie方法
- as it exceeds the max of 500KB._我的英雄学院The “Ultra” Stage角色介绍第三弹!
- const与修饰函数形参
- 编译32位_实战经验:在Windows平台编译x264
- SQL 2005 带自增列 带外键约束 数据导入导出
- word2vec原理CBOW与Skip-Gram模型基础
- global.asax、global.asax.compiled、PrecompiledApp.config三者关系
- docker 僵尸进程
- 53Java模拟器,515最好的java模拟器
- bootstrap的图标新手使用教程
- 金陵五题·并序 刘禹锡
- 會懷孕的木乃伊~恐怖!! 使木乃伊懷孕的人~更加恐怖!
- 为什么有人会说「感谢拼多多」,让一贫如洗的我还能活下去?
- 【C语言 基础】函数的形参与实参
- MD5加密算法与SHA加密算法
- 小度的进攻,智能音箱的“二战”
- Java笔记整理六(File类,递归,字节流IO,字符流IO,流中的异常处理,属性集Properties,缓冲流,转换流,序列化,打印流)
热门文章
- 主打智能连接 Qlogic布局以太网及FC市场
- 东南大学计算机类学什么,东南大学王牌专业有哪些?最全解析来了!
- linux给文件夹下所有文件授权,Linux 如何将一个文件夹的所有内容授权给某一个用户...
- 【机器学习】聚类算法、社区发现
- HTML网页设计结课作业:商城网站设计——节日礼品购物商城网站html(14页) HTML+CSS+JavaScript
- 李子柒一年能赚多少钱?年薪竟然是阿里 P8 级别的 200 倍!
- Robotstudio软件二次开发:基于C#语言的Smart组件开发基础
- 【Linux】文件与目录管理
- 微信小程序--日历模块页面
- Python基于Scapy的抓包协议分析器