web scraper 下载:Web-Scraper_v0.2.0.10

使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆、验证码、异步加载等复杂问题。

Web Scraper插件

Web Scraper 官网中的简介:

Web Scraper Extension (Free!)
Using our extension you can create a plan (sitemap) how a web site should be traversed and what should be extracted. Using these sitemaps the Web Scraper will navigate the site accordingly and extract all data. Scraped data later can be exported as CSV.

先看一下,我用 web scaper 爬取到的数据:

1. 知乎轮子哥粉丝

轮子哥有 54 万多粉丝,我只抓取了前 20 页400条记录

设定数据字段

2.简书七日热门数据

运行爬虫得到数据

导出数据

Web Scraper 抓取流程及要点:

安装Web Scraper插件后,三步完成爬取操作
1、Create new sitemap(创建爬取项目)
2、选取爬取网页中的内容,点~点~点,操作
3、开启爬取,下载CSV数据

其中最关键的是第二步,两个要点:

  1. 先选中数据块 Element,每块数据我们在页面上取,都是重复的,选中 Multiple
  2. 在数据块中再取需要的数据字段(上图Excel中的列)

爬取大量数据的要点,在于掌握分页的控制。
分页分为3种情况:

  1. URL 参数分页(比较规整方式)
    URL 中带有分页的 page 参数的,如:

    https://www.zhihu.com/people/excited-vczh/followers?page=2

    直接在创建sitemap时,Start URL中就可以带上分页参数,写成这样:

    https://www.zhihu.com/people/excited-vczh/followers?page=[1-27388]
  2. 滚动加载,点击“加载更多” 加载页面数据

  3. 点击分页数字标签(包括“下一页”标签)
    注意,这里第2-3种可以归为一类方式,是异步加载的方式,大部分都可以转为第1种的方式来处理。
    这种方式分页不太好控制。一般使用 Link 或 Element click 来实现分页的操作。

图示 Web Scraper 操作步骤:

第一步:创建sitemap

第二步:选取块数据Element

第三步:选取抓取的字段text

第四步:爬取

Web Scaper 使用体会:

1) 除了规整的分页方式外,其他分页方式不好控制,不同的网站受页面标签不同,操作也不一样。

2) 因为直接抓取页面显示值,抓取数据规整度不太好,需要 EXCEL 函数处理。
如,简书七日热门中文章发表时间,格式有好几种。

3) 有一点网页代码基础的上手很快,代码才是王道啊。
特别是有点Python爬虫基础的,在选取页面数据中很容易操作、理解,发现操作中出现的问题。

4) 比起八爪鱼、火车头等数据采集器,web scraper不需要下载软件,免费,无需注册,还很体会一点点代码的操作。当然 web scraper 也有付费的云爬虫。

Web Scraper 还可以导入sitemap,把下面的这段代码导入,你就可以抓取到知乎轮子哥前20页的粉丝:

{"startUrl":"https://www.zhihu.com/people/excited-vczh/followers?page=[1-20]","selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"items","selector":"div.List-item","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"desc","selector":"div.RichText","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"answers","selector":"span.ContentItem-statusItem:nth-of-type(1)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"articles","selector":"span.ContentItem-statusItem:nth-of-type(2)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"fans","selector":"span.ContentItem-statusItem:nth-of-type(3)","regex":"","delay":""}],"_id":"zh_vczh"}

PS, Web Scraper 资料教程

  1. 官网中的视频教程
    http://webscraper.io/tutorials

  2. 知乎@陈大欣 的回答 中写了详细的步骤,并录制了视频教程。

    • 视频教程(1):http://www.bilibili.com/video/av9664397/

    • 视频教程(2):http://www.bilibili.com/video/av9708200/

    这个问题来源 零基础如何学爬虫技术? @陈大欣 在文章中把 Excel 爬虫,web scraper,代码爬虫做了比较分析。

写在最后:FOR Freedom 看看外边的世界,以及IT这一行,少不了去Google查资料,最后,安利一些速器代理。

网络加速工具推荐 免费方案 付费方案 官方网站
一枝红杏网络加速工具 免费方案暂无,稳定高速 输入8折优惠码wh80,年付只需80元/年 官网直达http://whosmall.com/go/yzhx
网络加速工具 最好用的外贸网络加速工具 最低¥30/月 官网直达http://whosmall.com/go/yzhx
LoCo网络加速工具 每天免费2小时 最低¥15/月 官网直达http://whosmall.com/go/yzhx

本文标签: Mac效率工具 Mac小工具 MacOS Homebrew-Cask Mac软件包管理器

转自 SUN'S BLOG - 专注互联网知识,分享互联网精神!

原文地址 《MacOS 如何使用软件包管理器 Homebrew-Cask 安装软件?》

相关阅读《Mac 系统上如何用 LaunchBar 一键下载网页上的所有文件?》

相关阅读《MacOS 如何用 LaunchBar 一键上传文件至 Google Drive?》

相关阅读《最好用的 Mac App 快速启动及切换工具:Manico 2.0》

相关阅读《我为什么选择 Window Tidy 作为 MacOS 分屏工具?》

相关阅读《Chrome 扩展 Stylish :给不喜欢某个网站一键「换肤」》

相关阅读《将 QQ 音乐、网易云音乐和虾米音乐资源「整合」一起的Chrome 扩展Listen 1》

相关阅读《8 个「新标签页」Chrome 扩展: 教你把 New Tab 页面玩的溜溜溜》

相关阅读《7 款实用 Chrome 扩展推荐:帮你提升 Chrome 使用体验》

相关阅读《无扩展就不是 Chrome 了:15 款优质的Chrome 扩展推荐给大家》

相关阅读《12 款不能少的使网页浏览获得的最佳体验Chrome 扩展》

相关阅读《5 款可以带来幸福感的 Chrome 扩展》

相关阅读: 对程序员有用:2017最新能上Google的hosts文件下载及总结网友遇到的各种hosts问题解决方法及配置详解

相关BLOG:SUN’S BLOG - 专注互联网知识,分享互联网精神!去看看:whosmall.com

原文链接:http://whosmall.com/?post=473

转载于:https://www.cnblogs.com/ginowang42/p/8116927.html

使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取相关推荐

  1. Chrome 爬虫插件 Web Scraper

    Web Scraper 官网:https://webscraper.io/ 有关webscraper的问题,看这个就够了(建议收藏): https://zhuanlan.zhihu.com/p/341 ...

  2. Web scraper使用教程-进阶用法(二)-爬取二级页面内容

    进阶用法(二)-爬取二级页面内容 1. 爬取网址 https://docs.microsoft.com/en-us/officeupdates/update-history-microsoft365- ...

  3. 10 款值得珍藏的 Chrome 浏览器插件

    作者 | 沉默王二 责编 | 郭芮 Firebug 的年代,我是火狐(Mozilla Firefox)浏览器的死忠:但后来不知道为什么,该插件停止了开发,导致我不得不寻求一个新的网页开发工具.那段时间 ...

  4. 强烈推荐 10 款珍藏的 Chrome 浏览器插件

    Firebug 的年代,我是火狐(Mozilla Firefox)浏览器的死忠:但后来不知道为什么,该插件停止了开发,导致我不得不寻求一个新的网页开发工具.那段时间,不少人开始推荐 Chrome 浏览 ...

  5. 2021年10款优质Chrome浏览器插件推荐

    Chrome插件像一个个小帮手,帮我们提升效率,完成一些有价值的事情.其实有很多这样的优质实用插件,很多人并不知道它们的存在,下面就特意为大家整理10款非常有用的插件. 1.哔哩哔哩助手:B站扩展程序 ...

  6. Chrome浏览器插件Postman用法简介-Http请求模拟工具

    在我们平时开发中,特别是需要与接口打交道时,无论是写接口还是用接口,拿到接口后肯定都得提前测试一下,这样的话就非常需要有一个比较给力的Http请求模拟工具,现在流行的这种工具也挺多的,像火狐浏览器插件 ...

  7. 【Word页面编辑---Chrome 浏览器插件】

    ** Word页面编辑-Chrome 浏览器插件 ** 前言 目前基于Web页面的富文本编辑器有Ueditor.CKEditor等前端编辑器:这些编辑器具有小巧灵活,使用方便的特点.但是这种前端编辑器 ...

  8. 吐血推荐 5 个 Chrome 浏览器插件,文末有从别人的电脑移植插件的方法

    最近又发现一些好用的 Chrome 插件,上次的分享得到大家的热捧,在这里--推荐 5 款超好用的 Chrome 浏览器插件,这次也给大家分享五个,喜欢就点个赞,也欢迎大家留言推荐一些给我,谢谢. s ...

  9. Chrome浏览器插件安装一览表

    Chrome浏览器插件安装一览表 微软的IE浏览器存在众所周知的效率问题,不再使用:Firefox自动更新会多一个版本(我有点强迫症,看不惯这一点):那就是用同样大名鼎鼎的Google推出的Chrom ...

最新文章

  1. 单片机c语言实现表格数据调用,哪位师傅知道51单片机怎样编写子程序?C语言的。在主程序里调...
  2. ajax返回不刷新页面,Jquery ajax不刷新页面提交action取得返回值
  3. shell date
  4. AIRec个性化推荐召回模型调参实战
  5. uniapp可以封装组件嘛_uniapp聊天App实例|vue+uniapp仿微信界面|红包|朋友圈
  6. 分类任务如何用逻辑回归实现_如何用逻辑回归构建金融评分卡模型?(上)
  7. 4 大妙招,教你快速搞定复杂的系统编程!
  8. android 球形进度,android仿360手机卫士的自定义波浪球形进度View 滚动痕迹
  9. Java 数组类型转字符串类型
  10. 6.1儿童节特别礼物,mysql同步失败
  11. 基于ZigBee cc2530单片机多传感器的智能阳台仿真设计与实现
  12. 浏览器打开是360导航页面解决方法
  13. 永中office属于职称计算机吗,永中office
  14. 基于JAVA实现的农夫过河问题
  15. upp(统一流程平台)项目范围说明书
  16. POI动态导出多层表头的EXCEL文件
  17. 想要了解大厂PM吗,来看看这几款软件
  18. 利用Javascript动态生成表格的小demo
  19. nacl溶解度_氯化钠溶解度 氯化钠的溶解度
  20. 大众点评网的网站架构

热门文章

  1. 合泰杯 | 合泰单片机入门 编程详解(二)
  2. PHP curl使用代理ip请求
  3. 三人抢答器逻辑电路图_数字电子技术实验(3三人抢答器电路设计).ppt
  4. JAVA 聊天室(韩顺平)
  5. 机器学习在光学和声学的应用【系列】——第一篇 深度光学计算及其Inference综述
  6. 自动驾驶行业观察之2023上海车展-----智驾供应链(1)
  7. 使用永中文档实现java在线预览Word,Excel,Pptx,Pdf
  8. 关于Primary key
  9. Python学习笔记:第四站 往哪走
  10. WPF教程三:布局之WrapPanel面板