WebScraper

文章目录

  • WebScraper
    • 关于 WebScraper
    • 一、下载安装
      • 方式二:crxdl 搜索下载 WebScraper
    • 二、简单爬取
      • 1、添加站点
      • 2、添加 selector
    • 三、爬取更多页面
    • 四、爬取详情页内容
    • 五、复制规则代码

仅供学习交流


关于 WebScraper

官网 : https://www.webscraper.io/web-scraper-first-time-install


一、下载安装

方式一:google 应用商店

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn


方式二:crxdl 搜索下载 WebScraper

1、下载

crxdl 是一个 下载Chrome扩展插件Crx离线安装包 的网站;
在 https://crxdl.com 输入 Web Scraper 搜索下载
可以发现存在 Web ScraperScheduled Web Scraper


2、安装

将上述下载的安装包解压后,可以看到 .crx 文件。
双击此文件,chrome 将会自动读取;点击继续,就会安装。


也可以在进入扩展程序面板,将 crx 文件拖拽到这个面板上。


调整为,检查内容布局在下面


二、简单爬取

1、添加站点


2、添加 selector


以爬取标题为例

选中一个标题后,选择下方标题,默认选中下方所有标题;上方没有被选上;
所以一开始就选择第一个第二个比较好


勾选 multiple


点击 scrape 开始抓取


会提示你设置延时


最低是 2000,50

点击抓取后,会弹出浏览器;

这个浏览器 爬取结束后,将自动关闭;结束前,不能手动关闭;

我们会看到原来的操作台,会显示 no data scraped yet

点击 refresh data 可以刷新,看到爬取到的数据;

点击 export data as csv 可以导出数据为 csv 文件。


三、爬取更多页面

可以观察到,页数是有规律的

https://www.zhihu.com/people/li-gang-44-11/posts
https://www.zhihu.com/people/li-gang-44-11/posts?page=4


创建站点时,改为这个

https://www.zhihu.com/people/li-gang-44-11/posts?page=[1-20]

规则为 [首页-末页:差值], 差值为1 时可省略。可以理解为正则。


模拟器将自动翻页,抓取信息


四、爬取详情页内容

selector 选择 element


进入整体的那个 selector,再添加 子 seletor

如果爬取这个页面的特定内容(如 标题、发布时间,而非列表数据),就不需要勾选 multiple


五、复制规则代码

点击进入 selector,点击 export sitemap


去新的 site 下面,点击导入 Import Sitemap

复制 json 进去,修改相关 url 等。


伊织 21-09-24

爬虫 - WebScraper相关推荐

  1. 咪哥的思维认知日记(三) - 赚钱思维

    咪哥杂谈 本篇阅读时间约为 5 分钟. 1 前言 今天来聊聊,这半年思维认知提升最值当的一点,也是未来最应该关注以及发展的点,商业思维.说通俗点,赚钱的思维.思维认知篇还有前两篇.咪哥的思维认知日记( ...

  2. webscraper多页爬取_爬虫工具实战篇(Web Scraper)- 京东商品信息爬取(原创)

    一.背景与目的 数字化营销时代,快速掌握了解数据是一项基本技能,本文主要讲解里面Web Scraper工具如何爬取公开数据,比如爬取京东的店铺售卖商品情况数据,以便我们更好地了解竞品对手的产品情况和定 ...

  3. 一篇文章带你了解webscraper爬虫插件

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来. ...

  4. webscraper 无代码爬虫

    官网:https://www.webscraper.io/web-scraper-first-time-install webscraper 简介 Web Scraper 是一款免费的,适用于普通用户 ...

  5. webscraper爬虫工具详细操作

    以下是个人整理的学习笔记,仅供参考 webscraper 简介 Web Scraper 是一款免费的,适用于普通用户的爬虫工具,可以方便的通过鼠标和简单配置获取网页上的内容:文字.链接.图片.表格等, ...

  6. Iron WebScraper 网络爬虫

    Iron WebScraper The C# WebScraping Library---578867473 # C# framework for extracting clean, structur ...

  7. 【零代码爬虫】如何使用webscraper插件爬取数据,以淘宝网为例

    1. 安装插件 可以打开chrome store 的用户直接在里面搜索即可 无法科学上网的用户,我也准备了webscraper的安装包 领取方式如下:公众号[小洲三流road]后台回复webscrap ...

  8. 爬虫:Iron WebScraper 2022 for NET

    Iron Web Scraper 被认为是 C# 的互联网抓取库,它能够允许用户和开发人员激发并最终实现个人浏览行为,以提取文件.内容甚至图片和应用程序动词作为 .NET 的本机项目.IronWebS ...

  9. webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据

    需求:获取指定关键字(母婴)下的公司信息(公司名称.地址.法人.联系方式) 步骤: 一.下载webscraper插件. 通过Chrome浏览器的扩展程序发现发不开Chrome商店,此处提供一个百度云盘 ...

最新文章

  1. 上传代码到git上的分支(协同开发)
  2. 今天收到IBM cat 测试
  3. Resilio(BtSync)搭建
  4. laravel5.7的redis配置,一直报错Class 'Predis\Client' not found
  5. 图灵测试是什么?为什么AlphaGo那么牛却过不了?
  6. 大数据预测实战-随机森林预测实战(三)-数据量对结果影响分析
  7. 转码器ffmpeg安装
  8. java跳出循环break;return;continue使用
  9. HDU 1102 Constructing Roads
  10. 学习pyhton: argparse模块
  11. MobaSSH SSH server for Windows - Download Home Edition
  12. Redis: 配置文件示例
  13. 网站生成EXE文件运行——PHP网站打包工具PHPWAMP
  14. CMC5601-微芯智能科技6轴运动控制器
  15. 关于《未来软件是什么样子?》一文的讨论(2)
  16. 爬虫实践: 获取百度贴吧内容
  17. linux文件误删恢复debugfs和extundelete
  18. C++:深入理解C++11新特性:Chapter3:左值和右值
  19. 平行因子-三维荧光-PARAFAC数据前处理
  20. mysql数据库自动生成数据库开发设计文档

热门文章

  1. LocalDateTime获取月第一天最后一天和年的第一天和最后一天获取周的第一天和最后一天,上周的第一天和最后一天
  2. 第十届蓝桥杯国赛Scratch编程真题解析:沙漠变绿洲
  3. html 设置响应X-frame,X-Frame-Options(点击劫持)漏洞分析及web配置修复
  4. 怎么把英文文献转译为中文?
  5. skyline R34与R35分类器---第一次尝试
  6. python in arcgis_终于晓得arcgis-python入门教程
  7. ds5100更换电池 ibm_IBM DS5000系列更换电池
  8. VS2019许可证过期解决办法
  9. 动手学深度学习番外篇 01.为什么from d2l import torch as d2l
  10. Kotlin之身份证阅读器(华视)二次开发