WebScraper

文章目录

WebScraper
- 关于 WebScraper
- 一、下载安装
- - 方式二：crxdl 搜索下载 WebScraper
- 二、简单爬取
- - 1、添加站点
  - 2、添加 selector
- 三、爬取更多页面
- 四、爬取详情页内容
- 五、复制规则代码

仅供学习交流

关于 WebScraper

官网： https://www.webscraper.io/web-scraper-first-time-install

一、下载安装

方式一：google 应用商店

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn

方式二：crxdl 搜索下载 WebScraper

1、下载

crxdl 是一个下载Chrome扩展插件Crx离线安装包的网站；
在 https://crxdl.com 输入 Web Scraper 搜索下载
可以发现存在 Web Scraper 和 Scheduled Web Scraper

2、安装

将上述下载的安装包解压后，可以看到 .crx 文件。
双击此文件，chrome 将会自动读取；点击继续，就会安装。

也可以在进入扩展程序面板，将 crx 文件拖拽到这个面板上。

调整为，检查内容布局在下面

二、简单爬取

1、添加站点

2、添加 selector

以爬取标题为例

选中一个标题后，选择下方标题，默认选中下方所有标题；上方没有被选上；
所以一开始就选择第一个第二个比较好

勾选 multiple

点击 scrape 开始抓取

会提示你设置延时

最低是 2000，50

点击抓取后，会弹出浏览器；

这个浏览器爬取结束后，将自动关闭；结束前，不能手动关闭；

我们会看到原来的操作台，会显示 no data scraped yet

点击 refresh data 可以刷新，看到爬取到的数据；

点击 export data as csv 可以导出数据为 csv 文件。

三、爬取更多页面

可以观察到，页数是有规律的

https://www.zhihu.com/people/li-gang-44-11/posts
https://www.zhihu.com/people/li-gang-44-11/posts?page=4

创建站点时，改为这个

https://www.zhihu.com/people/li-gang-44-11/posts?page=[1-20]

规则为 [首页-末页:差值]，差值为1 时可省略。可以理解为正则。

模拟器将自动翻页，抓取信息

四、爬取详情页内容

selector 选择 element

进入整体的那个 selector，再添加子 seletor

如果爬取这个页面的特定内容（如标题、发布时间，而非列表数据），就不需要勾选 multiple

五、复制规则代码

点击进入 selector，点击 export sitemap

去新的 site 下面，点击导入 Import Sitemap

复制 json 进去，修改相关 url 等。

伊织 21-09-24

爬虫 - WebScraper相关推荐

咪哥的思维认知日记(三) - 赚钱思维
咪哥杂谈本篇阅读时间约为 5 分钟. 1 前言今天来聊聊,这半年思维认知提升最值当的一点,也是未来最应该关注以及发展的点,商业思维.说通俗点,赚钱的思维.思维认知篇还有前两篇.咪哥的思维认知日记( ...
webscraper多页爬取_爬虫工具实战篇（Web Scraper）- 京东商品信息爬取（原创）
一.背景与目的数字化营销时代,快速掌握了解数据是一项基本技能,本文主要讲解里面Web Scraper工具如何爬取公开数据,比如爬取京东的店铺售卖商品情况数据,以便我们更好地了解竞品对手的产品情况和定 ...
一篇文章带你了解webscraper爬虫插件
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤夜阑卧听风吹雨,铁马冰河入梦来. ...
webscraper 无代码爬虫
官网:https://www.webscraper.io/web-scraper-first-time-install webscraper 简介 Web Scraper 是一款免费的,适用于普通用户 ...
webscraper爬虫工具详细操作
以下是个人整理的学习笔记,仅供参考 webscraper 简介 Web Scraper 是一款免费的,适用于普通用户的爬虫工具,可以方便的通过鼠标和简单配置获取网页上的内容:文字.链接.图片.表格等, ...
Iron WebScraper 网络爬虫
Iron WebScraper The C# WebScraping Library---578867473 # C# framework for extracting clean, structur ...
【零代码爬虫】如何使用webscraper插件爬取数据，以淘宝网为例
1. 安装插件可以打开chrome store 的用户直接在里面搜索即可无法科学上网的用户,我也准备了webscraper的安装包领取方式如下:公众号[小洲三流road]后台回复webscrap ...
爬虫：Iron WebScraper 2022 for NET
Iron Web Scraper 被认为是 C# 的互联网抓取库,它能够允许用户和开发人员激发并最终实现个人浏览行为,以提取文件.内容甚至图片和应用程序动词作为 .NET 的本机项目.IronWebS ...
webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据
需求:获取指定关键字(母婴)下的公司信息(公司名称.地址.法人.联系方式) 步骤: 一.下载webscraper插件. 通过Chrome浏览器的扩展程序发现发不开Chrome商店,此处提供一个百度云盘 ...

爬虫 - WebScraper