webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据

需求：获取指定关键字(母婴)下的公司信息(公司名称、地址、法人、联系方式)

步骤：

一、下载webscraper插件。

通过Chrome浏览器的扩展程序发现发不开Chrome商店，此处提供一个百度云盘链接(https://pan.baidu.com/s/1E0DCxzGvz4qkaLin_i8L9w)，将文件下载到本地

二、安装webscraper插件到Chrome浏览器。

打开Chrome浏览器的扩展程序页面(chrome://extensions/)，将本地的插件文件拖动到浏览器的插件页面，按照提示操作便可，出现下图说明成功：

插件安装成功

三、启动webscraper插件

打开Chrome浏览器，按下F12(有的是Fn+F12)，在导航中单击web scraper

四、webscrapy工作原理

参考：https://www.yuanrenxue.com/tricks/web-scraper-principle-1.html

结构

运行逻辑

五、开始抓取天眼通数据

1.最快的方式就是导入现成的sitemap文件，导入到webscraper中即可，此处我提供一个已经写好的(结构还是很清晰的)，读者在使用时可按照自己的需要修改关键字和爬取的页数：

{"selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"root","selector":"div.search-result-single","delay":"2000"},{"parentSelectors":["root"],"type":"SelectorLink","multiple":false,"id":"jump","selector":"a.name","delay":"800"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"company","selector":"h1.name","regex":"","delay":"300"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"phone","selector":"div.in-block:nth-of-type(1) span:nth-of-type(2)","regex":"","delay":"200"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"address","selector":"table.table.-striped-col tr:nth-of-type(9) td:nth-of-type(2)","regex":"","delay":"400"},{"parentSelectors":["root"],"type":"SelectorText","multiple":false,"id":"Contacts","selector":"a.legalPersonName","regex":"","delay":"400"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"scale","selector":"table.table.-striped-col tr:nth-of-type(7) td:nthf-type(4)","regex":"","delay":"200"}],"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=银行&base=hefei","_id":"yinhang"}

2.自己按照实际需要按照下面的基本步骤来创建

步骤1 创建sitemap

image.png

以上只是最基本的操作，复杂的功能我目前用到了3个地方，在这里做下补充

1.针对分页数据时，可以在访问的主入口中控制，比如我提供的现成sitemap中"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=银行&base=hefei"，这里面p[1-5]标识的是从第1到第5，间隔默认是1，那么webscraper就会依次访问1-5数字。

2.涉及跳转新页面时，需要建立link，跳转的新页面不能另外打开，这里可以直接拷贝跳转页面的地址在当前页面打开，这样就可以继续在当前打开的webscraper中编写了。

3.Delay时间建议都写，避免触发反爬虫

4.webscraper使用的元素选择器是css selector。

webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据相关推荐

python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据
前言本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中思路观察虎牙网站后确认 ...
我要3万取款机怎么取_银行自动取款机一次可以取3万么
2018-08-15 16:57龙山红客户经理一般银行的取款机一次最多可提2000--3000元不等,具体以银行提示为准. 另外,每天在自动取款机提取金额的上限一般是20000元,所以取3万元只能 ...
whitepages 爬取_运营笔记：是时候了解蜘蛛爬取原理了！揭秘收录难题！
原标题:蜘蛛爬取原理看不懂?看看这篇文章就明白了!揭秘收录难题! 很多人在做SEO的时候,搞不清蜘蛛爬取的原理或者对收录索引都搞不清关系,这篇文章主要针对实战来讲解蜘蛛和收录的关系,不讲原理,只讲干货 ...
静态网页抓取_学习笔记
目录 1 获取响应内容 2 定制Requests 2.1 传递URL参数 2.2 定制请求头 2.3 发送POST请求 2.4 超时 3 Requests爬虫实践:TOP250电影数据 3.1 网站分 ...
python爬电影_零基础Python爬虫实现(爬取最新电影排行)
原博文 2018-02-26 15:29 − 提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构要爬的部分,在 ...
python怎么爬虎牙_手把手教你利用Python爬取虎牙平台数据
首先打开我们所需要爬取的网站,这里我们挑选的是虎牙直播. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道 ...
python爬图片_网络爬虫经验：反爬和反反爬
我想很多人入门python是图片爬虫,就是HTTP请求,保存一下图片,用python实现非常快.网上很多爬虫的教程就讲到这里,实际上很单一,看了跟没看没什么区别,都是找一下网页的规律,然后Beauti ...
京东app优惠券python抓取_教大家用fd来抓取京东app的领券链接
说明:请不要使用fd做坏事. 一.所需工具 1.fiddler抓包工具下载地址:http://92huodong.cn/news/?755.html 2.模拟器或者手机需要安装京东app 二.基本 ...
【阿里巴巴大数据实践笔记】第9章：阿里巴巴数据整合及管理体系
1.大数据系统建设追求目标建设高效的数据模型和体系, 对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性. 2.阿里巴巴OneData OneData 是阿里巴 ...

webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据

webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据相关推荐

最新文章

热门文章