webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据
需求:获取指定关键字(母婴)下的公司信息(公司名称、地址、法人、联系方式)
步骤:
一、下载webscraper插件。
通过Chrome浏览器的扩展程序发现发不开Chrome商店,此处提供一个百度云盘链接(https://pan.baidu.com/s/1E0DCxzGvz4qkaLin_i8L9w),将文件下载到本地
二、安装webscraper插件到Chrome浏览器。
打开Chrome浏览器的扩展程序页面(chrome://extensions/),将本地的插件文件拖动到浏览器的插件页面,按照提示操作便可,出现下图说明成功:
插件安装成功
三、启动webscraper插件
打开Chrome浏览器,按下F12(有的是Fn+F12),在导航中单击web scraper
四、webscrapy工作原理
参考:https://www.yuanrenxue.com/tricks/web-scraper-principle-1.html
结构
运行逻辑
五、开始抓取天眼通数据
1.最快的方式就是导入现成的sitemap文件,导入到webscraper中即可,此处我提供一个已经写好的(结构还是很清晰的),读者在使用时可按照自己的需要修改关键字和爬取的页数:
{"selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"root","selector":"div.search-result-single","delay":"2000"},{"parentSelectors":["root"],"type":"SelectorLink","multiple":false,"id":"jump","selector":"a.name","delay":"800"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"company","selector":"h1.name","regex":"","delay":"300"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"phone","selector":"div.in-block:nth-of-type(1) span:nth-of-type(2)","regex":"","delay":"200"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"address","selector":"table.table.-striped-col tr:nth-of-type(9) td:nth-of-type(2)","regex":"","delay":"400"},{"parentSelectors":["root"],"type":"SelectorText","multiple":false,"id":"Contacts","selector":"a.legalPersonName","regex":"","delay":"400"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"scale","selector":"table.table.-striped-col tr:nth-of-type(7) td:nthf-type(4)","regex":"","delay":"200"}],"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=银行&base=hefei","_id":"yinhang"}
2.自己按照实际需要按照下面的基本步骤来创建
步骤1 创建sitemap
image.png
image.png
image.png
image.png
image.png
以上只是最基本的操作,复杂的功能我目前用到了3个地方,在这里做下补充
1.针对分页数据时,可以在访问的主入口中控制,比如我提供的现成sitemap中"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=银行&base=hefei",这里面p[1-5]标识的是从第1到第5,间隔默认是1,那么webscraper就会依次访问1-5数字。
2.涉及跳转新页面时,需要建立link,跳转的新页面不能另外打开,这里可以直接拷贝跳转页面的地址在当前页面打开,这样就可以继续在当前打开的webscraper中编写了。
3.Delay时间建议都写,避免触发反爬虫
4.webscraper使用的元素选择器是css selector。
webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据相关推荐
- python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据
前言 本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中 思路 观察虎牙网站后确认 ...
- 我要3万取款机怎么取_银行自动取款机一次可以取3万么
2018-08-15 16:57龙山红 客户经理 一般银行的取款机一次最多可提2000--3000元不等,具体以银行提示为准. 另外,每天在自动取款机提取金额的上限一般是20000元,所以取3万元只能 ...
- whitepages 爬取_运营笔记:是时候了解蜘蛛爬取原理了!揭秘收录难题!
原标题:蜘蛛爬取原理看不懂?看看这篇文章就明白了!揭秘收录难题! 很多人在做SEO的时候,搞不清蜘蛛爬取的原理或者对收录索引都搞不清关系,这篇文章主要针对实战来讲解蜘蛛和收录的关系,不讲原理,只讲干货 ...
- 静态网页抓取_学习笔记
目录 1 获取响应内容 2 定制Requests 2.1 传递URL参数 2.2 定制请求头 2.3 发送POST请求 2.4 超时 3 Requests爬虫实践:TOP250电影数据 3.1 网站分 ...
- python爬电影_零基础Python爬虫实现(爬取最新电影排行)
原博文 2018-02-26 15:29 − 提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构 要爬的部分,在 ...
- python怎么爬虎牙_手把手教你利用Python爬取虎牙平台数据
首先打开我们所需要爬取的网站,这里我们挑选的是虎牙直播. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道 ...
- python爬图片_网络爬虫经验:反爬和反反爬
我想很多人入门python是图片爬虫,就是HTTP请求,保存一下图片,用python实现非常快.网上很多爬虫的教程就讲到这里,实际上很单一,看了跟没看没什么区别,都是找一下网页的规律,然后Beauti ...
- 京东app优惠券python抓取_教大家用fd来抓取京东app的领券链接
说明:请不要使用fd做坏事. 一.所需工具 1.fiddler抓包工具 下载地址:http://92huodong.cn/news/?755.html 2.模拟器或者手机 需要安装京东app 二.基本 ...
- 【阿里巴巴大数据实践笔记】第9章:阿里巴巴数据整合及管理体系
1.大数据系统建设追求目标 建设高效的数据模型和体系, 对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性. 2.阿里巴巴OneData OneData 是阿里巴 ...
最新文章
- python列表去重效率_python面试题 - osc_yztbpii7的个人空间 - OSCHINA - 中文开源技术交流社区...
- 远程登录linux服务器的方式(telnet,ssh,ftp)
- 【Eclipse 插件】JD-Eclipse
- 如何给CentOS安装字体库
- 利用python编写设计多线程web服务器(计算机网络_自顶向下第六版_第二章1和4的编程作业)
- 【Redis6快速深入学习01】NoSQL数据库简介
- python 输出一个 5*5的 三角形_GitHub标星3W+,80个Python案例,带你轻松玩转Python学习!...
- 新建sublime 的python代码文件时自动在头部增加几行常用代码
- html清除图片缓存
- 数据结构快速掌握和温习-面试神器
- OJ1025: 最大字符
- 用纯css3和html实现一些复杂的泡沫对话框
- yii mysql in,在Yii中从MySQL获取最后插入的ID
- 2021年新高考八省联考成绩查询福建,八省联考福建什么时候出成绩 2021八省联考福建成绩查询...
- Bailian4045 与3和5无关的数【进制+模除】
- Linux考试题(带答案)
- matlab实现双线性插值,使用双线性插值法放大图像(matlab实现)
- 3.3.3 Camelot亚瑟王的宫殿 USACO
- 企业上云成趋势 看超融合如何开箱即用、一步上云
- yara规则--编写
热门文章
- TensorRT 加速性能分析
- 2021年大数据ZooKeeper(六):ZooKeeper选举机制
- CentOS7安装Python3详细步骤与Python2共用方法
- 【网站汇总】安装教程系列
- Spinner 使用的使用 报错:ArrayAdapter requires the resource ID to be a TextView
- ERROR: Unable to load class 'org.gradle.api.internal.component.Usage'.
- Lint found fatal errors while assembling a release target.
- 解决sql2014的distribution系统库distribution.mdf过大问题
- [LeetCode]42. Trapping Rain Water雨水填坑
- 2022-2028年中国新能源公交车行业深度调研及投资前景预测报告