需求:获取指定关键字(母婴)下的公司信息(公司名称、地址、法人、联系方式)

步骤:

一、下载webscraper插件。

通过Chrome浏览器的扩展程序发现发不开Chrome商店,此处提供一个百度云盘链接(https://pan.baidu.com/s/1E0DCxzGvz4qkaLin_i8L9w),将文件下载到本地

二、安装webscraper插件到Chrome浏览器。

打开Chrome浏览器的扩展程序页面(chrome://extensions/),将本地的插件文件拖动到浏览器的插件页面,按照提示操作便可,出现下图说明成功:

插件安装成功

三、启动webscraper插件

打开Chrome浏览器,按下F12(有的是Fn+F12),在导航中单击web scraper

四、webscrapy工作原理

参考:https://www.yuanrenxue.com/tricks/web-scraper-principle-1.html

结构

运行逻辑

五、开始抓取天眼通数据

1.最快的方式就是导入现成的sitemap文件,导入到webscraper中即可,此处我提供一个已经写好的(结构还是很清晰的),读者在使用时可按照自己的需要修改关键字和爬取的页数:

{"selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"root","selector":"div.search-result-single","delay":"2000"},{"parentSelectors":["root"],"type":"SelectorLink","multiple":false,"id":"jump","selector":"a.name","delay":"800"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"company","selector":"h1.name","regex":"","delay":"300"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"phone","selector":"div.in-block:nth-of-type(1) span:nth-of-type(2)","regex":"","delay":"200"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"address","selector":"table.table.-striped-col tr:nth-of-type(9) td:nth-of-type(2)","regex":"","delay":"400"},{"parentSelectors":["root"],"type":"SelectorText","multiple":false,"id":"Contacts","selector":"a.legalPersonName","regex":"","delay":"400"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"scale","selector":"table.table.-striped-col tr:nth-of-type(7) td:nthf-type(4)","regex":"","delay":"200"}],"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=银行&base=hefei","_id":"yinhang"}

2.自己按照实际需要按照下面的基本步骤来创建

步骤1 创建sitemap

image.png

image.png

image.png

image.png

image.png

以上只是最基本的操作,复杂的功能我目前用到了3个地方,在这里做下补充

1.针对分页数据时,可以在访问的主入口中控制,比如我提供的现成sitemap中"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=银行&base=hefei",这里面p[1-5]标识的是从第1到第5,间隔默认是1,那么webscraper就会依次访问1-5数字。

2.涉及跳转新页面时,需要建立link,跳转的新页面不能另外打开,这里可以直接拷贝跳转页面的地址在当前页面打开,这样就可以继续在当前打开的webscraper中编写了。

3.Delay时间建议都写,避免触发反爬虫

4.webscraper使用的元素选择器是css selector。

webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据相关推荐

  1. python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据

    前言 本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中 思路 观察虎牙网站后确认 ...

  2. 我要3万取款机怎么取_银行自动取款机一次可以取3万么

    2018-08-15 16:57龙山红 客户经理 一般银行的取款机一次最多可提2000--3000元不等,具体以银行提示为准. 另外,每天在自动取款机提取金额的上限一般是20000元,所以取3万元只能 ...

  3. whitepages 爬取_运营笔记:是时候了解蜘蛛爬取原理了!揭秘收录难题!

    原标题:蜘蛛爬取原理看不懂?看看这篇文章就明白了!揭秘收录难题! 很多人在做SEO的时候,搞不清蜘蛛爬取的原理或者对收录索引都搞不清关系,这篇文章主要针对实战来讲解蜘蛛和收录的关系,不讲原理,只讲干货 ...

  4. 静态网页抓取_学习笔记

    目录 1 获取响应内容 2 定制Requests 2.1 传递URL参数 2.2 定制请求头 2.3 发送POST请求 2.4 超时 3 Requests爬虫实践:TOP250电影数据 3.1 网站分 ...

  5. python爬电影_零基础Python爬虫实现(爬取最新电影排行)

    原博文 2018-02-26 15:29 − 提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构 要爬的部分,在 ...

  6. python怎么爬虎牙_手把手教你利用Python爬取虎牙平台数据

    首先打开我们所需要爬取的网站,这里我们挑选的是虎牙直播. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道 ...

  7. python爬图片_网络爬虫经验:反爬和反反爬

    我想很多人入门python是图片爬虫,就是HTTP请求,保存一下图片,用python实现非常快.网上很多爬虫的教程就讲到这里,实际上很单一,看了跟没看没什么区别,都是找一下网页的规律,然后Beauti ...

  8. 京东app优惠券python抓取_教大家用fd来抓取京东app的领券链接

    说明:请不要使用fd做坏事. 一.所需工具 1.fiddler抓包工具 下载地址:http://92huodong.cn/news/?755.html 2.模拟器或者手机 需要安装京东app 二.基本 ...

  9. 【阿里巴巴大数据实践笔记】第9章:阿里巴巴数据整合及管理体系

    1.大数据系统建设追求目标 建设高效的数据模型和体系, 对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性. 2.阿里巴巴OneData OneData 是阿里巴 ...

最新文章

  1. python列表去重效率_python面试题 - osc_yztbpii7的个人空间 - OSCHINA - 中文开源技术交流社区...
  2. 远程登录linux服务器的方式(telnet,ssh,ftp)
  3. 【Eclipse 插件】JD-Eclipse
  4. 如何给CentOS安装字体库
  5. 利用python编写设计多线程web服务器(计算机网络_自顶向下第六版_第二章1和4的编程作业)
  6. 【Redis6快速深入学习01】NoSQL数据库简介
  7. python 输出一个 5*5的 三角形_GitHub标星3W+,80个Python案例,带你轻松玩转Python学习!...
  8. 新建sublime 的python代码文件时自动在头部增加几行常用代码
  9. html清除图片缓存
  10. 数据结构快速掌握和温习-面试神器
  11. OJ1025: 最大字符
  12. 用纯css3和html实现一些复杂的泡沫对话框
  13. yii mysql in,在Yii中从MySQL获取最后插入的ID
  14. 2021年新高考八省联考成绩查询福建,八省联考福建什么时候出成绩 2021八省联考福建成绩查询...
  15. Bailian4045 与3和5无关的数【进制+模除】
  16. Linux考试题(带答案)
  17. matlab实现双线性插值,使用双线性插值法放大图像(matlab实现)
  18. 3.3.3 Camelot亚瑟王的宫殿 USACO
  19. 企业上云成趋势 看超融合如何开箱即用、一步上云
  20. yara规则--编写

热门文章

  1. TensorRT 加速性能分析
  2. 2021年大数据ZooKeeper(六):ZooKeeper选举机制
  3. CentOS7安装Python3详细步骤与Python2共用方法
  4. 【网站汇总】安装教程系列
  5. Spinner 使用的使用 报错:ArrayAdapter requires the resource ID to be a TextView
  6. ERROR: Unable to load class 'org.gradle.api.internal.component.Usage'.
  7. Lint found fatal errors while assembling a release target.
  8. 解决sql2014的distribution系统库distribution.mdf过大问题
  9. [LeetCode]42. Trapping Rain Water雨水填坑
  10. 2022-2028年中国新能源公交车行业深度调研及投资前景预测报告