寻找爬虫入口
1 、本次任务的入口 这个爬虫的更好的入口就是我们平常使用的搜索引擎。搜索引擎虽然有很多种,但是其实都是在干一件事,收录网页,处理,然后提供搜索服务。在平时使用的过程中,我们通常都是直接输入了关键词就直接搜索了,但是其实还有很多的搜索技巧, 比如对于这个任务来说,只要我们这样搜索,就可以得到我们想要的数据了。

site:www.feiyiproxy.com

现在我们在百度,谷歌, 搜狗, 360,必应里都分别试一下:



从上面的图中可以发现返回的数据量都在百万甚至是千万级别。

所以把这些数据作为这个任务的入口,显然是更好的。至于说应对反爬虫的措施,那就考验个人的基本功了。

2、其他的入口 (1) 移动端入口 通过网站的移动端入口进行获取数据,可以更好更快速的获取数据。

寻找移动端入口的最简单的方式就是用打开谷歌浏览器的开发者模式以后,点击下面的手机样子的东西,然后在刷新一下就可以了。

这种方法也不是万能的,有的时候我们可以把网址发到我们的手机上,然后手机浏览器打开,看一下在手机上面显示的格式是否与电脑上的不一样,如果不一样的话,就可以再把手机浏览器的网址复制一下发到电脑上了。

(2)网站地图
网站地图是指可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页, 所以通过这些网站地图可以更高效更方便的获取一些作为下一级入口的网址。

(3)修改网址中的数值
首先申明,这个技巧不是万能的。

这个技巧主要是通过对网址中的某些字段的数值来从一次请求中最大限度的获取所需的数据,减少请求数,也就减少了被网站封禁的风险, 也就可以提高爬虫的效率。下面以一个例子为例:

当爬取QQ音乐的某一个歌手的全部音乐数据时,抓包获得的格式如下:

https://xxxxxxxxx&singermid=xxxx&order=listen&begin={begin}&num={num}&songstatus=1

返回的数据包如下:

其中的一些字段值被我以xxx代替了,请注意这里的num字段,通常一个歌手的歌比较多时,数据都是通过下一页展示出来的,所以这里的begin就应该是每一页第一条的对应的值,而num则是这个页面有多少条数据。通常,我们可以一页一页的获取数据, QQ音乐的默认值是30。那么我们是不是非得至少请求4次才可以获得完整数据呢?

当然不是,其实这个时候,我们可以自己试一下改变网址中的一些数值时,返回的结果是否会发送变化。在这里,我们就改变num与begin的值,其中设置num就是某一个歌手所有的歌曲数量的值,begin为0,这个时候再重新请求修改之后的网址,就可以得到下面的数据:

从上面可以看到,返回了96条数据。

这样,我们可以通过2次请求获取到所有的数据了。第一个请求获取total数目,然后再修改网址重新请求,这样就可以获得所有的数据了。

类似的字段还有pagesize。
总结 上面的这些寻找爬虫入口的小技巧可以使我们事半功倍,有的时候可以以最少的代价获取到数据。

飞蚁http代理:如何寻找爬虫入口?相关推荐

  1. 芝麻HTTP:如何寻找爬虫入口

    2019独角兽企业重金招聘Python工程师标准>>> 寻找爬虫入口                1 .本次任务的入口         这个爬虫的更好的入口就是我们平常使用的搜索引 ...

  2. 爬虫的小技巧之–如何寻找爬虫入口

    大家好,我是四毛,最近开通了个人公众号"用Python来编程",欢迎大家"关注",这样您就可以收到优质的文章了. 今天主要分享一些关于寻找爬虫入口的小技巧心得. ...

  3. 飞蚁代理在爬虫使用过程中解决ip被封锁IP限制的8种方法

    方法1 使用多IP代理: 1.IP必须需要,比如ADSL.如果有条件,其实可以跟机房多申请外网IP. 2.在有外网IP的机器上,部署代理服务器. 3.你的程序,使用轮训替换代理服务器来访问想要采集的网 ...

  4. 分享推荐几家适合爬虫的代理ip(飞蚁代理、阿布云、亿洲网络)

    多年的爬虫总结,如今要改行了,分享一下我觉得好用的几家爬虫IP代理. 飞蚁代理:http://www.feiyiproxy.com 阿布云:https://www.abuyun.com/ 亿洲网络:h ...

  5. [案例]飞蚁代理使用说明

    一 提供服务 当前只支持高匿的 http/https 代理 二 实现机制 图示 数据转发流程: 1连接接入服务器(proxy.360pdown.com:88) 2发送数据至接入服务器 3接入服务器从 ...

  6. 好的代理IP对爬虫有多重要?

    现如今,随着科技的发展,我们已经进入了人工智能和大数据的时代.人工智能和大数据采集涉及 到一个东西,那就是数据.但是,面对如此庞大的数据库,人类一点都收集不到,那么爬虫就会被 利用.爬虫并不是万能的, ...

  7. 爬虫单个ip代理设置_爬虫怎样设置代理ip池

    在网络迅速发展的今天,互联网企业层出不穷,爬虫工作者也越来越多,大家都知道,代理ip是爬虫工作者的一个有力助手,今天小编在这里就与大家分享一下如何设置代理池以及伪装成浏览器的方法,请看下面的介绍. 1 ...

  8. 代理IP的背后原理简单介绍与python写一个获取代理IP的爬虫

    title: 代理IP的那些事 copyright: true top: 0 date: 2019-11-13 14:20:39 tags: 代理IP categories: 爬虫笔记 permali ...

  9. HTTP代理如何解决爬虫请求受限

    首先,我们需要理解为什么有些网站会限制对其网站的访问.这些限制可能出于保护隐私.防止恶意攻击.限制访问频率等原因.当然,对于网络爬虫来说,这种限制可能成为一个挑战.因此,HTTP代理是一种可以帮助解决 ...

最新文章

  1. 求和(dfs序+线段树)
  2. 复旦陈静静 | 把握当下,坚持热爱,与食物图像识别结缘的科研之路
  3. Scanner 中next()和nexline()方法的区别
  4. Redhat Mongodb学习笔记
  5. 在matlab中怎么录制音频_怎么录制淘宝页面中的视频?简单方法,轻松搞定
  6. JAVA多线程之Synchronize 关键字原理
  7. 深度linux magento,linux下安装magento
  8. swift笔记1-点语法
  9. java 生日 计算_java根据生日计算当前年龄,精确到月
  10. Python进阶(六)文件操作
  11. 计算机管理文件和文件夹的实验结果及分析,实验1:文件和文件夹的管理
  12. 惠普服务器硬件检测软件吗,惠普 PROLIANT 服务器硬件检测工具使用方法
  13. 华为项目管理法读后小结
  14. Lucene之Field常用类型
  15. 拉普拉斯变换解微分方程
  16. C语言编译过程分析及实验验证
  17. python的matplotlib风格_Python可视化|matplotlib04-绘图风格(plt.style)大全
  18. 系统架构中概念总结二
  19. Linux shell随手记——ps -ef
  20. 腾讯云服务器高性能云盘和SSD云硬盘区别及选择

热门文章

  1. SQLSERVER数据库、表的创建及SQL语句命令
  2. 从零实现 FATFS+SD卡
  3. 8qam 解调 给我代码
  4. 玩诈欺的小杉(详细解析+代码)
  5. 哪家开源的bi平台好用?
  6. 在波音的助攻下,“英国钢铁侠”将10颗卫星送上了天
  7. java stream实现分组BigDecimal求和,自定义分组求和
  8. graphpad做单因素方差分析_看过来!GraphPad软件中的单因素方差分析这样用
  9. 查看硬盘序列号和磁盘ID号
  10. 魔改hustoj源码使其支持显示队名和队员及女队标志