1.豌豆HTTP https://h.wandouip.com/get

分析

可以看到,我们每天可以动态获取20个IP以及相关信息,每次获取的字段只有城市、运营商、过期时间、ip以及端口等等,没什么其他大用,不过一个思考点是既然它限制了用户调用次数,那我们就可以批量注册账号来多多调用,经过考察,它的注册需要有极验验证码识别(妈的,小网站还JB来这套),这个以后可以再深入考察考察,嘿嘿(手动邪恶脸)。。

2.DATA5U http://www.data5u.com/

分析

这个网站还是很人性化的嘛,留了几个IP的分类,我们可以看到多出来了匿名度和响应速度,最后验证时间这三个字段,嗯,确实很有用,可以为我们之后的评分模型提供更多维度。

3.牛魔代理 http://www.niumoip.com/?bdpc-00476

分析

一点话都不想说,MD,没暖用。

4.西刺免费代理 http://www.xicidaili.com/

分析

嘛嘛嘛,又一个优质抓取源,多了一个参数,存活时间,又有一个评判维度了。

5.66免费代理 http://www.66ip.cn/pt.html

分析

虽然字段很少,但是可提取的IP数量大啊,算是将功补过了,另外说一句,贵网不给其他数据,是在考验我的数据分析能力吗》》

6.全网代理 http://www.goubanjia.com/

分析

同西刺免费代理

7.快代理 https://www.kuaidaili.com/

分析

效果是同西刺免费代理,但是以庞大的数量优势成为我们爬虫模块中最闪耀的明星,估计今后一大部分的IP提供都要来自这个源了,(默默希望它一直在。。。)

总结

关于我们爬虫模块涉及到的所有代理网站分析就到这里了,我们可以从这几个网站得出我们的数据流以及数据库IP表存储的格式,

IP 端口 匿名度 类型 位置 响应速度 最后验证时间 存活时间

反爬好友--IP池之分析各类代理IP网站相关推荐

  1. Python搭建代理IP池(一)- 获取 IP

    使用爬虫时,大部分网站都有一定的反爬措施,有些网站会限制每个 IP 的访问速度或访问次数,超出了它的限制你的 IP 就会被封掉.对于访问速度的处理比较简单,只要间隔一段时间爬取一次就行了,避免频繁访问 ...

  2. python爬去新浪微博_Python爬虫爬取新浪微博内容示例【基于代理IP】

    Python爬虫爬取新浪微博内容示例[基于代理IP] 发布时间:2020-09-07 10:08:14 来源:脚本之家 阅读:120 本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参 ...

  3. python爬取微博文本_Python爬虫爬取新浪微博内容示例【基于代理IP】

    本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参考,具体如下: 用Python编写爬虫,爬取微博大V的微博内容,本文以女神的微博为例(爬新浪m站:https://m.weibo.cn ...

  4. 第11篇- 抓取免费代理IP并搭建自己的代理IP池

    提前声明:该专栏涉及的所有案例均为学习使用,如有侵权,请联系本人删帖! 文章目录 一.前言 二.了解代理IP 三.抓取代理ip网站 四.完整代码 一.前言 使用代理IP原因:对于我们数据抓取来说,由于 ...

  5. Python搭建代理IP池(三)- 检测 IP

    在获取 IP 时,已经成功将各个网站的代理 IP 获取下来了,然后就需要一个检测模块来对所有的代理进行一轮轮的检测,检测可用就设置为满分,不可用分数就减 1,这样就可以实时改变每个代理的可用情况,在获 ...

  6. Python搭建代理IP池(二)- 存储 IP

    上一文写了如何从代理服务网站提取 IP,本文就讲解如何存储 IP,毕竟代理池还是要有一定量的 IP 数量才行.存储的方式有很多,直接一点的可以放在一个文本文件中,但操作起来不太灵活,而我选择的是 My ...

  7. 代理ip最新识别方法及代理ip有效性检测方法

    代理ip最新识别方法以及代理ip有效性检测方法 一.代理ip常见的一些功能 1.突破自身ip访问限制,现在有许多的网站都对ip地址访问进行了限制,这时则可以通过代理ip来突破限制,让自己进入网站. 2 ...

  8. Python爬取西刺国内高匿代理ip并验证

    1.抓取ip存入文件 首先,我们访问西刺首页 http://www.xicidaili.com/,并点击国内高匿代理,如下图: 按 F12 检查网页元素或者 ctrl+u查看网页源代码: 我们需要提取 ...

  9. 什么是HTTP代理池,如何搭建代理IP池?

    在爬虫采集数据的时候,我们通常会说到一个问题:要有足够大的IP池子,很多HTTP代理厂商也会强调自己的IP池子是几百万/几千万级别的,那对于爬虫小白来说,代理IP池子到底是什么呢? 简单来说,你可以把 ...

最新文章

  1. usaco Cow Tours 牛的旅行
  2. python绘制3d图-python3利用Axes3D库画3D模型图
  3. DBA(二):percona软件、innobackupex备份与恢复
  4. 如何python安装hadoop_使用Python操作Hadoop,Python-MapReduce
  5. sqlserver 跨服务器备份表
  6. python编写ftp客户端_用Python写FTP客户端程序
  7. 重装系统失败后怎么用好系统U盘启动解决?
  8. 【图论训练】最小拓扑序
  9. 图片裁剪(cropperjs)
  10. java怎样用类模板创建对象_java入门(十四) | 面向对象(OOP)之类和对象
  11. 4.5 NiN CNN、tensorflow实现——python实战
  12. oracle创建用户与权限操作(oracle学习笔记一)
  13. 地理编码涉及的专项技术
  14. java html5 上传_Java实现HTML5拖拽文件上传
  15. python批量剪切视频文件
  16. ASO优化中关键词设置是否需要逗号,aso关键词逗号隔开
  17. 发音问题纠正:边音l和鼻音n,前鼻音与后鼻音的区别与发音
  18. 基于FBX SDK的FBX模型解析与加载 -(二)
  19. JS的日期操作:String转date日期格式、求日期差
  20. 广西大学计算机研究所宿舍,广西大学宿舍条件,宿舍环境图片(10篇)

热门文章

  1. 脑洞大的日本人,做了一个AI智能观音讲佛经!
  2. 一周热图|孙燕姿演绎全新TVC;谢霆锋助阵特步;苗苗成为自然堂女士护肤代言人...
  3. 【附源码】计算机毕业设计SSM培训机构学生管理系统
  4. 在Debian上设置USB网络打印机和扫描仪服务器
  5. 微软官方下载Windows 10系统ISO镜像文件
  6. java 随机四位数字组合_随机组合生成好听的名字(java)
  7. Resource temporarily unavailable解决办法
  8. vue添加表情包的相关处理(使用html渲染)
  9. DELLT430服务器安装DELL定制版ESXi6.7u3
  10. jquery下的ajax和jsonp实现与区别