相信用别的语言只用14行是写不出来这样的效果的!而我们的Python 只需要区区的14行代码就能写出来哦!

这就是Python为什么是全球现在比较流行的语言之一了!因为简单 容易学! 比较上手! 现在就连某城市的小学生都已经开始学了! 生怕孩子输在了起跑线上了!

你也许可能会问我们 爬这些代理IP有什么用呢? 我可以告诉你 只要你学到爬虫这块 就必须要学会 反爬! 在这里有的同学可能又不懂了! 不知道什么是反爬! 反爬就是一个网站 为了防止别人写的爬虫去爬取上面的内容 做的一些措施! 比如 UA验证, 复杂一点的 就是IP验证了! 原理就是 如果有一个IP短时间内 请求很多次 不像一个人的正常请求 ! 这时候就会被服务器判定成机器人了! 也就是爬虫! 然后跳转一个特别的网页 比如给出一个403的错误页面! 那就是你的IP被服务器暂时封禁了!

下面的图就是一个很好的例子! 由于我在一定时间内 请求的次数非常的多! 所以被封禁了!

接下来开始我们的教程吧! 需要用的模块有 requests_html 没有安装的同学 赶紧安装! 安装方法 pip install 模块名称!

下面开始步入正题: 分析view-source:http://www.xicidaili.com/nn/ 的源代码 ! class ='odd' 我们只需要抓取这个元素对象所有的文本内容!

r.html.find('.odd') find 查找的意思 .odd 就是 class的元素!

直接附上我们的源代码吧!from requests_html import HTMLSession

session = HTMLSession()

def ip():

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

}

url = 'http://www.xicidaili.com/nn/'

r = session.get(url, headers=headers)

r = r.html.find('.odd')

for x in r:

print(x.text.split())

if __name__ == '__main__':

ip()

以上就是爬取ip网站的源代码 如有不足的地方欢迎指出!

python爬虫代码1000行-简单用14行代码写一个Python代理IP的爬虫相关推荐

  1. 代理IP的背后原理简单介绍与python写一个获取代理IP的爬虫

    title: 代理IP的那些事 copyright: true top: 0 date: 2019-11-13 14:20:39 tags: 代理IP categories: 爬虫笔记 permali ...

  2. python写一个服务_写一个Python的windows服务

    1. 安装pywin32和pyinstaller pip install pywin32 pip install pyinstaller 2.写一个服务Demo # -*- coding: utf-8 ...

  3. python爬虫都能干什么用_5 行代码就能写一个 Python 爬虫

    欢迎关注我的公众号:第2大脑,或者博客:高级农民工,阅读体验更好. 摘要:5 行代码就能写一个 Python 爬虫. 如果你是比较早关注我的话,会发现我此前的大部分文章都是在写 Python 爬虫,前 ...

  4. python k线合成_手把手教你写一个Python版的K线合成函数

    手把手教你写一个Python版的K线合成函数 在编写.使用策略时,经常会使用一些不常用的K线周期数据.然而交易所.数据源又没有提供这些周期的数据.只能通过使用已有周期的数据进行合成.合成算法已经有一个 ...

  5. python监控某个程序_写一个python的服务监控程序

    写一个python的服务监控程序 前言: Redhat下安装Python2.7 rhel6.4自带的是2.6, 发现有的机器是python2.4. 到python网站下载源代码,解压到Redhat上, ...

  6. python 程序块 挂掉的服务_写一个python的服务监控程序

    写一个python的服务监控程序 前言: Redhat下安装Python2.7 rhel6.4自带的是2.6, 发现有的机器是python2.4. 到python站点下载源码.解压到Redhat上.然 ...

  7. 简单的面向对象思想,写一个传奇人物的属性

    简单的面向对象思想,写一个传奇人物的属性 package com.hz.game;import java.util.Random;/*** //hat,weapon,necklace,ring,clo ...

  8. 好的代理IP对爬虫有多重要?

    现如今,随着科技的发展,我们已经进入了人工智能和大数据的时代.人工智能和大数据采集涉及 到一个东西,那就是数据.但是,面对如此庞大的数据库,人类一点都收集不到,那么爬虫就会被 利用.爬虫并不是万能的, ...

  9. 优质代理IP对爬虫的作用

    为了应对反爬虫策略,爬虫工程师们日思夜想,绞尽脑汁,可谓使出了洪荒之力,万事俱备,最后却败在了代理IP上面. 优质代理IP对爬虫的作用: 不管你的爬虫如何,对目标网站的反爬虫策略研究得如何透彻,但始终 ...

最新文章

  1. iOS中关于NSTimer使用知多少
  2. python文件io是啥意思_Python文件IO(普通文件读写)
  3. html语言div什么意思,css中div是什么意思?
  4. Ubuntu10.04系统调试TQ2440开发板之一《Ubuntu下搭建TQ2440的程序下载环境》
  5. 简单的了解一下AQS吧
  6. 遥感影像滤波处理软件 — timesat3.2
  7. iphone分屏功能怎么用_iPhone终于上线这功能,可惜安卓都用烂了
  8. VScode Remote SSH连接失败
  9. 示波器学习笔记(2)——模拟示波器
  10. Stable Diffusion:使用Lora用二十张图片训了一个简易版薇尔莉特头像生成器(不作商用,纯纯个人兴趣,狗头保命)
  11. Linux 管理联网 nmcli常用命令
  12. git push失败unable to access ‘https://github.com/...‘的解决办法
  13. [机器视觉]gocv图像水平投影和垂直投影
  14. python手机屏幕控制_用Python控制墨水屏
  15. PostgreSQL sixth class
  16. 功能日臻完善的围棋打谱软件(附源代码)
  17. 一文告诉你,为什么要做质检报告
  18. STM32F407高级定时器TIM8_CH1N输出PWM配置
  19. 隐马尔科夫模型(HMM)的无监督学习算法java实现(baum-welch迭代求解),包括串行以及并行实现
  20. latex: Change ieetran.bst bibliography style lastname before firstname

热门文章

  1. cookie共享子域名
  2. Jquery里live事件移除原因
  3. Spring资源加载器抽象和缺省实现 -- ResourceLoader + DefaultResourceLoader(摘)
  4. Java算法测试的输入模板
  5. jboss中控制台jmx-console 登录的用户名和密码设置
  6. Chino的成绩(chino的公开赛T3)
  7. ubuntu16.04 uninstall cuda 9.0 completely and install 8.0 instead
  8. CentOS 6.3(x86_64)下安装Oracle 10g R2
  9. IOS开发 ARC forbids explicit message send of 'autorelease'错误解决办法
  10. 数学图形(1.10) 双曲线