在爬66ip代理的时候,发现一直返回的是521,在CSDN看了很多大神的解决方法,感觉很厉害(膜拜一下),也挺麻烦的,我自己试了selenium就成功了,而且也挺快的,简单代码如下:

# 设置无界面
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')url ='http://www.66ip.cn/1.html'
driver = webdriver.Chrome(options=chrome_options)
driver.get(url)
time.sleep(2)tr_list = driver.find_elements_by_xpath('//div[@class="containerbox boxindex"]/div/table/tbody/tr')  # 这里的tbody不用省略...for tr in tr_list[1:]:ip = tr.find_element_by_xpath('./td[1]').textport = tr.find_element_by_xpath('./td[2]').textproxy = "http://" + ip + ":" + portprint(proxy)

注意的是,这里的tbody也是一个坑,之前爬取遇到tbody都会省略,在这里却是不用的,花了我些时间发现了这个问题,果然经验还是太少了…

爬虫遭遇状态码521的方法相关推荐

  1. 爬虫遭遇状态码521陷阱 破解js加密cookie

    最近接了个小单,遇到一个很头疼的问题,返回的状态码无限521,在网上查阅了各种资料后,终于解决了问题返回200. 首先咱们先贴上网址:点击打开链接 首先我们按照传统的方法: import reques ...

  2. 爬虫返回状态码“521” 解决方案 | 设置Cookie解决

    问题:在爬虫某个网页时,返回状态码为"521",如何解决? Code: import requestsdef get_one_page(url):headers = {'User- ...

  3. html状态码521,python爬虫 处理521状态码

    在抓取数据的时候往往可以通过状态码来判断返回结果,今天在抓取数据的时候碰到了以前没有碰到过得状态码521,输出它的爬取内容(text),发现是一些js代码.一起探讨一下如何处理521状态码. 用cha ...

  4. apache和mysql 403_如何使用mysql(lamp)分离环境搭建dedecms织梦网站及apache服务器常见的403http状态码及其解决方法...

    一.实验环境 centos6.5+mysql5.5.32+php5.3.27 软件:DedeCMS-V5.7-GBK-SP1 本实验是使用lamp环境搭建,但mysql数据库与之分离,本实验成功的关键 ...

  5. 如何使用mysql(lamp)分离环境搭建dedecms织梦网站及apache服务器常见的403http状态码及其解决方法...

    一.实验环境 centos6.5+mysql5.5.32+php5.3.27 软件:DedeCMS-V5.7-GBK-SP1 本实验是使用lamp环境搭建,但mysql数据库与之分离,本实验成功的关键 ...

  6. http常见状态码及设置方法

    Http状态码 代码 消息 描述 100 Continue 只有请求的一部分已经被服务器接收,但只要它没有被拒绝,客户端应继续该请求. 101 Switching Protocols 服务器切换协议. ...

  7. 爬取巴比特快讯遇到状态码“521”

    最近在爬区块链相关的快讯,上周巴比特改版后重写了爬虫,跑了一天就挂了.原来是网站使用了加速乐的服务,爬虫每次都返回521的状态码. 浏览器访问网站时: 第一次请求:返回521状态码和一段js代码.js ...

  8. http状态码521——记一次网页爬取

    前段时间写了一个各应用市场某款应用的定时爬取任务,收集应用的下载量.评价.评分等信息然后报表展现,之前一直运行正常,前两天相关人员反馈数据出现异常,第一感觉肯定是该应用市场的网页结构发生变化了. 在本 ...

  9. Docker容器的退出状态码及解决方法

    容器内应用启动异常, 导致容器很快就结束或者构建镜像时失败了等问题 会出现的情况: 容器处于Exited异常退出时,将无法用docker exec进入容器内,会提示该容器不在运行中 docker lo ...

最新文章

  1. python学成需要多久-小白学python怎么快速入门?多久能完成一个项目?
  2. Linux下的shell语言编程入门
  3. 手写一个简单的WinForm程序(2)
  4. rabbitmq——镜像队列
  5. mysql如何修改开启允许远程连接
  6. 唐云峰:想当科学家的怪极客
  7. webpack配置路径问题
  8. linux构建基于mac的vlan,通过CLI配置交换机的基于MAC的VLAN组
  9. python virtualenv
  10. html 音标显示乱码,网页显示音标/拼音显示乱码的解决办法(.net)
  11. java 工具类库 Apache Commons
  12. C Programming Style 总结
  13. 通达信服务器在哪个文件里,通达信“指标模块”存放在哪个文件夹里
  14. namecheap域名如何绑定IP
  15. cf 936B Sleepy Game
  16. 云服务器忘记密码怎么设置?云服务器BCC实例重置密码方法【附视频】
  17. java 注解传值_java注解 - Mr.yang.localhost - 博客园
  18. 通过 adb 设置音量
  19. 西门子200SMART(六)数据块
  20. C ++ 程序调用CUDA静态库

热门文章

  1. 学习笔记 查分约束系统
  2. 08-图7 公路村村通(浙大数据结构)
  3. Vim - 官方网站
  4. 浅谈js下的发布订阅模式(观察者模式)
  5. Windows 10的TPM模块到底是不是美国全球监控体系的奠基石?
  6. rviz_marker_绘制直线_矩形框
  7. 部落动物:关于男人、女人和两性文化的心理学
  8. library not found for -lstdc++和dyld: Library not loaded: /usr/lib/swift/libswiftCoreGraphics.dylib解决
  9. 关于智慧团建忘记密码的解决方法
  10. 全局最优和局部最优 世俗理解以及原理解释