1、使用代理ip和普通requests.get请求抓取页面流程一样,只是多了个参数proxies.

  • http://www.goubanjia.com/ 找代理IP,注意http,https,选与目标网址一样的协议。
  • proxies字典格式的
import requestsurl='https://www.baidu.com/s?wd=ip&ie=utf-8'proxies={"https":"218.60.8.99:3129"
}headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}response=requests.get(url=url,proxies=proxies,headers=headers)with open('baiduip.html','w',encoding='utf-8') as f:f.write(response.text)

2、使用session抓取需要登陆之后才能看到的页面数据

  • 获取session对象:session=requests.session()
  • session.post请求登陆url存储session信息
  • session.get请求获取登陆之后的个人页面
    以豆瓣为例:
import requests
# 先用session登陆获取存储session
session=requests.session()
login_url='https://accounts.douban.com/j/mobile/login/basic'data={
'ck':'',
'name':'',
'password':'',
'remember':'false',
'ticket':''}headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}login_response=session.post(url=login_url,data=data,headers=headers)# 再用session获取想要的页面 https://www.douban.com/people/193627830/
url='https://www.douban.com/people/1230/'
response=session.get(url=url,headers=headers)
with open('doubanlogin.html','w',encoding='utf-8')as f:f.write(response.text)

爬虫-使用代理ip,使用session相关推荐

  1. 爬虫篇——代理IP爬取备用及存储

    爬虫篇--代理IP爬取备用及存储 代码 代码 本文通过抓取免费的高匿IP代理,将其写入列表并保存为json格式文件,且将代码进行了封装,方便以后抓取数据时动态的更新handle的IP地址,从一方面避免 ...

  2. 【完美解决】爬虫伪装代理IP方案

    爬虫伪装代理IP 爬虫程序频繁访问某网站,很容易触发网站的保护机制,造成无法访问.本文将解决这一问题. 首先要伪装请求头,request默认是python-requests,emmm,这不是找事嘛,首 ...

  3. 在Scrapy中使用爬虫动态代理IP

    本文介绍如何在Scrapy中使用无忧代理(www.data5u.com)的爬虫动态代理IP,以及如何设置User-Agent. 动态转发参考https://blog.csdn.net/u0109787 ...

  4. 利用多线程爬虫搭建代理ip池的两种方法(含源码)

    搭建爬虫代理ip池的两种方法(含源码) 前言 一.ip池是什么? 二.爬取原理 三.使用步骤 方法一 爬取网站https://www.kuaidaili.com/ 验证 存取到mysql 方法二 爬取 ...

  5. 使用爬虫实现代理IP池之放弃篇

    2019独角兽企业重金招聘Python工程师标准>>> 啥叫代理IP以及代理IP池 概念上的东西网上搜索一下就好了,这里简单科普一下(大部分会读这篇文章的人,基本是不需要我来科普的) ...

  6. python爬虫设置代理ip池

    在使用python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,那如何解决呢?使用代 ...

  7. Python爬虫添加代理IP池(新手)

    给爬虫添加代理IP池 我们在运行爬虫的过程中由于请求次数过多经常会遇到被封IP的情况,这时就需要用到代理IP来解决.代理IP的原理,简单来说就像在本机和web服务器之间开一个中转站,把本机的请求交给代 ...

  8. python爬虫设置代理ip池——方法(一)

    """ 在使用python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网 ...

  9. Python 爬虫使用代理 IP 的正确方法

    代理 IP 是爬虫中非常常用的方法,可以避免因为频繁请求而被封禁.下面是 Python 爬虫使用代理 IP 的正确方法: 1. 选择可靠的代理 IP 供应商,购买或者免费使用代理 IP 列表. 2. ...

  10. 网页爬虫使用代理IP的几种方案,爬虫如何设置代理?

    不少网络公司在进行爬虫数据业务的时候,都会选择代理IP,网页爬虫在现如今非常常见,尤其是一些大数据处理公司,都会使用爬虫的方式来进行信息的抓取,而要想进行信息的精准抓取,那就必须使用靠谱且稳定的代理I ...

最新文章

  1. 还有多久才能用上2000元以下的5G手机?答案来了
  2. codeforces 101466E Text Editor(hash)
  3. echart地图配置
  4. 在VMware虚拟机中进行Ghost网刻不成功的几点提示
  5. NEU 1497 Kid and Ants 思路 难度:0
  6. Debug Pytorch: ValueError: Expected more than 1 value per channel when training, got input size tor
  7. 易创课堂武汉站-NTES@百位创业者智慧众筹
  8. 英语发音表及读法_用英语给孩子讲绘本:果酱英语的Good Morning
  9. C#、TypeScript之父Anders Hejlsberg:“会用Excel就是程序员 ”
  10. 操作系统课程设计 Kernel编译和WinDbg启动 批处理文件
  11. 三个内置模块shutil logging hashlib config
  12. 4G智能模组SIM7600CE兼容移远EC20
  13. 智能驾驶场景库设计方法-V2X
  14. 浅谈智慧校园建设中存在的问题及解决方案
  15. P3403 跳楼机 同余最短路
  16. 我找到了村里最挣钱的生意!
  17. 苹果手机怎么创建php,怎么在苹果官网注册Apple ID?在网页上创建Apple ID教程
  18. pynq 环境搭建_PYNQ系列学习(一)——Pynq开发环境配置
  19. 脑电情绪识别的相关技术综述
  20. break和continue用法

热门文章

  1. 逆水寒2021最新服务器,2021年3月25日常规服务器合并投票结果公告
  2. 跨境电商运营系统平台及Fecify推荐
  3. 冰刃·笔记 | 勒索病毒的10%和90%等式
  4. PDF在线压缩、转换工具
  5. BZOJ 1123 Luogu P3469 [POI2008]BLO-Blockade 割点+乘法原理
  6. 电脑显示器的相关设置与常见故障排除方法
  7. 记录,在公网云服务器,装入redis服务后,未设置密码直接被pnscan病毒攻击,变成wakuang机器。
  8. Rcurl--炼数成金课程第一周
  9. CSS中hover出现不生效的几个原因 ?
  10. 程序员书籍PDF大收集