20220624 登录和代理ip

reques的登录反爬

python
from selenium.webdriver import Chrome, ChromeOptions

#1. 创建配置对象

options = ChromeOptions()

#1)取消测试环境

options.add_experimental_option(‘excludeSwitches’, [‘enable-automation’])

#2)取消图片加载

options.add_experimental_option(“prefs”, {“profile.managed_default_content_settings.images”: 2})

b = Chrome(options=options)

b.get(‘https://www.jd.com’)

input(‘end:’)
b.close()

selenium获取cookies

from selenium.webdriver import Chrome
from json import dumps

#1. 打开需要做自动登录的网站
b = Chrome()
b.get(‘https://www.51job.com/’)

#2. 提供足够长的时间让人工在这个页面中完成登录(登录后一定要保证b对应的窗口出现登录信息)
input(‘登录完成:’)

#3. 获取登录后的cookie信息保存到本地文件中(建议保存一个json)
cookies = b.get_cookies()

with open(‘files/taobao.json’, ‘w’, encoding=‘utf-8’) as f:
f.write(dumps(cookies))

b.close()

selenium使用cookies

python
from selenium.webdriver import Chrome
from json import loads

#1. 打开需要爬取的网站
b = Chrome()
b.get(‘https://www.taobao.com’)

#2.从cookie文件中获取cookie信息并且添加到浏览器对象中
with open(‘files/taobao.json’, encoding=‘utf-8’) as f:
cookies = loads(f.read())

for x in cookies:
b.add_cookie(x)

#3.重新打开网页
b.get(‘https://www.taobao.com’)

input(‘end:’)
b.close()

requests使用代理ip

python
import requests

headers = {
‘user-agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36’
}

#创建代理对象
#proxies = {

‘https’: ‘http://183.165.224.25:4554’,

‘http’: ‘http://183.165.224.25:4554’

#}
proxies = {
‘https’: ‘183.165.224.25:4554’,
‘http’: ‘183.165.224.25:4554’
}
#发送请求的时候使用代理
response = requests.get(‘https://www.maoyan.com/’, headers=headers, proxies=proxies)
#解决乱码问题
response.encoding = ‘utf-8’
print(response.text)

代理ip的使用方法

python
import requests
import time
from bs4 import BeautifulSoup

def get_ip():
“”"
获取代理ip,如果获取失败过2秒再重新获取
:return: 获取到的ip地址
“”"
while True:
response = requests.get(‘http://d.jghttp.alicloudecs.com/getip?num=1&type=1&pro=510000&city=510600&yys=0&port=1&time=2&ts=0&ys=0&cs=0&lb=4&sb=0&pb=4&mr=1&regions=’)
result = response.text
if result[0] == ‘{’:
print(‘ip获取失败’)
time.sleep(2)
else:
return result

def get_net_data():
url = ‘https://www.maoyan.com/’
headers = {
‘user-agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36’
}

#使用代理ip发送请求,如果代理失败,重新获取新的ip重新再发送请求
while True:ip = get_ip()print(ip)proxy = {'https': ip}response = requests.get(url, headers=headers, proxies=proxy)response.encoding = 'utf-8'print(response.text)soup = BeautifulSoup(response.text, 'lxml')movies_div = soup.select('.movie-list .movie-item')if len(movies_div) == 0:continueelse:print('爬虫成功!做后续的解析操作')break

if name == ‘main’:
get_net_data()

selenium使用代理ip

python
from selenium.webdriver import Chrome, ChromeOptions

options = ChromeOptions()
options.add_argument(‘–proxy-server=http://115.208.231.37:4545’)

b = Chrome(options=options)
b.get(‘https://www.maoyan.com/’)

print(b.page_source)

input(‘end:’)
b.close()

20220624 登录和代理ip相关推荐

  1. Python 爬虫使用固定代理IP

    购买的固定代理IP一般都需要账号密码, 在网上找了几个使用方法,但是都报错,所以,就想了这个笨办法,如有好办法希望大家指点. ''' 遇到问题没人解答?小编创建了一个Python学习交流QQ群:579 ...

  2. scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP

    一.crawlera平台注册 首先申明,注册是免费的,使用的话除了一些特殊定制外都是free的. 1.登录其网站 https://dash.scrapinghub.com/account/signup ...

  3. 电脑换ip_代理ip地址怎么换

    在我们的生活中,很多的工作者开始接触到ip,工作中也开始大量的使用到ip,但是对于ip地址的更换可能还有一部分人不知道.IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机 ...

  4. 代理ip网站开发_网站反爬虫策略,用代理IP都能解决吗?

    很多人会使用到网页采集器,其实这也是通过程序来进行采集的,如果没有使用代理IP,采集速度快了,照样是会被封住的.另外,这些网站还有其他的一些反爬策略,同样也会影响到我们采集网页的数据,这是如何限制的呢 ...

  5. python重定向反爬虫_高效实用http爬虫代理ip之盘点一些网站的反爬虫机制

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 (河马代理IP)我们之所以使用python语法来来制作网络爬虫程序,是因为python语法简介以及强大的第三方库.网络爬虫的用途就是对数据进行采集,也就是 ...

  6. selenium+python设置爬虫代理IP的方法

    1. 设置背景 在使用selenium浏览器渲染技术,当我们爬取某个网站的信息的时候,在一般情况下速度都不是特别的快.而且需要利用selenium浏览器渲染技术爬取的网站,反爬虫的应对技术都比较厉害, ...

  7. 测试代理ip是否有效

    (1)免费ip使用地址:www.xicidaili.com (2)编写脚本测试ip是否有效 推荐大家看一下这个博客:https://blog.csdn.net/Oscer2016/article/de ...

  8. 使用代理IP的好处有哪些?

    在这个数据驱动的世界中,ip代理的使用已成为企业成功的关键. 无论业务类型如何,使用代理ip都有助于增强组织的安全性,隐藏你的 IP 地址,代理ip通过自己不可追踪的特性来帮助保护企业或个人信息. 海 ...

  9. python3 selenium模块Chrome设置代理ip的实现

    python3 selenium模块Chrome设置代理ip的实现 selenium模块Chrome设置代理ip的实现代码: from selenium import webdriver chrome ...

最新文章

  1. Linux TCP/IP协议栈笔记
  2. python函数装饰函数_Python精进-装饰器与函数对象
  3. Py之playsound:playsound的简介、安装、使用方法之详细攻略
  4. java发布后功能不能用,急项目发布后java写的打印功能失效了-求解解决方法
  5. 【渝粤教育】 国家开放大学2020年春季 1039高级财务会计 参考试题
  6. 《产品设计与开发(原书第5版)》——3.8 步骤5:选出最佳机会方案
  7. 相干光通信系统的调制与解调
  8. [codeforces538E]Demiurges Play Again
  9. python爬虫技术作用_大数据爬虫技术有什么功能
  10. synchronizedReentrantLock乐观锁悲观锁(Java线程安全实现)JVM9
  11. echarts3d城市配置项
  12. 189邮箱smpt服务器,客户端软件配置-帮助中心-中国电信189邮箱
  13. 《系统集成项目管理》第七章 项目范围管理
  14. 一个人,长相越来越年轻,是因为这三个习惯
  15. CF975C Valhalla Siege 题解
  16. bugku Simple_SSTI_1and 2(SSTI模板注入)
  17. 赋值运算符与赋值表达式的说明和用法
  18. ti linux sdk 使用方法,关于AM335x 最新SDK ti-processor-sdk-linux-am335x-evm-06.03.00.106使用中遇到的问题...
  19. 【Dive into Deep Learning / 动手学深度学习】第二章 - 第一节:数据操作
  20. metricbeat指标简介

热门文章

  1. 弘辽科技:腾讯发力XR新业态有赞打通腾讯惠聚新增私域引流能力
  2. Apache安全配置
  3. UICollectionView 右对齐的解决方案
  4. 考初级计算机证需要考什么,计算机初级证书要考哪些内容
  5. 眼袋、眼袋、眼袋!眼袋一直有~~~~ 肿么办啊
  6. 安卓平板也能优雅刷B站,哔哩哔哩HD内测版
  7. layui镜像网站分享
  8. Ubuntu 18.04及几款应用的安装
  9. 中国一汽发布L4级智能驾驶技术,解放商用车率先使用;科大讯飞今日将发翻译机2.0版本;阿里巴巴已以50亿控股全球第二大WiFi芯片商乐鑫信息科技
  10. SQL 横转竖 、竖专横(转载) 列转行 行转列 表旋转