# -*- coding: utf-8 -*-

"""

所有请求头的USER_AGENTS网址

http://www.useragentstring.com/pages/useragentstring.php?name=All

"""

import json

import random

import requests

USER_AGENTS = [

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/44.0.2403.155 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36',

'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36 Chrome 41.0.2227.0',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36',

]

#从列表中随机选择一个

**User_Agent = random.choice(USER_AGENTS)**

headers = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

'User-Agent': User_Agent

}

def testUserAgent():

resp = requests.get("http://httpbin.org/user-agent", headers=headers)

user_agent = json.loads(resp.text)['user-agent']#将返回的字符串loads为字典

print(user_agent)

def testProxy():

proxies = {"https": "223.199.25.183:9999"}

resp = requests.get("http://httpbin.org/ip", proxies=proxies)

origin = json.loads(resp.text)['origin']

print(origin)

# https://www.xicidaili.com/nn/ 西刺代理

if __name__ == "__main__":

testUserAgent()

testProxy()

python爬虫避免重复数据_No.2﹣Python﹣scan﹣anti-crawler(随机请求头和IP代理)取消链接和重复数据消除,NO2pythonscrapy,反,爬虫,去...相关推荐

  1. python 随机请求头_为了爬虫换个头,我用python实现三种随机请求头方式!

    相信大家在爬虫中都设置过请求头 user-agent 这个参数吧? 在请求的时候,加入这个参数,就可以一定程度的伪装成浏览器,就不会被服务器直接识别为spider.demo.code ,据我了解的,我 ...

  2. python伪造请求头x-forwarded-for的作用_Pyspider中给爬虫伪造随机请求头的实例

    Pyspider 中采用了 tornado 库来做 http 请求,在请求过程中可以添加各种参数,例如请求链接超时时间,请求传输数据超时时间,请求头等等,但是根据pyspider的原始框架,给爬虫添加 ...

  3. NO.2_python_scrapy_反爬虫(随机请求头IP代理)取消链接去重

    1.随机请求头 # -*- coding: utf-8 -*- """ 所有请求头的USER_AGENTS网址 http://www.useragentstring.co ...

  4. python爬虫精选11集(selenium进阶总结【selenium的cookies处理、ip代理、useragent替换】)

    python爬虫精选11集(selenium进阶总结) 一.selenium的介绍 1. selenium运行效果展示 1.1 chrome浏览器的运行效果 1.2 phantomjs无界面浏览器的运 ...

  5. easypoi 大数据 百万_scrapy 解决爬虫IP代理池,百万大数据轻松爬取。

    现在越来越多的人在工作中使用到爬虫,各个网站的反爬虫机制也越来越严格,下面就自己构建一个代理ip池.无私分享全套Python爬虫干货,如果你也想学习Python,@ 私信小编获取 一.手动更新ip池 ...

  6. xhr请求python_Python爬虫进阶必备!关于某电商网站的加密请求头!

    目标网站 aHR0cHM6Ly94aWFwaS54aWFwaWJ1eS5jb20vc2VhcmNoP2tleXdvcmQ9JUU3JTk0JUI3JUU3JUFCJUE1JUU0JUI4JThBJUU ...

  7. python中scrapy加请求头_Python爬虫之scrapy框架随机请求头中间件的设置

    方法一,定义一个存放请求头的列表,并从中随机获取请求头: 获取请求头的网址http://www.useragentstring.com/pages/useragentstring.php?name=A ...

  8. 请求头Content-Type:application/json,java后端如何接收数据

    Content-Type的类型 1.application/x-www-form-urlencoded ​ 常用@RequestParam("参数名称")也可以不写使用spring ...

  9. python 爬虫 请求网页内容不一致_Python爬虫偷懒神器 — 快速构造请求头!

    点击"Python编程与实战",选择"置顶公众号" 第一时间获取 Python 技术干货! 我们在写爬虫构建请求的时候,不可避免地要添加请求头( headers ...

最新文章

  1. matlab pause
  2. c语言p,用C语言实现P、V操作
  3. 高性能、高并发、高扩展性和可读性的网络服务器架构:StateThreads
  4. 英语总结系列(二十四):历经GCT的一月
  5. 设计模式-建造者模式(Builder Pattern)
  6. kmem 反编译linux内核_24小时学通Linux内核之如何处理输入输出操作
  7. Unity3d--第三人称摄像机常用控制
  8. Python爬虫采集网易云音乐热评实战
  9. 定位到excel最后一个非空单元格操作技巧,你一定要知道!(二)
  10. python spss写论文_自从用 spss 写了论文。。。。
  11. 计算广告——搜索广告技术初窥
  12. 工作中遇到的常见问题
  13. 志当存高远,而唯有努力才能抵达成功彼岸
  14. 2021杭州阿里巴巴国际UED笔试题
  15. 计算机英语拆分,如何使用英语单词拆分法
  16. 模拟量输入、输出应用举例
  17. Delphi 动态分配内存
  18. 依靠大数据 社会化协同
  19. 电影圣经/一百年一百部
  20. MATLAB: 用MATLAB发送邮件(以163邮箱为例)

热门文章

  1. 国内电动车召回12万辆有余 电池衰减和充电故障成头号问题
  2. 首次超过苹果!华为高端智能手机Q1国内市场出货量占48%
  3. 苹果要悄悄对这个产品动手了?你们最期盼的NFC功能也要来?
  4. 英特尔扶正临时CEO 打破公司50年CEO选拔传统
  5. 5G手机还没普及 LG电子就已着手研发6G
  6. 【点阵液晶编程连载一】写在前面
  7. anti-wrinkle_anti-wrinkle cream是什么意思
  8. web监听器监听mysql_JavaWEB开发15——ListenerListener
  9. python新手难点_初学两天python的操作难点总结
  10. 【Spark】Spark kafka because consumer rebalance same group id joined different streaming