代理IP通过https://www.kuaidaili.com/free/ 获取,我使用的的是http 协议的代理。根据自己需求选择http或者https 协议的页面。

访问量会有增长,但效果不是非常理想,后面找时间在研究下、废话不多说,直接上代码。

# -*- coding:utf-8 -*-import requestsimport randomimport timeimport reuser_agent_list=['Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36','Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)','Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0','Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]count=0def Get_proxy_ip():headers = {'Host': "www.kuaidaili.com",'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36','Accept': r'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3'}req=requests.get(r'https://www.kuaidaili.com/free/inha/16/',headers=headers)html=req.textproxy_list=[]IP_list=re.findall(r'\d+\.\d+\.\d+\.\d+',html)port_lits=re.findall(r'<td data-title="PORT">\d+</td>',html)for i in range(len(IP_list)):ip=IP_list[i]port=re.sub(r'<td data-title="PORT">|</td>','',port_lits[i])proxy='%s:%s' %(ip,port)proxy_list.append(proxy)return proxy_listdef Proxy_read(proxy_list,user_agent_list,i):proxy_ip=proxy_list[i]print ('当前代理ip:%s'%proxy_ip)user_agent = random.choice(user_agent_list)print('当前代理user_agent:%s'%user_agent)sleep_time = random.randint(1,5)print('等待时间:%s s' %sleep_time)time.sleep(sleep_time)print('开始获取')headers = {'User-Agent': user_agent}proxies={'http': proxy_ip}url='https://www.baidu.com' #blog 地址try:req = requests.get(url, headers=headers, proxies=proxies, timeout=6,verify=False)html=req.textprint (html)except Exception as e:print(e)print('******打开失败!******')else:global countcount += 1print('OK!总计成功%s次!' % count)if __name__ == '__main__':proxy_list = Get_proxy_ip()for i in range(100):Proxy_read(proxy_list, user_agent_list, i)

Python 代理爬取网站数据相关推荐

  1. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

  2. 如何利用python爬取网站数据

    Python是一种非常适合用于网络爬虫的编程语言,以下是Python爬取网站数据的步骤: 1. 确定目标网站和所需数据:首先要找到需要爬取数据的网站,确定你需要爬取的数据是哪一部分. 2. 发送请求: ...

  3. python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么

    在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

  4. 利用linux curl爬取网站数据

    看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...

  5. Python爬虫爬取疫情数据并可视化展示

    这篇文章主要介绍了Python利用爬虫爬取疫情数据并进行可视化的展示,文中的示例代码讲解清晰,对工作或学习有一定的价值,需要的朋友可以参考一下.编程资料点击领取 目录 知识点 开发环境 爬虫完整代码 ...

  6. python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(一)

    python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二.数据清洗及存储) 爬起疫情数据,有两个网址: 1.百度:链接 2.丁香园疫情:链接 在这两个中,丁香园的爬虫相对简单一点,所以今天就展示一 ...

  7. Python爬虫爬取网页数据并存储(一)

    Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...

  8. python初学-爬取网页数据

    python初学-爬取网页数据 1,获取网页源代码 import urllib url = 'http://www.163.com'wp = urllib.urlopen(url) file_cont ...

  9. python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二)

    上一章: python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(一.爬虫思路及代码) 第三步:数据清洗 清洗数据很简单,就是数据太乱的话,就得花些时间,所以一定要有一个好的方法,才能避免在清洗数据 ...

最新文章

  1. 查看LINUX进程内存占用情况 top pmap ps
  2. 语言抄袭广东工业大学_CUBA出现消极比赛,广东工业大学与江西师范大学被取消成绩...
  3. Go如何使用session
  4. Oracle10g中安装Perl环境所产生的冲突
  5. jQuery插件推荐(一) ——图像切换展示
  6. 【Mysql】Mysql数据表区分大小写问题解决方案
  7. python处理多种编码格式的txt文件
  8. 机器学习算法总结之Boosting:Boosting Tree、GBDT
  9. 吴恩达|机器学习作业4.0神经网络反向传播(BP算法)
  10. 自适应布局 的 解决方案
  11. 专业心率监测器克服了心电噪声和电源的挑战---凯利讯半导体
  12. 量子十问之二:“爱因斯坦幽灵”能用来实现超光速通信吗?
  13. JavaEE简易聊天室(Netbeans:Servlet+Cookie+Session)
  14. 局域网即时通讯软件_做企业即时通讯软件,我们是认真的
  15. 时事点评-红芯浏览器事件
  16. 服务认证的介绍-实施依据及作用
  17. php faker,PHP Faker 教程
  18. CSDN博客上传的图片水印去除
  19. Codeforces300D Painting Square
  20. 并不对劲的bzoj1095:p2056:[ZJOI2007]捉迷藏

热门文章

  1. 2022-2028年中国硅藻土产业发展态势及市场发展策略报告
  2. 2022-2028年中国加密货币行业市场研究及前瞻分析报告
  3. 使用JS/Jquery获得父窗口的几个方法(笔记)
  4. debian10 Unable to correct problems, you have held broken packages.
  5. 第五周周记(国庆第五天)
  6. 命名实体识别NER遗留问题----模型构建
  7. 路遥知马力——Momentum动量梯度
  8. Python错误:AttributeError: 'generator' object has no attribute 'next'解决办法
  9. Google Colab使用教程
  10. Windows10+anaconda,python3.5, 安装glove-python