python3 爬取西祠代理IP数据

 1 import requests
 2 from lxml import etree
 3
 4
 5 # 将可以使用的代理IP的信息存储到文件
 6 def write_proxy(proxies):
 7     print(proxies)
 8     for proxy in proxies:
 9         with open("ip_proxy.txt", 'a+') as f:
10             print("正在写入：", proxy)
11             f.write(proxy + '\n')
12     print("录入完成！！！")
13
14
15 # 解析网页，并得到网页中的代理IP
16 def get_proxy(html):
17     # 对获取的页面进行解析
18     selector = etree.HTML(html)
19     # print(selector.xpath("//title/text()"))
20     proxies = []
21     # 信息提取
22     for each in selector.xpath('//table[@id="ip_list"]/tr')[1:]:
23         # ip.append(each[0])
24         ip = each.xpath("./td[2]/text()")[0]
25         port = each.xpath("./td[3]/text()")[0]
26         proxy = ip + ":" + port
27
28         proxies.append(proxy)
29     print(len(proxies))
30     test_proxies(proxies)
31
32
33 # 验证已得到IP的可用性，本段代码通过访问百度网址，返回的response状态码判断（是否可用）。
34 def test_proxies(proxies):
35     proxies = proxies
36     url = "http://www.baidu.com/"
37     header = {
38         "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
39         }
40     normal_proxies = []
41     count = 1
42     for proxy in proxies:
43         print("第%s个。。" % count)
44         count += 1
45         try:
46             response = requests.get(url, headers=header, proxies={"http": proxy}, timeout=1)
47             if response.status_code == 200:
48                 print("该代理IP可用：", proxy)
49                 normal_proxies.append(proxy)
50             else:
51                 print("该代理IP不可用：", proxy)
52         except Exception:
53             print("该代理IP无效：", proxy)
54             pass
55     # print(normal_proxies)
56     write_proxy(normal_proxies)
57
58
59 def get_html(url):
60     header = {
61         "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
62     }
63     response = requests.get(url,headers=header,)
64     # print(response.text)
65     get_proxy(response.text)
66
67
68 if __name__ == "__main__":
69     base_url = "http://www.xicidaili.com/nn/%s/"
70     # 爬取3页数据
71     for i in range(1, 4):
72         url = base_url % i
73         get_html(url)

转载于:https://www.cnblogs.com/daihao9527/p/9508246.html

python3 爬取西祠代理IP数据相关推荐

python爬虫——Scrapy入门（爬取西刺代理ip和port）
一.创建项目创建好的项目二.创建爬虫 1.创建一定要先进入刚才创建的爬虫项目文件中再创建爬虫对比未创建爬虫,发现多了一个xici.py文件 2.查看网站君子协议(robots): 3.解释爬虫 ...
python爬取高匿代理IP（再也不用担心会进小黑屋了）
一起进步为什么要用代理IP 很多数据网站,对于反爬虫都做了一定的限制,这个如果写过一些爬虫程序的小伙伴应该都深有体会,其实主要还是IP进了小黑屋了,那么为了安全,就不能使用自己的实际IP去爬取人家网 ...
手把手教你使用Python爬取西刺代理数据，不用担心我封IP了！
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
Python 多线程爬取西刺代理
西刺代理是一个国内IP代理,由于代理倒闭了,所以我就把原来的代码放出来供大家学习吧. 镜像地址:https://www.blib.cn/url/xcdl.html 首先找到所有的tr标签,与class ...
爬取免费可用代理IP
# _*_ coding:UTF-8 _*_ """程序:IP代理版本:2.0作者:鬼义虎神日期:2019年3月13日1.0功能:如何使用代理IP,验证代理IP可用性2. ...
Python爬取西刺代理网页
爬取西刺代理网页的信息,并保存到本地的TXT文本或者mysql数据库中本文只做爬取网页的练习代码如下: import requests from lxml import etree import ...
Python3爬取今日头条文章视频数据，完美解决as、cp、_signature的加密方法(2020-6-29版)
前言在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里 ...
python之利用requests库爬取西刺代理，并检验IP的活性
用爬虫爬取某个网站的数据时,如果用一个IP频繁的向该网站请求大量数据,那么你的ip就可能会被该网站拉入黑名单,导致你不能访问该网站,这个时候就需要用到IP动态代理,即让爬虫爬取一定数据后更换IP来继续 ...
python爬虫实战：爬取西刺代理网站，获取免费的代理IP
爬取的网站链接:西刺网站 import requests import chardet import random import time from bs4 import BeautifulSoup ...

python3 爬取西祠代理IP数据

python3 爬取西祠代理IP数据相关推荐

最新文章

热门文章