爬取 goubanjia 网站的免费 ip 免费 proxy JavaScript + Python + selenium

url: http://www.goubanjia.com/

1. 分析页面:

根据结构,不难想象这是一个表格,如果通过页面去获取数据应该不难,但是通过检查发现,并不是想象中的那样(div, span, p层次不齐)

第一个没有多余的字符,好像可以直接获取,但是再看第二个

会发现,中间掺杂一些其他的标签,以及无用的信息,也许看到这里,新手这就犯难了,不要急,接下来继续.
我的解决方法是使用js,简单粗暴(你可尝试在控制台输入以下代码,可以直接打印出来)
通过css定位是表示 .ip

ip = document.querySelectorAll('.ip')

这个css查找返回一个数组(python 就当列表处理吧,但是这是js的对象),一共20行数据

获取第一个先:

ip[0]

那么如何获取字符串呢?
通过细心观察,有用的信息都是存储在div标签和span标签,p标签基本没用(display:none)

展开就是:

ip[0].querySelectorAll('div, span')

获取单个值的方法(用变量转换一下)

tag = ip[0].querySelectorAll('div, span')
tag[2].innerHTML

一个td标签里面的值的获取 (javascript箭头函数)

tag.forEach((item, index)=>console.log(item))

或者是直接获取到值(获取的数字的左边的数字表示是重复打印)

tag.forEach((item, index)=>console.log(item.innerText))

使用tag.forEach((item, index)=>console.log(item.innerHtml)) 是返回undefined

这样基本就完成了,之后再把这些数据拼接起来即可

2. 根据分析编写代码

整理一下,代码如下,在控制台可以直接看到想要的数据

/*
* 分析结果 :
* let ip = document.querySelectorAll('.ip')
* let data = ip[i].querySelectorAll('span, div').innerHTML
* */
let ip, tag, singData, result
ip = document.querySelectorAll('.ip') //array
for (let i = 0; i < ip.length; i++) {result = ''     //重置可变参数resulttag = ip[i].querySelectorAll('span, div')for (let j = 0; j < tag.length; j++) {singData = tag[j].innerHTMLresult += singData}result = result.replace(result.slice(-4), ':' + result.slice(-4))console.log(result)
}

刷新后又变了…

如果要包含表部信息的话,好像更简单除暴

let ip, result
ip = document.querySelectorAll('.ip') //array
for (let i = 0; i < ip.length; i++) {result = ''     //重置可变参数result// 如果要获取表头所有的信息result = ip[i].parentElement.innerTextconsole.log(result)
}

哦,好吧,忙活了半天,我没有注意到的是innerHtml获取的元素不包含display: none的信息,不过也不怎么影响

打印出来的数据也是直接可以直接复制使用的

110.243.14.136:8362
VM78208:11 123.101.237.17:8711
VM78208:11 36.248.132.13:8663
VM78208:11 27.43.186.17:8272
VM78208:11 27.43.190.137:8313
VM78208:11 163.204.242.93:8283
VM78208:11 113.195.16.143:8429
VM78208:11 183.166.70.76:8714
VM78208:11 36.249.52.14:8318
VM78208:11 175.44.109.183:8087
VM78208:11 183.166.97.111:8258
VM78208:11 1.198.73.70:8981
VM78208:11 118.112.194.169:8460
VM78208:11 171.11.179.220:8348
VM78208:11 113.128.28.52:8411
VM78208:11 112.105.11.196:8744
VM78208:11 36.57.87.188:8335
VM78208:11 123.55.102.88:8140
VM78208:11 171.35.174.9:8321
VM78208:11 180.121.129.131:8844

好吧,为了方便加一段语句吧(在控制台运行即可直接拿到页面数据)

let ip, tag, result, ipCommon = []
ip = document.querySelectorAll('.ip') //array
for (let i = 0; i < ip.length; i++) {result = ''     //重置可变参数resulttag = ip[i].querySelectorAll('span, div')for (let j = 0; j < tag.length; j++) {result += tag[j].innerHTML    //一个多余的变量}result = result.replace(result.slice(-4), ':' + result.slice(-4))ipCommon.push(result)
}
console.log(ipCommon)

获取到的结果

直接复制出来用

    ["110.243.14.136:8362", "123.101.237.17:8711", "36.248.132.13:8663", "27.43.186.17:8272","27.43.190.137:8313", "163.204.242.93:8283", "113.195.16.143:8429", "183.166.70.76:8714","36.249.52.14:8318", "175.44.109.183:8087", "183.166.97.111:8258", "1.198.73.70:8981","118.112.194.169:8460", "171.11.179.220:8348", "113.128.28.52:8411", "112.105.11.196:8744","36.57.87.188:8335", "123.55.102.88:8140", "171.35.174.9:8321", "180.121.129.131:8844"]

核心思想就是这样

3. 代码封装,测试

Python的话如果是用webdriver爬取数据,应该是执行driver.exec_script(js)然后获取js的返回值。这个方法不会请参考：
获取Selenium中Javascript代码的返回值
为了方便调用把console.log换成return

我的目录

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Time    : 13/08/20 下午5:16
# @Author  : Xander
# @Site    :
# @File    : get_ip.py
# @Software: IntelliJ IDEA 2020.1.1import selenium.webdriver
driver = selenium.webdriver.Chrome()
driver.get('http://www.goubanjia.com/')
driver.implicitly_wait(5)with open('get_tab_data.js', 'r') as js:ip_table = driver.execute_script(js.read() + ' return getIp()')print(ip_table)
driver.close()

使用Ubuntu 运行实测不超过5秒即可获取到数据