仅仅使用了一个java文件,运行main方法即可,需要依赖的jar包是com.alibaba.fastjson(版本1.2.28)和Jsoup(版本1.10.2)

如果用了pom,那么就是以下两个:

<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.28</version>
</dependency>
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.10.2</version>
</dependency>

完整的代码如下:

package com.tuniu.fcm.facade.IPProxy;

import com.alibaba.fastjson.JSONObject;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 获取代理IP,需要
 * com.alibaba.fastjson.JSONObject以及Jsoup
 */
public class ProxyCralwerUnusedVPN {ThreadLocal<Integer> localWantedNumber = new ThreadLocal<Integer>();
    ThreadLocal<List<ProxyInfo>> localProxyInfos = new ThreadLocal<List<ProxyInfo>>();

    public static void main(String[] args) {ProxyCralwerUnusedVPN proxyCrawler = new ProxyCralwerUnusedVPN();
        /**
         * 想要获取的代理IP个数,由需求方自行指定。(如果个数太多,将导致返回变慢)
         */
        proxyCrawler.startCrawler(1);
    }/**
     * 暴露给外部模块调用的入口
     * @param wantedNumber 调用方期望获取到的代理IP个数
     */
    public String startCrawler(int wantedNumber) {localWantedNumber.set(wantedNumber);

        kuaidailiCom("http://www.xicidaili.com/nn/", 15);
        kuaidailiCom("http://www.xicidaili.com/nt/", 15);
        kuaidailiCom("http://www.xicidaili.com/wt/", 15);
        kuaidailiCom("http://www.kuaidaili.com/free/inha/", 15);
        kuaidailiCom("http://www.kuaidaili.com/free/intr/", 15);
        kuaidailiCom("http://www.kuaidaili.com/free/outtr/", 15);

        /**
         * 构造返回数据
         */
        ProxyResponse response = new ProxyResponse();
        response.setSuccess("true");
        Map<String, Object> dataInfoMap = new HashMap<String, Object>();
        dataInfoMap.put("numFound", localProxyInfos.get().size());
        dataInfoMap.put("pageNum", 1);
        dataInfoMap.put("proxy", localProxyInfos.get());
        response.setData(dataInfoMap);
        String responseString = JSONObject.toJSON(response).toString();
        System.out.println(responseString);
        return responseString;
    }private void kuaidailiCom(String baseUrl, int totalPage) {String ipReg = "\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3} \\d{1,6}";
        Pattern ipPtn = Pattern.compile(ipReg);

        for (int i = 1; i < totalPage; i++) {if (getCurrentProxyNumber() >= localWantedNumber.get()) {return;
            }try {Document doc = Jsoup.connect(baseUrl + i + "/").header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8").header("Accept-Encoding", "gzip, deflate, sdch").header("Accept-Language", "zh-CN,zh;q=0.8,en;q=0.6").header("Cache-Control", "max-age=0").header("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36").header("Cookie", "Hm_lvt_7ed65b1cc4b810e9fd37959c9bb51b31=1462812244; _gat=1; _ga=GA1.2.1061361785.1462812244").header("Host", "www.kuaidaili.com").header("Referer", "http://www.kuaidaili.com/free/outha/").timeout(30 * 1000).get();
                Matcher m = ipPtn.matcher(doc.text());

                while (m.find()) {if (getCurrentProxyNumber() >= localWantedNumber.get()) {break;
                    }String[] strs = m.group().split(" ");
                    if (checkProxy(strs[0], Integer.parseInt(strs[1]))) {System.out.println("获取到可用代理IP\t" + strs[0] + "\t" + strs[1]);
                        addProxy(strs[0], strs[1], "http");
                    }}} catch (Exception e) {e.printStackTrace();
            }}}private static boolean checkProxy(String ip, Integer port) {try {//http://1212.ip138.com/ic.asp 可以换成任何比较快的网页
            Jsoup.connect("http://1212.ip138.com/ic.asp").timeout(2 * 1000).proxy(ip, port).get();
            return true;
        } catch (Exception e) {return false;
        }}private int getCurrentProxyNumber() {List<ProxyInfo> proxyInfos = localProxyInfos.get();
        if (proxyInfos == null) {proxyInfos = new ArrayList<ProxyInfo>();
            localProxyInfos.set(proxyInfos);
            return 0;
        }else {return proxyInfos.size();
        }}private void addProxy(String ip, String port, String protocol){List<ProxyInfo> proxyInfos = localProxyInfos.get();
        if (proxyInfos == null) {proxyInfos = new ArrayList<ProxyInfo>();
            proxyInfos.add(new ProxyInfo(ip, port, protocol));
        }else {proxyInfos.add(new ProxyInfo(ip, port, protocol));
        }}
}class ProxyInfo {private String userName = "";
    private String ip;
    private String password = "";
    private String type;
    private String port;
    private int is_internet = 1;
    public ProxyInfo(String ip, String port, String type) {this.ip = ip;
        this.type = type;
        this.port = port;
    }public String getUserName() {return userName;
    }public void setUserName(String userName) {this.userName = userName;
    }public String getIp() {return ip;
    }public void setIp(String ip) {this.ip = ip;
    }public String getPassword() {return password;
    }public void setPassword(String password) {this.password = password;
    }public String getType() {return type;
    }public void setType(String type) {this.type = type;
    }public String getPort() {return port;
    }public void setPort(String port) {this.port = port;
    }public int getIs_internet() {return is_internet;
    }public void setIs_internet(int is_internet) {this.is_internet = is_internet;
    }
}class ProxyResponse {private String success;
    private Map<String, Object> data;
    public String getSuccess() {return success;
    }public void setSuccess(String success) {this.success = success;
    }public Map<String, Object> getData() {return data;
    }public void setData(Map<String, Object> data) {this.data = data;
    }
}

java代理实现爬取代理IP相关推荐

  1. Python爬虫-代理池-爬取代理入库并测试代理可用性

    目的:建立自己的代理池.可以添加新的代理网站爬虫,可以测试代理对某一网址的适用性,可以提供获取代理的 API. 整个流程:爬取代理 ----> 将代理存入数据库并设置分数 ----> 从数 ...

  2. 爬虫-代理的爬取练习191110

    练习 抓取代理网站 国内高匿免费HTTP代理IP__第1页国内高匿 https://www.xicidaili.com/nn/ 爬三页数据 爬到的代理 存ip , 端口,请求方式 proxie_lis ...

  3. python爬取国内代理ip_Python语言爬取代理IP

    本文主要向大家介绍了Python语言爬取代理IP,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. #!/usr/bin/env python #-*-coding=utf-8 -* ...

  4. python爬取代理IP并进行有效的IP测试

    爬取代理IP及测试是否可用 很多人在爬虫时为了防止被封IP,所以就会去各大网站上查找免费的代理IP,由于不是每个IP地址都是有效的,如果要进去一个一个比对的话效率太低了,我也遇到了这种情况,所以就直接 ...

  5. Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片

    Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...

  6. 【实用工具系列之爬虫】python实现爬取代理IP(防 ‘反爬虫’)

    系列 [实用工具系列之爬虫]python实现爬取代理IP(防 '反爬虫') [实用工具系列之爬虫]python实现快速爬取财经资讯(防 '反爬虫') 本文使用python实现代理IP的爬取,并可以防' ...

  7. Python爬虫简单运用爬取代理IP

    功能1: 爬取西拉ip代理官网上的代理ip 环境:python3.8+pycharm 库:requests,lxml 浏览器:谷歌 IP地址:http://www.xiladaili.com/gaon ...

  8. 代理的基本原理 及用Xpath爬取代理网站IP列表 测试并存入数据库

    前言 在网络爬虫中,有些网站会设置反爬虫措施,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,例如 403 Forbidden,"您的IP ...

  9. 记一次用Python爬取代理IP并使用(尝试用代理IP制造直播房间访问量)

    前言 首先说一下代理IP的用法途(代码中会有涉及):代理IP可以用来隐藏你的真实IP,你访问网站是通过代理服务器来做一个中转,所以目标服务器只能看到代理服务器的IP地址,这样就可以让你的IP地址实现隐 ...

最新文章

  1. 数据纪实|颜强:疫情下的中国制造
  2. 2021年春季学期-信号与系统-第四次作业参考答案-第六小题
  3. ITK:演示所有运算符
  4. 安装hadoop-2.3.0-cdh5.1.2全过程
  5. 三维触控测试软件,10 条小技巧,告诉你 iPhone XS Max 的三维触控功能怎么用
  6. 基于Tablestore多元索引打造亿量级店铺搜索系统
  7. python param_python发送带param的post请求
  8. Android学习笔记---27_网络通信之通过GET和POST方式提交参数给web应用,以及使用httpClient,来给web项目以post方式发送参数
  9. java中this用法总结
  10. mysql绘制er图教程_使用MySQLWorkBench绘制ER图
  11. 软件模式、GRASP原则,GoF设计模式、设计模式分类、设计模式的优点。
  12. ict中的it和ct_ICT.Social – IT专业人员的社交网络
  13. 第一期:GIS基本原理与arcgis软件
  14. 内网安全-常见横向移动总结
  15. 网络--VLAN知识详解
  16. PPT制作(文字排版)
  17. 华为荣耀启动“二级火箭”战略,加速向线下突进
  18. 华硕笔记本k555拆机图解_「华硕k401n」华硕K401笔记本电脑拆机清灰步骤详解 - seo实验室...
  19. python 如何计算平方、次方?平方根、方根?(math.pow()、math.sqrt())
  20. 极家家居家装修怎么样

热门文章

  1. 计算机磁盘管理看不到盘符,新装的固态硬盘系统里看不见?解决方法来了
  2. 重试框架Guava-Retry和spring-Retry
  3. 冷热酸甜、想成就成?冷酸灵母公司登康口腔欲在深交所主板上市
  4. 模板的特化(具体化)
  5. JAVA经验:很有启发(四)
  6. EFM32 学习调试记录
  7. localStorage自定义存储数据方法及其使用总结
  8. 经典算法研究系列:九、图像特征提取与匹配之SIFT算法
  9. Hibernate 入门 练习
  10. 《深入理解计算机系统》读书笔记1