在一些有反爬虫技术的网站中,检测到同一ip在短时间内多次访问的时候,可能就会禁掉这个ip。

上有政策,下有对策,为了应对这种情况,可以使用多个代理ip去爬取这个网站。

java使用代理ip有两种方法:

1.设置System系统属性

// 设置代理IP
System.getProperties().setProperty("proxySet", "true");
System.getProperties().setProperty("http.proxyHost", "218.26.204.66");
System.getProperties().setProperty("http.proxyPort", "8080");  HttpURLConnection connection = (HttpURLConnection)new URL("http://www.baidu.com/").openConnection();
connection.setConnectTimeout(6000); // 6s
connection.setReadTimeout(6000);
connection.setUseCaches(false);  if(connection.getResponseCode == 200)
{  System.out.println("使用代理IP连接网络成功");
}

2.使用java.net.Proxy类

// 使用java.net.Proxy类设置代理IP
Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("123.22.43.3", 8080));HttpURLConnection connection = null;try {connection = (HttpURLConnection)new URL("http://www.baidu.com/").openConnection(proxy);} catch (IOException e) {e.printStackTrace();}connection.setConnectTimeout(6000); // 6sconnection.setReadTimeout(6000);connection.setUseCaches(false);try {if(connection.getResponseCode() == 200){System.out.println("使用代理IP连接网络成功");}} catch (IOException e) {e.printStackTrace();}

java使用代理ip爬取网站内容相关推荐

  1. 爬虫之使用代理ip爬取

    爬虫之代理ip的应用 ​ 在爬虫的过程中,我们经常会遇见很多网站采取了防爬虫技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力. ​ 如果一直用同一个代理ip爬取这个网 ...

  2. 爬虫篇——代理IP爬取备用及存储

    爬虫篇--代理IP爬取备用及存储 代码 代码 本文通过抓取免费的高匿IP代理,将其写入列表并保存为json格式文件,且将代码进行了封装,方便以后抓取数据时动态的更新handle的IP地址,从一方面避免 ...

  3. 数据抓取 -- 使用代理IP爬取数据:(2):使用timeout 时要注意,防止数据加载不完整 ,导致爬取丢失(举例)

    问题: 在使用代理IP爬取数据的时候,经常会出现爬取的网址信息不完整的现象.其中有个原因就是timeout设置问题. 代码如下: import requests from bs4 import Bea ...

  4. 快代理IP爬取 并建立可用IP池

    下面展示一些 内联代码片. #快代理IP爬取 并建立可用IP池 import requests import time from lxml import etree from fake_userage ...

  5. 利用代理IP爬取京东网站手机数据

    1.代理简介 在爬虫过程中如果经常用自己的IP进行爬虫会出现IP被封的可能,这就要用到代理技术,通过爬取代理网站的IP地址,每次爬取页面就随机选择一个IP地址进行爬取,这样就会降低IP被封的可能性. ...

  6. 高可用免费代理ip爬取实战

    我们在使用爬虫的时候,会对代理ip有一定程度的需求.今天爬取的这个免费代理网站不是大家已经爬烂的西刺和66等代理网站,是我无意间发现的~ 这个网站还是有一点意思的. 注意到没有,这里的ip地址被换成了 ...

  7. 第2.1章 scrapy之国内高匿代理IP爬取

    这个网站较为简单,故作为爬虫的第一个示例 代码如下: # -*- coding: utf-8 -*- ''' Created on 2017年6月12日 从国内高匿代理IP网站中获取动态ip信息 @s ...

  8. 代理IP爬取和验证(快代理西刺代理)

    前言 仅仅伪装网页agent是不够的,你还需要一点新东西 今天主要讲解两个比较知名的国内免费IP代理网站:西刺代理&快代理,我们主要的目标是爬取其免费的高匿代理,这些IP有两大特点:免费,不稳 ...

  9. Python使用requests和BeautifulSoup爬取网站内容

    实现代码: import requests import re from bs4 import BeautifulSoup url='http://www.cntour.cn/'#这里是要爬取的网站 ...

最新文章

  1. CVPR 2021| 基于深度图匹配的鲁棒点云配准框架
  2. v380云存储怎么用_云智中国-百度智能云薄磊:海量无限存储,助力产业智能化升级...
  3. 20211201 二范数的导数小于等于导数的二范数(导数存在情况下)
  4. Spark Streaming介绍,DStream,DStream相关操作(来自学习资料)
  5. 语句的输入和输出 数据类型 运算符
  6. Java多线程面试题总结,Java岗
  7. python编写图片主色转换脚本
  8. 电子商务数据运营的五大应用
  9. php 读取js文件,JS中如何读取文件
  10. uKey双向认证https
  11. yum源的三种配置方式
  12. 人脸关键点检测PFLD
  13. 如何给澳洲路局写信refound罚金,遇到交通罚款怎么办
  14. pagehelper版本升级导致pageSize为0时无法查询全部数据
  15. Centos7.5部署MySQL5.7基于GTID主从复制+并行复制+半同步复制+读写分离(ProxySQL) 环境- 运维笔记 (完整版)
  16. 常见端口号一览(详细)
  17. MATLAB系列笔记:修改编辑器颜色为护眼色(绿豆沙)
  18. 股票权证是什么意思?正股和权证是什么意思?
  19. 计算机网络基础概念与重要定义汇总
  20. 强制提升分辨率 linux,Linux创始人:笔记本分辨率已停滞10年 应直接强制2560

热门文章

  1. mana wifi_在IBM Security Policy Manager 7.1中使用Access Manager凭证
  2. 技术学院技能发展网络在线技能培训在线技能Rtaj比赛进行到一乔
  3. 【三维目标检测】VoxelNet(一):crop.py详解
  4. 【前端实例代码】霓虹灯按钮动画效果悬停| html CSS特效 惊艳| 前端开发 网页制作 基础入门教程
  5. Java开源数据库引擎,数据库计算封闭性的一站式解决方案
  6. 前锋python入门到精通_武磊离顶级前锋到底有多远?Python实战分析告诉你
  7. Linux Graphics 周刊(第 5 期)
  8. “我们为什么要做 iVX ? ” ——访 iVX CEO 孟智平 了解 iVX 企业文化
  9. ChatGPT简要解读(一) - 原理分析与性能提升篇
  10. 最近超火的ChatGPT到底怎么样?体验完后我有哪些感受和思考?