爬虫有的时候会遇到被禁ip的情况,这个时候你可以找一下代理网站,抓取一下ip,来进行动态的轮询就没问题了,也可以用别人做好的第三方ip代理平台,比如说crawlera,crawlera是一个利用代理IP地址池来做分布式下载的第三方平台。【具体介绍请看这篇博客:http://blog.csdn.net/djd1234567/article/details/51741557】

package daili;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.net.InetSocketAddress;
import java.net.MalformedURLException;
import java.net.Proxy;
import java.net.URL;
import java.net.URLConnection;
/** author:合肥工业大学 管院学院 钱洋 *1563178220@qq.com*博客地址:http://blog.csdn.net/qy20115549/
*/
public class GetHtml {public static void main(String[] args) throws UnsupportedEncodingException {//输入代理ip,端口,及所要爬取的urlgethtml("183.136.217.74",8080,"http://club.autohome.com.cn/bbs/forum-c-2533-1.html?orderby=dateline&qaType=-1");}public static String gethtml(String ip,int port,String url) throws UnsupportedEncodingException{URL url1 = null;try {url1 = new URL(url);} catch (MalformedURLException e1) {e1.printStackTrace();}InetSocketAddress addr = null;//代理服务器的ip及端口addr = new InetSocketAddress(ip, port);Proxy proxy = new Proxy(Proxy.Type.HTTP, addr); // http proxyInputStream in = null;try {URLConnection conn = url1.openConnection(proxy);conn.setConnectTimeout(3000);in = conn.getInputStream();} catch (Exception e) {System.out.println("ip " + " is not aviable");//异常IP}String s = convertStreamToString(in);System.out.println(s);return s;}public static String convertStreamToString(InputStream is) throws UnsupportedEncodingException {if (is == null)return "";BufferedReader reader = new BufferedReader(new InputStreamReader(is,"gb2312"));StringBuilder sb = new StringBuilder();String line = null;try {while ((line = reader.readLine()) != null) {sb.append(line + "/n");}} catch (IOException e) {e.printStackTrace();} finally {try {is.close();} catch (IOException e) {e.printStackTrace();}}return sb.toString();}
}

如下图,便可以抓取到url对应的html内容。

网络爬虫ip代理服务器【程序样例】相关推荐

  1. Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫

    Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...

  2. S7-200Smart 恒压供水程序样例+485通讯样例 + 触 摸屏样例子

    S7-200Smart 恒压供水程序样例+485通讯样例 + 触 摸屏样例子. 1.此程序样例为一拖二恒压供水样例,采用S7-200Smart PLC和smart 700触摸屏人机与abb变频器485 ...

  3. S7-200Smart 恒压供水程序样例+485通讯样例 + 触摸屏样例子

    S7-200Smart 恒压供水程序样例+485通讯样例 + 触摸屏样例子. 1.此程序样例为一拖二恒压供水样例,采用S7-200Smart PLC和smart 700触摸屏人机与abb变频器485通 ...

  4. 安川机器人DX200运输带同步程序样例

    安川机器人DX200运输带同步程序样例,自己做的,在生产中.发电子邮箱 17100625757785033永***j

  5. 全套S7-1200一拖三恒压供水程序样例+PID样例+触摸屏样例

    全套S7-1200一拖三恒压供水程序样例+PID样例+触摸屏样例 . 1.此程序采用S7-1200PLC和KTP1000PN触摸屏人机执行PID控制变频器实现恒压供水. 包括plc程序,触摸屏程序,项 ...

  6. java 爬虫 百度新闻_基于HttpClient实现网络爬虫~以百度新闻为例

    在曾经的工作中,实现过简单的网络爬虫,没有系统的介绍过,这篇博客就系统的介绍以下怎样使用java的HttpClient实现网络爬虫. 关于网络爬虫的一些理论知识.实现思想以及策略问题.能够參考百度百科 ...

  7. python爬虫ip proxy_python爬虫ip代理服务器的简要思路

    python爬虫有的时候会遇到被禁ip的情况,这个时候你可以找一下代理网站,抓取一下ip,来进行动态的轮询就没问题了,也可以用别人做好的第三方ip代理平台,比如说crawlera,crawlera是一 ...

  8. 解析python网络爬虫pdf 黑马程序员_正版 解析Python网络爬虫 核心技术 Scrapy框架 分布式爬虫 黑马程序员 Python应用编程丛书 中国铁道出版社...

    商品参数 书名:Python应用编程丛书:解析Python网络爬虫:核心技术.Scrapy框架.分布式爬虫 定价:52.00元 作者:[中国]黑马程序员 出版社:中国铁道出版社 出版日期:2018-0 ...

  9. 04-ABB工业机器人中断程序样例

    前段时间一个项目需要机器人将自己的坐标定时发送给上位机,我师父随手写了一个中断样例,在这里分享一下: 首先介绍两个RAPID指令: 1.IDelete:删除中断,用于取消或者删除中断预定. 2.CON ...

最新文章

  1. 【底层原理】四位计算机的原理及其实现
  2. 编译器不识别stm指令_编译器简介
  3. 小氓男-灰色按钮激活V1.0
  4. 决策树之前要不要处理缺失值_不要使用这样的决策树
  5. [css] 你有使用过字体图标吗?它有什么好处?
  6. 微信web-view 开发_在不到7个月的时间里我如何成为一名Web开发人员-以及如何
  7. Java JDK与JRE
  8. 移动开发—详解flex布局之携程网首页案例制作
  9. 项目笔记:分层模型建立
  10. Javascript项目
  11. python一切都是对象 知乎_python一切皆对象
  12. react-native ios push 本地view
  13. 再也回不去的 GitHub。。。
  14. Android 布局优化之include与merge
  15. 在登陆Fedora 9时选择语言
  16. Linux的tar解压命令
  17. 程序员自我修养阅读笔记——Windows PE/COFF
  18. 【若依】非分离版代码生成记录
  19. 神经网络长什么样不知道?这有一份简单的 pytorch可视化技巧
  20. mt管理器图片在哪个文件夹_微信apk用mt管理器 替换主界面背景图片是那个文件? 其他文件怎么替换 不要视频...

热门文章

  1. 创建用户的种类与区分
  2. Primefaces,Spring 4 with JPA(Hibernate 4 / EclipseLink)示例教程
  3. 投屏时,客厅电视与客厅电视DMR的区别
  4. eggjs使用cheerio爬取数据
  5. java-抽象类和接口对区别
  6. 闭包的示例_用示例解释JavaScript中的闭包
  7. .htaccess 重定向_如何使用.htaccess将HTTP重定向到HTTPS
  8. 机器学习均方误差_机器学习:均方误差和回归线简介
  9. redux引用多个中间件_如何轻松创建您的第一个Redux中间件
  10. gitter 卸载_最佳Gitter渠道:游戏开发人员