Java 爬虫简单起步
JAVA第一步是环境,环境配好后开始编写,这里用的代码编辑器是IDEA(据说很好用,可惜用不惯,还找了个汉化包)
1 // 定义即将访问的链接 2 String url = "http://www.baidu.com"; 3 // 定义一个字符串用来存储网页内容 4 String result = ""; 5 // 定义一个缓冲字符输入流 6 BufferedReader in = null; 7 try 8 { 9 // 将string转成url对象 10 URL realUrl = new URL(url); 11 12 //HttpURLConnection conn = (HttpURLConnection) realUrl.openConnection(); 13 // 初始化一个链接到那个url的连接 14 URLConnection connection = realUrl.openConnection(); 15 connection.setReadTimeout(100); 16 connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)"); 17 // 开始实际的连接 18 connection.connect(); 19 // 初始化 BufferedReader输入流来读取URL的响应 20 in = new BufferedReader(new InputStreamReader(connection.getInputStream())); 21 // 用来临时存储抓取到的每一行的数据 22 String line; 23 while ((line = in.readLine()) != null) 24 { 25 // 遍历抓取到的每一行并将其存储到result里面 26 result += line + "\n"; 27 } 28 } catch (Exception e) 29 { 30 System.out.println("发送GET请求出现异常!" + e); 31 e.printStackTrace(); 32 } // 使用finally来关闭输入流 33 finally 34 { 35 try 36 { 37 if (in != null) 38 { 39 in.close(); 40 } 41 } catch (Exception e2) 42 { 43 e2.printStackTrace(); 44 } 45 } 46 System.out.println(result);
代码见注释很多 ,适合初学,分享给大家。
实现结果,获取百度首页源代码。
下一步就是html格式化或者正则获取等操作。
转载于:https://www.cnblogs.com/yishilin/p/8297804.html
Java 爬虫简单起步相关推荐
- java爬虫-简单爬取网页图片
刚刚接触到"爬虫"这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语 ...
- HTTP编程(Java爬虫-简单爬取网页数据)
HTTP协议简介 HTTP 是 HyperText Transfer Protocol 的缩写,翻译为超文本传输协议,它是基于 TCP 协议之上的一种请求-响应协议. HTTP请求格式是固定的,由HT ...
- Java 爬虫简单实现多线程爬取视频
一 引言 什么是网络爬虫? 个人简单理解: 根据特定规则从指定web开放内容中抓取希望获取的数据,如视频,图片,小说等 官方权威解释(wiki): 网络爬虫(英语:),也叫网络蜘蛛(),是一种用来自动 ...
- 超简单的java爬虫
最简单的爬虫,不需要设定代理服务器,不需要设定cookie,不需要http连接池,使用httpget方法,只是为了获取html代码... 好吧,满足这个要求的爬虫应该是最基本的爬虫了.当然这也是做复杂 ...
- java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一)
转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一) 最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣.这里自己找了一个 ...
- java爬虫之基于httpclient的简单Demo(二)
转载自 java爬虫之基于httpclient的简单Demo(二) 延续demo1的 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一),demo2出炉啦,大家想学爬虫都可以从这 ...
- java爬虫自动识别验证码_简单Java爬虫(一)爬取手机号码
原创 野狗菌 希望你能喜欢 今天 关于本文: 本文介绍一个简单Java爬虫,获取网页源码,爬取电话号码. 本篇教程用我的博客一个测试网页演示. --野狗菌[希望你能喜欢] 测试页面: https:// ...
- 简单几步学会java爬虫
初入爬虫行业的程序员如何通过java语言编写爬虫程序,本文介绍了java爬虫入门一些知识供大家参考. 首先我们知道jsoup是一款简单好用的页面解析工具,百度可以找到中文教程,我这里只是作为个人笔记的 ...
- Java爬虫更新mysql数据库(简单事例)
http://webmagic.io/docs/zh/posts/ch4-basic-page-processor/selectable.html webmagic官网文档解释 所需jar包: 以及w ...
- java 爬虫 异步_Java 爬虫遇上数据异步加载,试试这两种办法!
这是 Java 爬虫系列博文的第三篇,在上一篇 Java 爬虫遇到需要登录的网站,该怎么办? 中,我们简单的讲解了爬虫时遇到登录问题的解决办法,在这篇文章中我们一起来聊一聊爬虫时遇到数据异步加载的问题 ...
最新文章
- threejs 纹理流动_Threejs多重纹理与过程纹理实现
- IEnumerable和IEnumerator 详解
- idea打包成jar包或war包
- 高压五防计算机软件安装,基于Android的新一代五防钥匙软件系统
- yum方式安装mysql多实例_centos7下使用yum安装mysql
- 《Android开发精要》读书笔记——Android的系统架构
- android传感器开发与智能设备案例实战_【我的物联网成长记2】设备如何进行选型?...
- swf游戏保存进度_关于flash游戏swf文件的修改
- 数据结构——栈与队列的异同
- IT软件技术人员的职位路线(从程序员到技术总监) - 部门管理经验谈
- Macs Fan Control 官方正版中文网站 控制苹果电脑上风扇工具软件
- CSS3 animation动画 - 转风车、loding加载、人物走路等示例
- python 开发按键钢琴
- 怎么去面试测试工程师?
- 医保卡和社保卡的区别
- java 循环与控制器,映射spring控制器
- 对于拓展欧几里德算法的理解
- Socket.io 的使用
- 架构之思-分析那些深入骨髓的设计原则
- 自然语言处理笔记5-哈工大 关毅