JAVA第一步是环境,环境配好后开始编写,这里用的代码编辑器是IDEA(据说很好用,可惜用不惯,还找了个汉化包)

 1 // 定义即将访问的链接
 2         String url = "http://www.baidu.com";
 3         // 定义一个字符串用来存储网页内容
 4         String result = "";
 5         // 定义一个缓冲字符输入流
 6         BufferedReader in = null;
 7         try
 8         {
 9             // 将string转成url对象
10             URL realUrl = new URL(url);
11
12             //HttpURLConnection conn = (HttpURLConnection) realUrl.openConnection();
13             // 初始化一个链接到那个url的连接
14             URLConnection connection = realUrl.openConnection();
15             connection.setReadTimeout(100);
16             connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
17             // 开始实际的连接
18             connection.connect();
19             // 初始化 BufferedReader输入流来读取URL的响应
20             in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
21             // 用来临时存储抓取到的每一行的数据
22             String line;
23             while ((line = in.readLine()) != null)
24             {
25                 // 遍历抓取到的每一行并将其存储到result里面
26                 result += line + "\n";
27             }
28         } catch (Exception e)
29         {
30             System.out.println("发送GET请求出现异常!" + e);
31             e.printStackTrace();
32         } // 使用finally来关闭输入流
33         finally
34         {
35             try
36             {
37                 if (in != null)
38                 {
39                     in.close();
40                 }
41             } catch (Exception e2)
42             {
43                 e2.printStackTrace();
44             }
45         }
46         System.out.println(result);

代码见注释很多 ,适合初学,分享给大家。

实现结果,获取百度首页源代码。

下一步就是html格式化或者正则获取等操作。

转载于:https://www.cnblogs.com/yishilin/p/8297804.html

Java 爬虫简单起步相关推荐

  1. java爬虫-简单爬取网页图片

    刚刚接触到"爬虫"这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语 ...

  2. HTTP编程(Java爬虫-简单爬取网页数据)

    HTTP协议简介 HTTP 是 HyperText Transfer Protocol 的缩写,翻译为超文本传输协议,它是基于 TCP 协议之上的一种请求-响应协议. HTTP请求格式是固定的,由HT ...

  3. Java 爬虫简单实现多线程爬取视频

    一 引言 什么是网络爬虫? 个人简单理解: 根据特定规则从指定web开放内容中抓取希望获取的数据,如视频,图片,小说等 官方权威解释(wiki): 网络爬虫(英语:),也叫网络蜘蛛(),是一种用来自动 ...

  4. 超简单的java爬虫

    最简单的爬虫,不需要设定代理服务器,不需要设定cookie,不需要http连接池,使用httpget方法,只是为了获取html代码... 好吧,满足这个要求的爬虫应该是最基本的爬虫了.当然这也是做复杂 ...

  5. java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一)

    转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一) 最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣.这里自己找了一个 ...

  6. java爬虫之基于httpclient的简单Demo(二)

    转载自 java爬虫之基于httpclient的简单Demo(二) 延续demo1的 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一),demo2出炉啦,大家想学爬虫都可以从这 ...

  7. java爬虫自动识别验证码_简单Java爬虫(一)爬取手机号码

    原创 野狗菌 希望你能喜欢 今天 关于本文: 本文介绍一个简单Java爬虫,获取网页源码,爬取电话号码. 本篇教程用我的博客一个测试网页演示. --野狗菌[希望你能喜欢] 测试页面: https:// ...

  8. 简单几步学会java爬虫

    初入爬虫行业的程序员如何通过java语言编写爬虫程序,本文介绍了java爬虫入门一些知识供大家参考. 首先我们知道jsoup是一款简单好用的页面解析工具,百度可以找到中文教程,我这里只是作为个人笔记的 ...

  9. Java爬虫更新mysql数据库(简单事例)

    http://webmagic.io/docs/zh/posts/ch4-basic-page-processor/selectable.html webmagic官网文档解释 所需jar包: 以及w ...

  10. java 爬虫 异步_Java 爬虫遇上数据异步加载,试试这两种办法!

    这是 Java 爬虫系列博文的第三篇,在上一篇 Java 爬虫遇到需要登录的网站,该怎么办? 中,我们简单的讲解了爬虫时遇到登录问题的解决办法,在这篇文章中我们一起来聊一聊爬虫时遇到数据异步加载的问题 ...

最新文章

  1. threejs 纹理流动_Threejs多重纹理与过程纹理实现
  2. IEnumerable和IEnumerator 详解
  3. idea打包成jar包或war包
  4. 高压五防计算机软件安装,基于Android的新一代五防钥匙软件系统
  5. yum方式安装mysql多实例_centos7下使用yum安装mysql
  6. 《Android开发精要》读书笔记——Android的系统架构
  7. android传感器开发与智能设备案例实战_【我的物联网成长记2】设备如何进行选型?...
  8. swf游戏保存进度_关于flash游戏swf文件的修改
  9. 数据结构——栈与队列的异同
  10. IT软件技术人员的职位路线(从程序员到技术总监) - 部门管理经验谈
  11. Macs Fan Control 官方正版中文网站 控制苹果电脑上风扇工具软件
  12. CSS3 animation动画 - 转风车、loding加载、人物走路等示例
  13. python 开发按键钢琴
  14. 怎么去面试测试工程师?
  15. 医保卡和社保卡的区别
  16. java 循环与控制器,映射spring控制器
  17. 对于拓展欧几里德算法的理解
  18. Socket.io 的使用
  19. 架构之思-分析那些深入骨髓的设计原则
  20. 自然语言处理笔记5-哈工大 关毅

热门文章

  1. 苹果mac交互原型设计软件:Axure RP
  2. 如何从视频中删除声音?
  3. iOS开发之来自一线开发者的Swift学习资源推荐
  4. 修图必备:Photosho 2022 for Mac
  5. Aiseesoft Data Recovery for mac(专业数据恢复软件)
  6. win10的一些命令,记一记
  7. Sqlalchemy 乱码解决方法
  8. 中国团队入选美国物理学会2018年度国际物理学十大进展
  9. dva开发一个cnode网站(2)
  10. Micro-mvc与springcloud整合