其实我只想要爬到整个网页的源代码的就好.通过java的一个包jsoup,就可以直接爬取了,后面有下载源代码(含jsoup包)的链接.

输入:网页链接

输出:网页源代码

代码比较简单,解析都在代码中:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;import java.io.FileOutputStream;public class Main {public static void main(String[] args) {//在这里输入所有想要爬取的网址String[] urlPath = new String[]{"http://daily.zhihu.com/"};for (String anUrlPath : urlPath) {try {Document document = Jsoup.connect(anUrlPath).userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").get();//此时document.html()就是全部网页信息,如果想要让程序酷炫一些,可以把这些内容打印在控制台String pathname = anUrlPath;//将url作为文件名,下面是消除不能在文件名中出现的非法字符pathname = pathname.replace("http://", "");pathname = pathname.replace('/', ' ');pathname = pathname.replace('\\', ' ');pathname = pathname.replace(':', ' ');pathname = pathname.replace('<', ' ');pathname = pathname.replace('>', ' ');pathname = pathname.replace('|', ' ');pathname = pathname.replace(" ", "");pathname = pathname + ".txt";//将内容保存到本地FileOutputStream os = new FileOutputStream(pathname, true);//在文件的第一行写入爬取的网页的url,方便以后用程序自动处理时识别urlos.write(anUrlPath.getBytes("utf-8"));os.write("\r\n".getBytes());os.write(document.html().getBytes("utf-8"));} catch (Exception e) {//如果出现比如 DNS解析失败,或是拒绝访问等报错,将它们写在exception.txt文件中,并且保证程序继续运行try {FileOutputStream os = new FileOutputStream("exception.txt", true);os.write(e.toString().getBytes("utf-8"));os.write("\r\n".getBytes());System.out.println(e);} catch (Exception e1) {System.out.println(e1);}}}}
}

只需要在urlPath中输入想要爬取的网页链接,就可以直接运行了.我这里就跟风,用"知乎日报"的网址做栗子了.

之后在当前目录中会出现一个文件来保存网页源代码:daily.zhihu.com.txt,如果出现任何报错,都不会使程序中断,而且会将报错的信息保存在一个文件:exception.txt中.

得到了网站的源代码,就可以通过自定义的方式来提取网页中的信息了,之后如果有时间我还会写一个爬取整站代码的博客,到时候输入多个链接,保存成文件夹,把它的整站代码爬下来.

如果有兴趣,可以下载我的源码,连jsoup的包都包含在里面了:http://download.csdn.net/download/weixin_35757704/10013327

java爬虫,提供链接直接爬取网页代码相关推荐

  1. 【期末课设】python爬虫基础与可视化,使用python语言以及支持python语言的第三方技术实现爬虫功能,定向爬取网页的图片数据,并且实现批量自动命名分类下载。

    1.大作业的内容 本要求使用python语言以及支持python语言的第三方技术实现爬虫功能,定向爬取网页的图片数据,并且实现批量自动命名分类下载. 2.案例需求 要求采用虚拟浏览器等动态爬虫技术,完 ...

  2. java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一)

    转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一) 最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣.这里自己找了一个 ...

  3. python爬取网页代码-python爬虫爬取网页所有数据详细教程

    Python爬虫可通过查找一个或多个域的所有 URL 从 Web 收集数据.Python 有几个流行的网络爬虫库和框架.大家熟知的就是python爬取网页数据,对于没有编程技术的普通人来说,怎么才能快 ...

  4. python爬虫实例方法(批量爬取网页信息基础代码)

    文章目录 前言 一.爬虫实例 0.爬取深圳租房信息 1.爬取深圳算法岗位信息 2.爬取猫图片(基于 selenium库 模拟人自动点击) 3.爬取小说纳兰无敌并生成词云 二.用到的库 1.正则表达式 ...

  5. 【爬虫实践之爬虫进阶】python爬取网页猫脸,使用opencv检测是否有猫脸,有则爬取

    使用python的opencv编写能够检测猫脸的模型可见,我前面的文章有较为详细的见解,链接如下: python使用opencv对猫脸进行检测,并且框出猫脸_小琼带你轻松学编程的博客-CSDN博客 p ...

  6. 使用 requests+lxml 库的 Python 爬虫实例(以爬取网页连载小说《撒野》为例)

    需求目标 介绍使用 requests 库与 lxml 库进行简单的网页数据爬取普通框架与爬虫实例,本文以爬取网页连载小说<撒野>为例~ 当然有很多小说基本都能找到现成的 .txt 或者 . ...

  7. 【爬虫】每天定时爬取网页小故事并发送至指定邮箱

    看题目 ,需要实现三部分工作,第一部分为爬取网页小故事,第二部分为发送至指定邮箱,第三部分为定时启动程序.爬取网页内容可以使用BeautifulSoup库实现,发送邮件可以使用smtplib库实现,定 ...

  8. 爬虫批量保存网页html,2分钟带你学会网络爬虫:Excel批量爬取网页数据(详细图文版)...

    面对网页大量的数据,有时候还要翻页,你还在一页一页地复制粘贴吗?别人需要几小时完成的任务,学会这个小技巧你只需要几分钟就能解决.快来学习使用Excel快速批量地爬取网页数据吧! 1.分析网页数据结构 ...

  9. java爬虫自动识别验证码_简单Java爬虫(一)爬取手机号码

    原创 野狗菌 希望你能喜欢 今天 关于本文: 本文介绍一个简单Java爬虫,获取网页源码,爬取电话号码. 本篇教程用我的博客一个测试网页演示. --野狗菌[希望你能喜欢] 测试页面: https:// ...

最新文章

  1. Java学习day_012(OOP):抽象类、接口和内部类(上)
  2. Unknown property 'mybatis-plus' yml文件报错
  3. oracle util_mail,在oracle 10g中发送电子邮件
  4. Python3之对象垃圾收集机制浅析
  5. dmol3给定关键字不在字典中_一日一技:举例说明python中的map()方法
  6. 英文科技写作 · 经验分享 · 讨论合集
  7. ubuntu安装Pillow
  8. 约数之和(分治,公式变形)
  9. java获取系统字体大小_Java自动调整到Windows 7的字体大小调整
  10. 经典常用判断字符串是否有值
  11. 计算机控制实验报告组态软件学习,单片机与MCGS组态综合实验系统 教学软件 实训系统...
  12. 计算 KL距离 (相对熵)
  13. H3C下一代防火墙介绍及开局指导培训答疑汇总
  14. python的spider如何让鼠标不_python wooyun爬虫模拟鼠标等
  15. 大地经纬度坐标与地心地固坐标的的转换
  16. 五一济南酒店数据出炉,做一个酒店管理APP多少钱?
  17. Locality Sensitive Hashing ( LSH,局部敏感哈希 ) 详解
  18. 高数 | chx和shx分别是什么
  19. 还贷款 月供贷款计算
  20. Python向左,数学向右:乌拉姆的素数研究

热门文章

  1. zookeeper中展示所有节点_zookeeper工作原理与节点使用
  2. c 语言 pthread_create_哪种编程语言又快又省电?有人对比了27种语言
  3. 行列式的本质是什么?(附MATLAB代码)
  4. C# DataTable 用法
  5. HDSF主要节点解说(二)工作原理
  6. VMware虚拟机关闭后托盘运行设置
  7. JavaScript parseInt() 函数
  8. Oracle、Db2、SqlServer、MySQL 数据库插入当前系统时间
  9. Analysis by Its History Theorem 2.2 牛顿广义二项式公式
  10. nginx解析漏洞 只要可以上传文件就会被黑