前言

由于爬虫性质的特殊性,本文将部分爬取文章的网站例子,用###代替,希望大家能学习java爬取代码技巧!!!

pom文件引入所需要的依赖

        <!--jsoup--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version></dependency>

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

核心实现代码


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;import java.io.IOException;/*** 文章采集* @author tarzan* @date 2021/5/31*/
public class ArticleCollect {//网站地址private static String webUrl="###";/*** @param url 访问路径* @return*/public static Document getDocument(String url) {try {//5000是设置连接超时时间,单位msreturn Jsoup.connect(url).timeout(5000).get();} catch (IOException e) {e.printStackTrace();}return null;}public static void main(String[] args) {int pageNum=0;while (true){pageNum++;if(!readPage(webUrl,pageNum)){break;}}}public static String readArticle(String url) {Document doc=  getDocument(url);//获取文章标题Elements title = doc.select("title");System.out.println(title);//获取文章内容Elements content = doc.select("###");return content.html();}public static boolean readPage(String webUrl,int pageNum) {Document doc = getDocument(webUrl+"/article/list/"+pageNum);// 获取目标HTML代码Elements elements = doc.select("###");//文章列表Elements articles = elements.select("###");if (articles.size() == 0) {return false;}articles.forEach(e -> {String url = e.select("a").attr("href");readArticle(url);try {//等待3秒Thread.sleep(3000);} catch (InterruptedException interruptedException) {System.out.println("线程中断故障");}});return true;}}

控制台运行输出

java文章采集爬虫代码示例相关推荐

  1. java基础之----java常见异常及代码示例

    java基础之----java常见异常及代码示例 参考文章: (1)java基础之----java常见异常及代码示例 (2)https://www.cnblogs.com/gunduzi/p/1203 ...

  2. python爬虫代码示例分享

    这篇文章主要介绍了三个python爬虫项目实例代码,使用了urllib2库,文中示例代码非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下. python爬虫代码示例分享 一. ...

  3. python爬虫代码实例源码_python爬虫代码示例分享

    这篇文章主要介绍了三个python爬虫项目实例代码,使用了urllib2库,文中示例代码非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下. python爬虫代码示例分享 一. ...

  4. Java IOUtils.copy方法代码示例(亲测)

    本文整理汇总了Java中org.apache.commons.io.IOUtils.copy方法的典型用法代码示例.如果您正苦于以下问题:Java IOUtils.copy方法的具体用法?Java I ...

  5. 果壳网科学人文章采集爬虫分享

    大数据时代必备技能 - 神箭手云爬虫 -一站式云端通用爬虫开发平台 神箭手云爬虫多样化采集网页内容,快速产生大量而优质的内容. 1.打开神箭手云爬虫官网 2.创建爬虫任务 (1) 在首页点击" ...

  6. java语音验证码_Java代码示例_Java语音验证接口 | 微米-中国领先的短信彩信接口平台服务商...

    Java语音验证接口代码示例 请求 import java.util.HashMap; import java.util.Map; public class IvrDemo { /** * 语音验证接 ...

  7. Java时间类型转换详细代码示例

    Java时间类型转换详细代码示例 一.时间类型转换代码示例 二.时间标准简介 1.UTC(世界标准时间) 2.GMT(格林尼治平时) 3.CST(北京时间) 三.SimpleDateFormat 参数 ...

  8. 网易云音乐爬虫代码示例

    网易云音乐爬虫代码示例 以下是代码示例 import os import requests from bs4 import BeautifulSoupurl = 'https://music.163. ...

  9. java爬虫代码示例_那些让你代码思维和能力有较大的提升Java源码

    来源:www.cnblogs.com/jiagou/p/9270070.html 对于学习J2EE的框架有很大的帮助,代码里使用了各种设计模式.事件机制.Java8语法.代码量也很小,web服务使用N ...

  10. java coin介绍_代码示例中的Java 7:Project Coin

    java coin介绍 该博客通过代码示例介绍了一些新的Java 7功能,这些项目在Project Coin一词下进行了概述. Project Coin的目标是向JDK 7添加一组小的语言更改.这些更 ...

最新文章

  1. JQuery选中的对象和非选中的其他对象分别执行不同动作
  2. CloudCC: 智能CRM究竟能否成为下一个行业风口?
  3. 桌面图标计算机的意义,关于电脑桌面图标的3个古老问题,答对一个都是高手,你会几个?...
  4. cocos 新工程遇到的问题
  5. 十一届蓝桥杯国赛 美丽的2-枚举
  6. java 连接ldap_ldap java 连接demo
  7. 77种互联网盈利创新模式(3)
  8. 训练日志 2019.8.23
  9. lxml库的基本使用-etree解析html得到对象的不同方式-0233
  10. 《Android音视频开发》封面由你来投票
  11. linux的一些目录结构
  12. Java搭建网站相关知识整理(新手上路)
  13. 手机app通达信添加自定义公式(分时T+0)为例子讲解
  14. word图片被文字覆盖一部分的解决方法
  15. 南京邮电大学——陈健教授
  16. 使用一条sql语句在postgres中查询总数和分页数据
  17. RTTI (Runtime Type Identification)
  18. 研发管理学习笔记4-学习研发管理的51CTO视频课
  19. 无线密码破解工具 - Aircrack-ng
  20. 【杂耍】记录一次红米Note的救砖经历

热门文章

  1. 如何横扫棋坛?AlphaGo 先随机扔了一个骰子
  2. Linux 中复制问题,错误显示 cp:omitting directory
  3. 视频教程-达芬奇DAVINCI 14 影视调色大师全套零基础学习到调色综合案例实战视频教程-其他
  4. 【电力电子技术】整流电路
  5. 一个遮罩层怎么遮罩两个图层_巧妙运用图层做遮罩动画
  6. android自动连接wifi,Android自动连接WiFi优先级规则,以及查看已连接WiFi的密码
  7. Unity 之 2D水插件推荐和模拟水效果制作分享
  8. 16-大数据处理技巧--数据分析
  9. manjaro快捷键
  10. swiper网格布局