java文章采集爬虫代码示例
前言
由于爬虫性质的特殊性,本文将部分爬取文章的网站例子,用###代替,希望大家能学习java爬取代码技巧!!!
pom文件引入所需要的依赖
<!--jsoup--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version></dependency>
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
核心实现代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;import java.io.IOException;/*** 文章采集* @author tarzan* @date 2021/5/31*/
public class ArticleCollect {//网站地址private static String webUrl="###";/*** @param url 访问路径* @return*/public static Document getDocument(String url) {try {//5000是设置连接超时时间,单位msreturn Jsoup.connect(url).timeout(5000).get();} catch (IOException e) {e.printStackTrace();}return null;}public static void main(String[] args) {int pageNum=0;while (true){pageNum++;if(!readPage(webUrl,pageNum)){break;}}}public static String readArticle(String url) {Document doc= getDocument(url);//获取文章标题Elements title = doc.select("title");System.out.println(title);//获取文章内容Elements content = doc.select("###");return content.html();}public static boolean readPage(String webUrl,int pageNum) {Document doc = getDocument(webUrl+"/article/list/"+pageNum);// 获取目标HTML代码Elements elements = doc.select("###");//文章列表Elements articles = elements.select("###");if (articles.size() == 0) {return false;}articles.forEach(e -> {String url = e.select("a").attr("href");readArticle(url);try {//等待3秒Thread.sleep(3000);} catch (InterruptedException interruptedException) {System.out.println("线程中断故障");}});return true;}}
控制台运行输出
java文章采集爬虫代码示例相关推荐
- java基础之----java常见异常及代码示例
java基础之----java常见异常及代码示例 参考文章: (1)java基础之----java常见异常及代码示例 (2)https://www.cnblogs.com/gunduzi/p/1203 ...
- python爬虫代码示例分享
这篇文章主要介绍了三个python爬虫项目实例代码,使用了urllib2库,文中示例代码非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下. python爬虫代码示例分享 一. ...
- python爬虫代码实例源码_python爬虫代码示例分享
这篇文章主要介绍了三个python爬虫项目实例代码,使用了urllib2库,文中示例代码非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下. python爬虫代码示例分享 一. ...
- Java IOUtils.copy方法代码示例(亲测)
本文整理汇总了Java中org.apache.commons.io.IOUtils.copy方法的典型用法代码示例.如果您正苦于以下问题:Java IOUtils.copy方法的具体用法?Java I ...
- 果壳网科学人文章采集爬虫分享
大数据时代必备技能 - 神箭手云爬虫 -一站式云端通用爬虫开发平台 神箭手云爬虫多样化采集网页内容,快速产生大量而优质的内容. 1.打开神箭手云爬虫官网 2.创建爬虫任务 (1) 在首页点击" ...
- java语音验证码_Java代码示例_Java语音验证接口 | 微米-中国领先的短信彩信接口平台服务商...
Java语音验证接口代码示例 请求 import java.util.HashMap; import java.util.Map; public class IvrDemo { /** * 语音验证接 ...
- Java时间类型转换详细代码示例
Java时间类型转换详细代码示例 一.时间类型转换代码示例 二.时间标准简介 1.UTC(世界标准时间) 2.GMT(格林尼治平时) 3.CST(北京时间) 三.SimpleDateFormat 参数 ...
- 网易云音乐爬虫代码示例
网易云音乐爬虫代码示例 以下是代码示例 import os import requests from bs4 import BeautifulSoupurl = 'https://music.163. ...
- java爬虫代码示例_那些让你代码思维和能力有较大的提升Java源码
来源:www.cnblogs.com/jiagou/p/9270070.html 对于学习J2EE的框架有很大的帮助,代码里使用了各种设计模式.事件机制.Java8语法.代码量也很小,web服务使用N ...
- java coin介绍_代码示例中的Java 7:Project Coin
java coin介绍 该博客通过代码示例介绍了一些新的Java 7功能,这些项目在Project Coin一词下进行了概述. Project Coin的目标是向JDK 7添加一组小的语言更改.这些更 ...
最新文章
- JQuery选中的对象和非选中的其他对象分别执行不同动作
- CloudCC: 智能CRM究竟能否成为下一个行业风口?
- 桌面图标计算机的意义,关于电脑桌面图标的3个古老问题,答对一个都是高手,你会几个?...
- cocos 新工程遇到的问题
- 十一届蓝桥杯国赛 美丽的2-枚举
- java 连接ldap_ldap java 连接demo
- 77种互联网盈利创新模式(3)
- 训练日志 2019.8.23
- lxml库的基本使用-etree解析html得到对象的不同方式-0233
- 《Android音视频开发》封面由你来投票
- linux的一些目录结构
- Java搭建网站相关知识整理(新手上路)
- 手机app通达信添加自定义公式(分时T+0)为例子讲解
- word图片被文字覆盖一部分的解决方法
- 南京邮电大学——陈健教授
- 使用一条sql语句在postgres中查询总数和分页数据
- RTTI (Runtime Type Identification)
- 研发管理学习笔记4-学习研发管理的51CTO视频课
- 无线密码破解工具 - Aircrack-ng
- 【杂耍】记录一次红米Note的救砖经历