1.简单的maven项目

2.引入jsoup访问网站

3.pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.pshdhx</groupId><artifactId>pshdhx</artifactId><version>0.0.1-SNAPSHOT</version><dependencies><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.11.3</version></dependency></dependencies>
</project>

4.主程序

package com.pshdhx;
/*** 增加csdn点击数* @author pshdhx**/import java.awt.Desktop;
import java.io.IOException;
import java.net.URI;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Node;
import org.jsoup.select.Elements;
public class AddCount {private static Desktop desktop;//定义私有静态成员变量public static   ArrayList<String> strList = new ArrayList<String>();//定义String类型的泛型集合public static List<String> get(){Document doc;Document doc2;Document doc3;Document doc4;Document doc5;try {doc = Jsoup.connect("https://blog.csdn.net/pshdhx").get();Elements elementsByTag = doc.getElementsByTag("h4");for(int i=0;i<elementsByTag.size();i++) {Node childNode = elementsByTag.get(i);Node childNode2 = childNode.childNode(1);strList.add(childNode2.attr("href"));}doc2 = Jsoup.connect("https://blog.csdn.net/pshdhx/article/list/2").get();Elements elementsByTag2 = doc2.getElementsByTag("h4");for(int i=0;i<elementsByTag2.size();i++) {Node childNode = elementsByTag2.get(i);Node childNode2 = childNode.childNode(1);strList.add(childNode2.attr("href"));}doc3 = Jsoup.connect("https://blog.csdn.net/pshdhx/article/list/3").get();Elements elementsByTag3 = doc3.getElementsByTag("h4");for(int i=0;i<elementsByTag3.size();i++) {Node childNode = elementsByTag3.get(i);Node childNode2 = childNode.childNode(1);strList.add(childNode2.attr("href"));}doc4 = Jsoup.connect("https://blog.csdn.net/pshdhx/article/list/4").get();Elements elementsByTag4 = doc4.getElementsByTag("h4");for(int i=0;i<elementsByTag4.size();i++) {Node childNode = elementsByTag4.get(i);Node childNode2 = childNode.childNode(1);strList.add(childNode2.attr("href"));}doc5 = Jsoup.connect("https://blog.csdn.net/pshdhx/article/list/5").get();Elements elementsByTag5 = doc5.getElementsByTag("h4");for(int i=0;i<elementsByTag5.size();i++) {Node childNode = elementsByTag5.get(i);Node childNode2 = childNode.childNode(1);strList.add(childNode2.attr("href"));}}catch(Exception e) {e.printStackTrace();}return strList;}public static void browse(String uri){if(Desktop.isDesktopSupported()){//判断是否支持DeskTopdesktop = Desktop.getDesktop();try{desktop.browse(new URI(uri));}catch(Exception e){e.printStackTrace();}}}public static void main(String[] args) throws IOException, InterruptedException {int i =0;List<String> list = AddCount.get();
//      while(true){    //一直循环
//          try{
//              if(i<40) //判断是否小于博文数量,不然可能会出现越界错误
//              {
//                  browse((String)strList.get(i));
//                  Thread.sleep(3000); //这里的单位为毫秒 我这里设置每个 网址之间间隔30s 这里可以根据情况改
//              }else{
//                  i=-1; //将i重置为-1 因为后面会进行i++ 加1后就变成了0
//                   // 启用cmd运行chrome的方式来退出
//                   Runtime.getRuntime().exec("taskkill /F /IM chrome.exe"); //我默认浏览器是 chrome
//                              //如果你的事firefox 将chrome改为firefox即可
//                  Thread.sleep(36);   //这里的单位为毫秒 我这里设置每个访问所有博文后 休眠1小时 这里可以根据情况改
//              }
//          }catch(Exception e){
//              e.printStackTrace();
//          }
//          i++;
//      }Document doc;
//      for(String j:list) {
//          doc = Jsoup.connect(j).get();
//          System.out.println(doc.baseUri()+"一秒");
//      }Set<String> set = new HashSet<>();for(String j :list){set.add(j);}for(String a:set){doc = Jsoup.connect(a).get();System.out.println("==="+doc.baseUri()+"===一秒");}}
}

4、它的网页的访问量会增长的很慢,和本地程序运行速度有关,如果本地硬件性能较好,可以使用java的多线程的方式进行高并发,这样会明显增快爬取速度。

java使用maven引入jsoup,爬取网页内容相关推荐

  1. 几十行代码实现Java爬虫,结合jsoup爬取网名昵称

    原文链接:点击打开链接 crawler4j是一个开源爬虫框架(https://github.com/yasserg/crawler4j), 我们可以使用它进行爬虫.以爬取 http://www.nib ...

  2. 利用Jsoup爬取网页内容

    jsoup的强大之处在这里就不多说,最近在写项目,需要爬取网页上的内容,自然想到的是利用Jsoup来处理,项目中是利用Jsoup爬取学校信息门户的新闻消息,然后放进客户端 网页的html代码如下 &l ...

  3. java爬虫入门--用jsoup爬取汽车之家的新闻

    概述 使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuer ...

  4. Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

    最近在找工作,在这个过程中我感到很迷茫,投了很多简历,被查看的却很少,其中也有到现场去面试,结果也很不理想(╥╯^╰╥). 哈哈,跑题了,我在看之前所做的项目时,在我的收藏夹中看到了以前收藏的有关爬虫 ...

  5. java爬取网页内容 简单例子(2)——附jsoup的select用法详解

    [背景] 在上一篇博文 java爬取网页内容 简单例子(1)--使用正则表达式 里面,介绍了如何使用正则表达式去解析网页的内容,虽然该正则表达式比较通用,但繁琐,代码量多,现实中想要想出一条简单的正则 ...

  6. java jsoup爬取动态网页_java通过Jsoup爬取网页(入门教程)

    一,导入依赖 org.jsoup jsoup 1.10.3 org.apache.httpcomponents httpclient 二,编写demo类 注意不要导错包了,是org.jsoup.nod ...

  7. java爬虫案例——SpringBoot使用HttpClient、Jsoup爬取京东手机数据

    文章目录 前言 一.准备工作 二.项目文件 1.项目依赖 2.项目配置文件 3.pojo 4.dao接口 5.service接口及其实现类 6.HttpClient封装工具类 7.爬取任务实现 8.启 ...

  8. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  9. 【java爬虫】jsoup爬取网页数据-搜索算法评测/竞品评测

    百度抽奖概率改4个小时频繁黑屏频繁弹出源码的前端FE T8李森:请云端高level的同学参加会议...对,我级别到了... 666666 业务背景:如何保证搜索算法的好坏?所以有了竞品评测,自己的AP ...

最新文章

  1. python最新版本 效率_Python:迭代列表与dict项目效率
  2. Android开发--用户定位服务--UserLocation
  3. 浅析简易网页制作的准备工作
  4. TreeMap集合特点、排序原理
  5. maven 构建java项目,jdk版本问题
  6. python 进程池_python进程池
  7. mysql5.0.x统计每秒增删改查替换数及系统每秒磁盘IO
  8. db2 表添加字段及注释操作
  9. 服务器解压gz文件命令,gz解压(手机怎么解压gz文件)
  10. m4s格式转换mp3_简单的amr转换mp3音频格式转换方法
  11. 全月加权平均的计算(分仓核算,结果反填到单据)
  12. DMOZ分类目录对网站推广的作用
  13. iOS开发之Unity游戏在iOS平台运行调研(踩坑)
  14. linux下杀死全部进程,linux下批量杀死进程
  15. C语言源代码系列-管理系统之学生信息管理系统
  16. 计算机毕业设计Java教师继续教育(源码+系统+mysql数据库+lw文档)
  17. 家用计算机防火墙设置,电脑防火墙设置【解决思路】
  18. linux安装SecureCRT安装教学
  19. Leetcode 594. 最长和谐子序列
  20. utf-8 和gbk编码的差别

热门文章

  1. 树莓派安装宝塔mysql_在树莓派中安装宝塔Linux面板
  2. Java面向对象 - 类与对象
  3. RF(随机森林)算法原理及其派生算法
  4. DPAA1 Software Architecture 工作原理之浅见
  5. Linux C TCPSocket 传输文件简单实例-多线程实现
  6. python发送文件给微信好友_python获取天气接口给指定微信好友发天气预报
  7. 用js怎么取table中的tr标签--这是一个陷阱
  8. PHP基于thinkphp的在线机票销售系统#毕业设计
  9. 关于react native code push的JS端配置攻略
  10. 用 verilog 实现 minst 数字识别