一,导入依赖

org.jsoup

jsoup

1.10.3

org.apache.httpcomponents

httpclient

二,编写demo类

注意不要导错包了,是org.jsoup.nodes下面的

package com.taotao.entity;

import org.apache.http.HttpEntity;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import java.io.IOException;

/**

* Author: TaoTao 2019/9/26

*/

public class intefaceTest {

public static void main(String[] args) throws IOException {

CloseableHttpClient httpClient = HttpClients.createDefault();//创建httpClient

HttpGet httpGet = new HttpGet("http://www.cnblogs.com/");//创建httpget实例

CloseableHttpResponse response = httpClient.execute(httpGet);//执行get请求

HttpEntity entity = response.getEntity();//获取返回实体

String content = EntityUtils.toString(entity,"utf-8");//网页内容

response.close();//关闭流和释放系统资源

Jsoup.parse(content);

Document doc = Jsoup.parse(content);//解析网页得到文档对象

Elements elements = doc.getElementsByTag("title");//获取tag是title的所有dom文档

Element element = elements.get(0);//获取第一个元素

String title = element.text(); //.html是返回html

System.out.println("网页标题:"+title);

Element element1 = doc.getElementById("site_nav_top");//获取id=site_nav_top标签

String str = element1.text();

System.out.println("str:"+str);

}

}

标签:http,title,入门教程,jsoup,爬取,Jsoup,import,apache,org

来源: https://www.cnblogs.com/book-mountain/p/11595018.html

java jsoup爬取动态网页_java通过Jsoup爬取网页(入门教程)相关推荐

  1. java 手机网页_Java爬虫: 爬取京东上的手机搜索页面 HttpClient+Jsoup

    1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用Maven项目,log4j记录日志,日志仅导出到控制台. Maven依赖如下 ...

  2. java爬百度翻页_Java网络爬虫爬取百度页面

    最近看到网上介绍爬虫的文章,觉得很有趣,那么心动不如行动,晚上回来的时间刚好用来码代码啦~~ 网络爬虫:按照一定的规则爬取网页上的信息,通常是爬取到一些URL之后然后对这些URL放入队列在一次次的进行 ...

  3. java爬虫隐藏表单提交_java爬虫--jsoup简单的表单抓取案例

    分析需求: 某农产品网站的农产品价格抓取 页面展示如上: 标签展示如上: 分析发现每日价格行情包括了蔬菜,水果,肉等所有的信息,所以直接抓每日行情的内容就可以实现抓取全部数据. 软件环境:eclips ...

  4. java抓取qq消息_Java代码---实现爬取腾讯新闻

    环境准备: com.alibaba druid 1.1.21 com.google.code.gson gson 2.8.5 org.springframework spring-jdbc 5.2.2 ...

  5. java爬虫怎么确定url连接_Java爬虫之抓取一个网站上的全部链接

    前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫,测 ...

  6. java cookie 取不到_java中Servlet Cookie取不到值原因解决办法

    java中Servlet Cookie取不到值原因解决办法 现象: 在测试带Cookie的HTTP请求时发现,服务端用request.getHeader("cookie")可以去到 ...

  7. java如何做网页_java怎么做一个简单网页?网页包括什么?

    学了java程序之后,大家就可以将这些运用到生活中去,比如做一个简单的网页.正好也可以检测自己学了怎么样,那么接下来,我们就来给大家讲解一下这方面的内容. 用Java语言编写实现一个简单的WEB浏览器 ...

  8. java list 随机获取n个_java – 从列表中取n个随机元素?

    两个主要方式. List list = createItSomehow(); Random random = new Random(); Foo foo = list.get(random.nextI ...

  9. java装饰者模式讲解视频教程_java装饰者模式介绍(图文教程)

    java装饰者模式介绍(图文教程).装饰者模式UML类图: 装饰者模式UML类图 java装饰者模式知识要点 装饰者模式动态地将责任附加到对象上.若要扩展功能,装饰者提供了比继承更有弹性的替代方案. ...

最新文章

  1. 64% 的企业未实现智能化,5成公司算法工程师团队规模小于 10人,AI 工程师的机遇在哪里?...
  2. python文件指针放在文件的开头_将文件指针倒带到上一个lin的开头
  3. 现金支付没落?澳大利亚一年内移除数百台ATM机
  4. Icon class生成器(Python)
  5. skynet源码阅读5--协程调度模型
  6. 层次聚类python实现_Python机器学习——Agglomerative层次聚类
  7. 众安每秒3.2万张保单的背后,阿里云输出了什么能力?
  8. nginx之lua_shared_dict
  9. 干货分享 | 史上最全Oracle体系结构整理
  10. 双系统(win7+ubuntu)ubuntu磁盘空间不足时解决方法
  11. HTML - 'MARQUEE'
  12. Unity Hub和Unity安装教程
  13. 点餐系统+小程序常见问题解决(2022年最新版)
  14. 个人网站建设专业定制,个人网站建设怎么做
  15. python 杨辉三角居中打印_利用python打印杨辉三角
  16. 视频目标检测paper带读(一)《Flow-Guided Feature Aggregation for Video Object Detection》
  17. 安徽大学计算机学院张静,安徽大学2011年国家励志奖学金获奖学生名单
  18. 第2章 构建自定义语料库
  19. C# 键盘中的按键对应的KeyValue
  20. postman,请求前置脚本,Pre-requests Script

热门文章

  1. HDU 2544最短路dijkstra模板题
  2. JavaScript-基础入门.0014.JavaScript内置对象
  3. 注册验证的时候一直出现的报错问题,终于解决了
  4. 在没有域环境的情况下配置完整安装的SharePoint2010和2013
  5. 百度地图iOS API
  6. wcf会话、实例化、并发
  7. jQuery 入门教程(5): 显示/隐藏内容
  8. .net应用程序中添加chm帮助文档打开显示此程序无法显示网页问题
  9. 莫烦Pytorch神经网络第五章代码修改
  10. 推箱子2-向右推!_保持冷静,砍箱子-银行