java jsoup爬取动态网页_java通过Jsoup爬取网页(入门教程)
一,导入依赖
org.jsoup
jsoup
1.10.3
org.apache.httpcomponents
httpclient
二,编写demo类
注意不要导错包了,是org.jsoup.nodes下面的
package com.taotao.entity;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
* Author: TaoTao 2019/9/26
*/
public class intefaceTest {
public static void main(String[] args) throws IOException {
CloseableHttpClient httpClient = HttpClients.createDefault();//创建httpClient
HttpGet httpGet = new HttpGet("http://www.cnblogs.com/");//创建httpget实例
CloseableHttpResponse response = httpClient.execute(httpGet);//执行get请求
HttpEntity entity = response.getEntity();//获取返回实体
String content = EntityUtils.toString(entity,"utf-8");//网页内容
response.close();//关闭流和释放系统资源
Jsoup.parse(content);
Document doc = Jsoup.parse(content);//解析网页得到文档对象
Elements elements = doc.getElementsByTag("title");//获取tag是title的所有dom文档
Element element = elements.get(0);//获取第一个元素
String title = element.text(); //.html是返回html
System.out.println("网页标题:"+title);
Element element1 = doc.getElementById("site_nav_top");//获取id=site_nav_top标签
String str = element1.text();
System.out.println("str:"+str);
}
}
标签:http,title,入门教程,jsoup,爬取,Jsoup,import,apache,org
来源: https://www.cnblogs.com/book-mountain/p/11595018.html
java jsoup爬取动态网页_java通过Jsoup爬取网页(入门教程)相关推荐
- java 手机网页_Java爬虫: 爬取京东上的手机搜索页面 HttpClient+Jsoup
1.需求及配置 需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用Maven项目,log4j记录日志,日志仅导出到控制台. Maven依赖如下 ...
- java爬百度翻页_Java网络爬虫爬取百度页面
最近看到网上介绍爬虫的文章,觉得很有趣,那么心动不如行动,晚上回来的时间刚好用来码代码啦~~ 网络爬虫:按照一定的规则爬取网页上的信息,通常是爬取到一些URL之后然后对这些URL放入队列在一次次的进行 ...
- java爬虫隐藏表单提交_java爬虫--jsoup简单的表单抓取案例
分析需求: 某农产品网站的农产品价格抓取 页面展示如上: 标签展示如上: 分析发现每日价格行情包括了蔬菜,水果,肉等所有的信息,所以直接抓每日行情的内容就可以实现抓取全部数据. 软件环境:eclips ...
- java抓取qq消息_Java代码---实现爬取腾讯新闻
环境准备: com.alibaba druid 1.1.21 com.google.code.gson gson 2.8.5 org.springframework spring-jdbc 5.2.2 ...
- java爬虫怎么确定url连接_Java爬虫之抓取一个网站上的全部链接
前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫,测 ...
- java cookie 取不到_java中Servlet Cookie取不到值原因解决办法
java中Servlet Cookie取不到值原因解决办法 现象: 在测试带Cookie的HTTP请求时发现,服务端用request.getHeader("cookie")可以去到 ...
- java如何做网页_java怎么做一个简单网页?网页包括什么?
学了java程序之后,大家就可以将这些运用到生活中去,比如做一个简单的网页.正好也可以检测自己学了怎么样,那么接下来,我们就来给大家讲解一下这方面的内容. 用Java语言编写实现一个简单的WEB浏览器 ...
- java list 随机获取n个_java – 从列表中取n个随机元素?
两个主要方式. List list = createItSomehow(); Random random = new Random(); Foo foo = list.get(random.nextI ...
- java装饰者模式讲解视频教程_java装饰者模式介绍(图文教程)
java装饰者模式介绍(图文教程).装饰者模式UML类图: 装饰者模式UML类图 java装饰者模式知识要点 装饰者模式动态地将责任附加到对象上.若要扩展功能,装饰者提供了比继承更有弹性的替代方案. ...
最新文章
- 64% 的企业未实现智能化,5成公司算法工程师团队规模小于 10人,AI 工程师的机遇在哪里?...
- python文件指针放在文件的开头_将文件指针倒带到上一个lin的开头
- 现金支付没落?澳大利亚一年内移除数百台ATM机
- Icon class生成器(Python)
- skynet源码阅读5--协程调度模型
- 层次聚类python实现_Python机器学习——Agglomerative层次聚类
- 众安每秒3.2万张保单的背后,阿里云输出了什么能力?
- nginx之lua_shared_dict
- 干货分享 | 史上最全Oracle体系结构整理
- 双系统(win7+ubuntu)ubuntu磁盘空间不足时解决方法
- HTML - 'MARQUEE'
- Unity Hub和Unity安装教程
- 点餐系统+小程序常见问题解决(2022年最新版)
- 个人网站建设专业定制,个人网站建设怎么做
- python 杨辉三角居中打印_利用python打印杨辉三角
- 视频目标检测paper带读(一)《Flow-Guided Feature Aggregation for Video Object Detection》
- 安徽大学计算机学院张静,安徽大学2011年国家励志奖学金获奖学生名单
- 第2章 构建自定义语料库
- C# 键盘中的按键对应的KeyValue
- postman,请求前置脚本,Pre-requests Script