使用jsoup解析html。

  • maven依赖
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version>
</dependency>
  • Java代码

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.select.Elements;import java.io.IOException;
import java.util.List;public class Test {public static void main(String args[]) {// 网易新闻String url = "https://www.163.com/";Document document = null;try {document = Jsoup.connect(url).get();} catch (IOException e) {e.printStackTrace();}// 文字新闻Elements texts = document.getElementsByClass("cm_ul_round");for (Element e : texts) {Elements tags = e.getElementsByTag("a");for (Element tag : tags) {// 标题String title = tag.getElementsByAttribute("href").text();// 链接地址,可以根据需求继续解析网址,获取新闻详细信息String href = tag.attributes().get("href");// 所属分类String classification = null;if (href.contains("?") && href.contains("clickfrom=w_")) {classification = href.substring(href.lastIndexOf("?") + 1).replace("clickfrom=w_", "");}System.out.println(title);System.out.println(href);System.out.println(classification);}}// 图片新闻Elements imgs = document.getElementsByClass("cm_bigimg");for (Element img : imgs) {Elements photos = img.getElementsByClass("photo");for (Element photo : photos) {// 标题String title = photo.attributes().get("title");// 链接地址,可以根据需求继续解析网址,获取新闻详细信息String href = photo.attributes().get("href");// 封面图String imgSrc = null;List<Node> child = photo.childNodes();for(Node node : child) {if (node.hasAttr("data-original")) {imgSrc = node.attributes().get("data-original");break;}}// 所属分类String classification = null;if (href.contains("?") && href.contains("clickfrom=w_")) {classification = href.substring(href.lastIndexOf("?") + 1).replace("clickfrom=w_", "");}System.out.println(title);System.out.println(href);System.out.println(imgSrc);System.out.println(classification);}}}
}

Java爬取新闻数据相关推荐

  1. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  2. 用java爬取学校数据_Java爬取校内论坛新帖

    Java爬取校内论坛新帖 为了保持消息灵通,博主没事会上上校内论坛看看新帖,作为爬虫爱好者,博主萌生了写个爬虫自动下载的想法. 嗯,这次就选Java. 第三方库准备 Jsoup Jsoup是一款比较好 ...

  3. java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析

    引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...

  4. java爬取网页数据_Python网络爬虫实战(二)数据解析

    Python网络爬虫实战 (二)数据解析 本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站 ...

  5. java 爬取网页数据 多页爬取 jsoup 和 httpClient 实现

    预览结果视图 目录 预览结果视图 介绍 代码 依赖 爬取网页数据代码 解析代码 解析介绍 完整代码 介绍 1.爬取通过org.jsoup 和HttpClients实现 2.爬取多页内容的时候进行循环, ...

  6. java爬取网页数据_如何使用爬虫工具采集数据

    网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本.按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据. (图1) 这就是一个网页源码的dom结构,我们需要一级 ...

  7. python爬取新闻数据

    爬虫数据网址:新闻中心滚动新闻_新浪网 最近想获取一些新闻数据来做一个NLP的分类模型所以爬取了新浪的一些新闻数据用于学习使用. 首先先查看网页源码: 发现url中id和类别中的s_id相等,经过尝试 ...

  8. 龙岭迷窟真的这么好看?今天我们就用 Java 爬取豆瓣数据好好分析一下!

    每天早上七点三十,准时推送干货 首图来自最近热播的『鬼吹灯之龙岭迷窟』,看过上一部『鬼吹灯之怒晴湘西』同学应该能看懂这个笑点.潘粤明老师上一部还是卸岭魁首陈玉楼,这一部摇身一变成了胡八一. 好了,不扯 ...

  9. Java爬取网页数据

    要爬的网页:http://quote.eastmoney.com/zs000001.html 要爬这部分数据: 要的数据在源代码这部分: 首先定义数据: public class Informatio ...

最新文章

  1. flink state ttl
  2. hdu 2824 The Euler function
  3. Poj 1011 UVA - 307 Sticks
  4. linux查看本机所有预设的系统变量,如何设置与查看Linux系统中的环境变量?
  5. C#复数类Complex的封装
  6. (组合数求模=乘法逆元+快速幂) Problem Makes Problem
  7. 在Shell中使用函数文件,引入文件
  8. HFUT 1357.梯田AGAIN(安徽省2016“京胜杯”程序设计大赛 D)
  9. MySQL中外键定义级展现结果_MySQL高频面试60题含答案
  10. 设计一个方法,可以实现任意范围内的随机数
  11. 在Docker Swarm上部署Apache Storm:第1部分
  12. 2016版excel_想要下班直接打卡,这些Excel技巧可以帮到你
  13. 高校智能DNS解析技术总结分析
  14. Django推导Django内部模块:wsgiref与jinja2
  15. 插入数据报错: Incorrect string value: ‘\xE8\xB5\xB5\xE9\x9B\xB7‘ for column ‘Sname‘ at row 1
  16. 沙漠帕拉萨德别墅室内外Corona建筑作品赏析
  17. 幼师计算机课是上什么,幼师面试 鱼在天空飞,鸟在水里游是小班课程,还是中班,大班的课程...
  18. vue element 确认弹框中显示图片(message里)
  19. 嵌入式Linux 系统的优化策略和方法
  20. Shell编程中的数组定义、遍历

热门文章

  1. EasyExcel复杂模板填充
  2. windows查看mysql版本
  3. 【python--教程】二进制运算符
  4. PHP概论(有实用干货)
  5. fasttext文本分类
  6. 树莓派支持uvi协议吗_树莓派 小米网关接入homeassistant系统
  7. 辐射3游戏登录是提示计算机丢失xlive.dll文件,win10系统玩辐射3丢失xlive.dll怎么解决...
  8. C语言调用python3教程
  9. 计算机右上角无法搜索,win10系统,文件夹右上角的搜索栏点击无反应,无法输入怎么办?...
  10. 非制冷式红外探测器原理研究(课题总结论文)