Jsoup:使用Java将爬虫得到的数据写入Excel,Jsoup得到的数据进行持久化,爬虫数据保存到本地Excel中
Jsoup:使用Java将爬虫得到的数据写入Excel,Jsoup得到的数据进行持久化,爬虫数据保存到本地Excel中
一、资源
二、代码
xml依赖
<dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.0.5</version></dependency><dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>1.2.41</version></dependency><!--Jsoup解析网页--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional></dependency>
实体类
@Data @NoArgsConstructor @AllArgsConstructor public class Content {@ExcelProperty("商品名称")private String name;@ExcelProperty("商品价格")private String price;@ExcelProperty("商品图片路径")private String img; }
写表工具类
@Component public class HtmlParseUtil {public static void main(String[] args) throws Exception {String fileName = "D:\\IDEA\\Jsoup\\parseJD.xlsx";EasyExcel.write(fileName, Content.class).sheet("Jsoup").doWrite(new HtmlParseUtil().parseJD("java"));}public List<Content> parseJD(String keyword) throws Exception {//获取请求 https://search.jd.com/Search?keyword=javaString url = "https://search.jd.com/Search?keyword=" + keyword;ArrayList<Content> contents = new ArrayList<>();//解析网页Document document = Jsoup.parse(new URL(url), 300000);//获取产品列表Element element = document.getElementById("J_goodsList");//获取产品列表中的li元素Elements li = element.getElementsByTag("li");//获取li里面的具体内容for (Element el : li) {String name = el.getElementsByClass("p-name").eq(0).text();String price = el.getElementsByClass("p-price").eq(0).text();String img = el.getElementsByTag("img").eq(0).attr("data-lazy-img");Content content = new Content();content.setName(name);content.setPrice(price);content.setImg(img);contents.add(content);}return contents;} }
三、成功截图
Jsoup:使用Java将爬虫得到的数据写入Excel,Jsoup得到的数据进行持久化,爬虫数据保存到本地Excel中相关推荐
- 使用java生成PDF并保存到本地服务器中
使用java生成PDF并保存到本地服务器中 1.导入maven <!-- PDF工具包 --><dependency><groupId>com.itextpdf&l ...
- python把数据写入excel_Python读写sqlite3数据库的方法并且将数据写入Excel的实例详解...
这篇文章主要介绍了Python实现读写sqlite3数据库并将统计数据写入Excel的方法,涉及Python针对sqlite3数据库的读取及Excel文件相关操作技巧,需要的朋友可以参考下 本文实例讲 ...
- Python网络爬虫:爬取CSDN热搜数据 并保存到本地文件中
hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN热搜数据,并保存到Excel表格中. 开始学习吧! 学习目录 1. 数据包抓取 2. 编写代码 1. 数据包抓取 打开CS ...
- Java序列化bean保存到本地文件中
File file = new File("D:\\softTemp\\student.out"); ObjectOutputStream objectOutputStream = ...
- python爬取小说写入txt_Python爬虫爬取小说,并保存至本地文本文件中
运行环境:Python3.6.Pycharm2017.3.Windows10 RS3.requests2.18.4.BeautifulSoup4.6.0 简介 运行效果展示 ① book136_sin ...
- spark写表指定外部表_spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API. D ...
- 【Java-IO】File、搜索删除剪切、字符集、字符编码、字节流、将内存中的数据写入文件、字符流、缓冲流、Scanner、格式化输出、数据流、对象流、序列化与反序列化、Files工具类
IO 文章目录 IO 简介 File 分隔符.大小写 常用方法 练习:搜索.删除.剪切 字符集(Character Set) 字符编码(Character Encoding) 字符编码比较 乱码 字节 ...
- python爬虫qq好友信息,GitHub - equationl/QQzone_crawler: QQ 空间动态爬虫,利用cookie登录获取所有可访问好友空间的动态保存到本地...
关于 Edit by equationl 优先在 码云 上更新 该项目修改自 xjr7670 的 QQzone_crawler 原作者说明: QQ空间动态爬虫 修改了什么? 爬取完整的评论列表 爬取点 ...
- 爬虫豆瓣读书top250,保存为本地csv文件
爬虫豆瓣读书top250,保存为本地csv文件 目的 将豆瓣读书top250排名保存到本地excel,包括书名,作者,评分,评论数,简评,网址.用到了requests,res,BeautifulSou ...
最新文章
- spl_autoload_register与autoload区别
- 最新OCR开源神器来了!
- ​京东AI研究院获QuAC机器阅读理解竞赛冠军,EL-QA模型能力业界领先
- blfs(systemd版本)学习笔记-配置远程访问和管理lfs系统
- AOP原理-创建AOP代理--AnnotationAwareAspectJAutoProxyCreator【InstantiationAwareBeanPostProcessor】的作用
- poj 2623 快排
- Mac下搭建cocos2d 和cocos2d -x 环境
- Ubuntu安装与配置(简要)
- 开发sharepoint工作流过程中的Ptifall(容易犯的错误)
- Kaggle新上比赛-鲸鱼图像识别-总奖池17.4万人民币
- CentOS部署Harbor镜像仓库(1),java技术栈自我理解面试题通俗解说
- 微信小程序swiper滑块视图容器控件使用整理
- MySQL的一些常用命令
- itext 生成pdf 输出特殊符号_JAVA提取PDF内容及转换PDF为图片
- 安装.net Framework 3.5 SP1非常慢的解决方案
- android 百度地图 64位,百度地图 Android SDK
- 高等数学 第七版 上册 下册 答案
- Axure RP9 安装
- 码农小汪-Hibernate学习6-hibernate中Annocation修饰属性
- Unity 接入有道智云AI - 文本翻译