jsoup抓取html中的js,使用Jsoup,抓取整个网站(包括图片、js、css)
【实例简介】
经过测试,可以抓取一个完整的网站,包括网站的图片、css、js等。同时根据网站目录,在本地生成相同目录。使用Jsoup+Java。下载之后,可以直接运行。
【实例截图】
【核心代码】
haha
└── haha
├── README.md
├── classes
│ └── artifacts
│ └── haha_war_exploded
│ └── META-INF
│ └── MANIFEST.MF
├── haha.iml
├── pom.xml
├── src
│ └── main
│ ├── java
│ │ └── cn
│ │ └── yuping
│ │ └── haha
│ │ ├── CrawlWebSite.java
│ │ └── util
│ │ ├── FileUtils.java
│ │ └── StringUtil.java
│ ├── resources
│ │ ├── image
│ │ │ └── 1.jpg
│ │ └── simhei.ttf
│ └── webapp
│ ├── WEB-INF
│ │ └── web.xml
│ └── index.jsp
└── target
├── classes
│ ├── cn
│ │ ├── dongqihong
│ │ │ └── hehe
│ │ │ ├── HttpRequestUtil.class
│ │ │ ├── ImgFontByte.class
│ │ │ ├── Index.class
│ │ │ ├── JsapiTicketCreater.class
│ │ │ └── Sign.class
│ │ └── yuping
│ │ └── haha
│ │ ├── CrawlWebSite.class
│ │ └── util
│ │ ├── FileUtils.class
│ │ └── StringUtil.class
│ ├── image
│ │ └── 1.jpg
│ └── simhei.ttf
├── haha
│ ├── META-INF
│ │ └── MANIFEST.MF
│ ├── WEB-INF
│ │ ├── classes
│ │ │ ├── cn
│ │ │ │ ├── dongqihong
│ │ │ │ │ └── hehe
│ │ │ │ │ ├── HttpRequestUtil.class
│ │ │ │ │ ├── ImgFontByte.class
│ │ │ │ │ ├── Index.class
│ │ │ │ │ ├── JsapiTicketCreater.class
│ │ │ │ │ └── Sign.class
│ │ │ │ └── yuping
│ │ │ │ └── haha
│ │ │ │ ├── CrawlWebSite.class
│ │ │ │ └── util
│ │ │ │ ├── FileUtils.class
│ │ │ │ └── StringUtil.class
│ │ │ ├── image
│ │ │ │ └── 1.jpg
│ │ │ └── simhei.ttf
│ │ ├── lib
│ │ │ ├── fastjson-1.2.12.jar
│ │ │ ├── javax.servlet-api-3.1.0.jar
│ │ │ └── jsoup-1.8.3.jar
│ │ └── web.xml
│ └── index.jsp
└── hehe
├── META-INF
│ └── MANIFEST.MF
├── WEB-INF
│ ├── classes
│ │ ├── cn
│ │ │ └── dongqihong
│ │ │ └── hehe
│ │ │ ├── HttpRequestUtil.class
│ │ │ ├── ImgFontByte.class
│ │ │ ├── Index.class
│ │ │ ├── JsapiTicketCreater.class
│ │ │ └── Sign.class
│ │ ├── image
│ │ │ └── 1.jpg
│ │ └── simhei.ttf
│ ├── image
│ │ └── 1.jpg
│ ├── lib
│ │ ├── fastjson-1.2.12.jar
│ │ └── javax.servlet-api-3.1.0.jar
│ └── web.xml
├── bg.jpg
├── hz
│ ├── css
│ │ ├── active.css
│ │ ├── animate.min.css
│ │ └── main.css
│ ├── img
│ │ ├── ThinkPad.jpg
│ │ ├── banner1.jpg
│ │ ├── sagj
│ │ │ └── img1.jpg
│ │ └── sagj.jpg
│ ├── index.html
│ ├── js
│ │ ├── autoSize.js
│ │ ├── swiper.min.js
│ │ ├── touch.js
│ │ └── zepto.min.js
│ └── sagj.html
├── ico.png
├── index.css
├── index.jsp
├── index_delete.html
├── invite.jsp
└── logo.png
52 directories, 69 files
jsoup抓取html中的js,使用Jsoup,抓取整个网站(包括图片、js、css)相关推荐
- python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程
如何利用Python抓取PDF中的某些内容 学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...
- python抓取html中特定的数据库,Python抓取网页中内容,正则分析后存入mysql数据库...
firefox+httpfox可以查看post表单 首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...
- beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源
一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...
- node.js+puppeteer创建定时任务自动登录网站截取图片
1.什么是puppeteer? puppeteer是google开源的一套利用nodejs实现的自动爬取网站,实现自动化操作的工具包,使用puppeteer可以实现网站数据爬取.UI自动化测试.学习p ...
- js+html2canvas实现网页放大镜效果:放大镜图片使用css样式background背景图,鼠标移动使用样式background-position动态设置
实现效果: 鼠标移动到需要放大的网页上时,鼠标静止不动500毫秒后,一个长方形的放大镜框显示,放大镜中显示当前区域2.2倍的效果,并且这时候鼠标移动放大的区域也跟着变化.放大镜限制:放大 ...
- html中隐藏内容蜘蛛会抓取吗,蜘蛛会抓取识别JS、CSS、JSON,对SEO有什么影响
这是一个存在多年.经常出现但又从来没有标准解决办法的问题:搜索引擎爬虫(尤其是百度)抓取JS.CSS.JSON文件,robots屏蔽依然抓取的情况. 这就引出了几个问题: 1.爬虫抓取JS.CSS是干 ...
- js抓取字符串中的电话号码
最近遇到一个新的需求,页面展示物流信息中需要自动抓取字符串里的电话号码,添加高亮样式并点击调用拨打电话,下面对这个功能的实现做下整理,希望能帮到需要这个功能的小伙伴们 实现功能前大概是这个样子 现在要 ...
- 构建node.js基础镜像_我如何使用Node.js构建工作抓取网络应用
构建node.js基础镜像 by Oyetoke Tobi Emmanuel 由Oyetoke Tobi Emmanuel 我如何使用Node.js构建工作抓取网络应用 (How I built a ...
- python可抓取数据包括什么_Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓...
Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓 想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓到呢? 最好是用pyt ...
最新文章
- datetime处理日期和时间
- leetcode算法题--复数乘法
- Linux日志系统-03:logrotate主配置文件详解
- js的字符串和变量拼接
- zipkin 自定义采样率_分组,采样和批处理– Java 8中的自定义收集器
- c++ list sort
- android从github 下开源库引用问题 (出现ClassNotFoundException)
- Linux下MySQL的基础(一)
- 想成功创业,你首先要有这样的思维
- 土财主休闲威客-可行性分析(评测)
- 星巴克推出含萃取后咖啡粉制作的渣渣管;麦咖啡四款新品登陆全国1600家门店;可口可乐业绩恢复至疫情前水平 | 美通企业日报...
- 软考高级 真题 2015年下半年 信息系统项目管理师 案例分析
- ICCV2019论文题目中文列表
- Pr-快速上手-基本操作-教程
- 【转载】周易大象传原文及译文
- burp抓不到手机app请求包
- 7-1 换硬币(20 分)
- pyecharts折线图上symbol(小圆圈)颜色的修改方法
- 信号数据shannon entropy计算
- 澳门大学之波尔图大学交换
热门文章
- [原创]使用 Google Chart 在线服务实现软件版本发布时间线图
- 【长文】在《 Ray Tracing from the Ground Up》的基础上实现BART的动画
- 大数据项目实战数仓4——总纲
- 6.5(对三个数进行排序)
- 大数据分析技术有哪些应用步骤
- 数据大屏可视化展示系统有什么作用
- Hive(五)——查询
- lisp将图元追加选择_AutoLISP入门7 - 图元资料的取得与活用技巧(二)
- linux如何导出mysql数据,linux下mysql数据的导出和导入
- [windows]mstsc远程报:这可能是由于CredSSP 加密Oracle修正的解决方法