【实例简介】

经过测试,可以抓取一个完整的网站,包括网站的图片、css、js等。同时根据网站目录,在本地生成相同目录。使用Jsoup+Java。下载之后,可以直接运行。

【实例截图】

【核心代码】

haha

└── haha

├── README.md

├── classes

│   └── artifacts

│   └── haha_war_exploded

│   └── META-INF

│   └── MANIFEST.MF

├── haha.iml

├── pom.xml

├── src

│   └── main

│   ├── java

│   │   └── cn

│   │   └── yuping

│   │   └── haha

│   │   ├── CrawlWebSite.java

│   │   └── util

│   │   ├── FileUtils.java

│   │   └── StringUtil.java

│   ├── resources

│   │   ├── image

│   │   │   └── 1.jpg

│   │   └── simhei.ttf

│   └── webapp

│   ├── WEB-INF

│   │   └── web.xml

│   └── index.jsp

└── target

├── classes

│   ├── cn

│   │   ├── dongqihong

│   │   │   └── hehe

│   │   │   ├── HttpRequestUtil.class

│   │   │   ├── ImgFontByte.class

│   │   │   ├── Index.class

│   │   │   ├── JsapiTicketCreater.class

│   │   │   └── Sign.class

│   │   └── yuping

│   │   └── haha

│   │   ├── CrawlWebSite.class

│   │   └── util

│   │   ├── FileUtils.class

│   │   └── StringUtil.class

│   ├── image

│   │   └── 1.jpg

│   └── simhei.ttf

├── haha

│   ├── META-INF

│   │   └── MANIFEST.MF

│   ├── WEB-INF

│   │   ├── classes

│   │   │   ├── cn

│   │   │   │   ├── dongqihong

│   │   │   │   │   └── hehe

│   │   │   │   │   ├── HttpRequestUtil.class

│   │   │   │   │   ├── ImgFontByte.class

│   │   │   │   │   ├── Index.class

│   │   │   │   │   ├── JsapiTicketCreater.class

│   │   │   │   │   └── Sign.class

│   │   │   │   └── yuping

│   │   │   │   └── haha

│   │   │   │   ├── CrawlWebSite.class

│   │   │   │   └── util

│   │   │   │   ├── FileUtils.class

│   │   │   │   └── StringUtil.class

│   │   │   ├── image

│   │   │   │   └── 1.jpg

│   │   │   └── simhei.ttf

│   │   ├── lib

│   │   │   ├── fastjson-1.2.12.jar

│   │   │   ├── javax.servlet-api-3.1.0.jar

│   │   │   └── jsoup-1.8.3.jar

│   │   └── web.xml

│   └── index.jsp

└── hehe

├── META-INF

│   └── MANIFEST.MF

├── WEB-INF

│   ├── classes

│   │   ├── cn

│   │   │   └── dongqihong

│   │   │   └── hehe

│   │   │   ├── HttpRequestUtil.class

│   │   │   ├── ImgFontByte.class

│   │   │   ├── Index.class

│   │   │   ├── JsapiTicketCreater.class

│   │   │   └── Sign.class

│   │   ├── image

│   │   │   └── 1.jpg

│   │   └── simhei.ttf

│   ├── image

│   │   └── 1.jpg

│   ├── lib

│   │   ├── fastjson-1.2.12.jar

│   │   └── javax.servlet-api-3.1.0.jar

│   └── web.xml

├── bg.jpg

├── hz

│   ├── css

│   │   ├── active.css

│   │   ├── animate.min.css

│   │   └── main.css

│   ├── img

│   │   ├── ThinkPad.jpg

│   │   ├── banner1.jpg

│   │   ├── sagj

│   │   │   └── img1.jpg

│   │   └── sagj.jpg

│   ├── index.html

│   ├── js

│   │   ├── autoSize.js

│   │   ├── swiper.min.js

│   │   ├── touch.js

│   │   └── zepto.min.js

│   └── sagj.html

├── ico.png

├── index.css

├── index.jsp

├── index_delete.html

├── invite.jsp

└── logo.png

52 directories, 69 files

jsoup抓取html中的js,使用Jsoup,抓取整个网站(包括图片、js、css)相关推荐

  1. python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程

    如何利用Python抓取PDF中的某些内容 学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...

  2. python抓取html中特定的数据库,Python抓取网页中内容,正则分析后存入mysql数据库...

    firefox+httpfox可以查看post表单 首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...

  3. beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源

    一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...

  4. node.js+puppeteer创建定时任务自动登录网站截取图片

    1.什么是puppeteer? puppeteer是google开源的一套利用nodejs实现的自动爬取网站,实现自动化操作的工具包,使用puppeteer可以实现网站数据爬取.UI自动化测试.学习p ...

  5. js+html2canvas实现网页放大镜效果:放大镜图片使用css样式background背景图,鼠标移动使用样式background-position动态设置

    实现效果:        鼠标移动到需要放大的网页上时,鼠标静止不动500毫秒后,一个长方形的放大镜框显示,放大镜中显示当前区域2.2倍的效果,并且这时候鼠标移动放大的区域也跟着变化.放大镜限制:放大 ...

  6. html中隐藏内容蜘蛛会抓取吗,蜘蛛会抓取识别JS、CSS、JSON,对SEO有什么影响

    这是一个存在多年.经常出现但又从来没有标准解决办法的问题:搜索引擎爬虫(尤其是百度)抓取JS.CSS.JSON文件,robots屏蔽依然抓取的情况. 这就引出了几个问题: 1.爬虫抓取JS.CSS是干 ...

  7. js抓取字符串中的电话号码

    最近遇到一个新的需求,页面展示物流信息中需要自动抓取字符串里的电话号码,添加高亮样式并点击调用拨打电话,下面对这个功能的实现做下整理,希望能帮到需要这个功能的小伙伴们 实现功能前大概是这个样子 现在要 ...

  8. 构建node.js基础镜像_我如何使用Node.js构建工作抓取网络应用

    构建node.js基础镜像 by Oyetoke Tobi Emmanuel 由Oyetoke Tobi Emmanuel 我如何使用Node.js构建工作抓取网络应用 (How I built a ...

  9. python可抓取数据包括什么_Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓...

    Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓 想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓到呢? 最好是用pyt ...

最新文章

  1. datetime处理日期和时间
  2. leetcode算法题--复数乘法
  3. Linux日志系统-03:logrotate主配置文件详解
  4. js的字符串和变量拼接
  5. zipkin 自定义采样率_分组,采样和批处理– Java 8中的自定义收集器
  6. c++ list sort
  7. android从github 下开源库引用问题 (出现ClassNotFoundException)
  8. Linux下MySQL的基础(一)
  9. 想成功创业,你首先要有这样的思维
  10. 土财主休闲威客-可行性分析(评测)
  11. 星巴克推出含萃取后咖啡粉制作的渣渣管;麦咖啡四款新品登陆全国1600家门店;可口可乐业绩恢复至疫情前水平 | 美通企业日报...
  12. 软考高级 真题 2015年下半年 信息系统项目管理师 案例分析
  13. ICCV2019论文题目中文列表
  14. Pr-快速上手-基本操作-教程
  15. 【转载】周易大象传原文及译文
  16. burp抓不到手机app请求包
  17. 7-1 换硬币(20 分)
  18. pyecharts折线图上symbol(小圆圈)颜色的修改方法
  19. 信号数据shannon entropy计算
  20. 澳门大学之波尔图大学交换

热门文章

  1. [原创]使用 Google Chart 在线服务实现软件版本发布时间线图
  2. 【长文】在《 Ray Tracing from the Ground Up》的基础上实现BART的动画
  3. 大数据项目实战数仓4——总纲
  4. 6.5(对三个数进行排序)
  5. 大数据分析技术有哪些应用步骤
  6. 数据大屏可视化展示系统有什么作用
  7. Hive(五)——查询
  8. lisp将图元追加选择_AutoLISP入门7 - 图元资料的取得与活用技巧(二)
  9. linux如何导出mysql数据,linux下mysql数据的导出和导入
  10. [windows]mstsc远程报:这可能是由于CredSSP 加密Oracle修正的解决方法