Node.js制作图片下载爬虫的一般步骤
图片下载爬虫分两部分:爬页面和下载图片。
爬页面时先看网址是https还是http的,然后选择不同的内置对象;其次看编码,如果是charset=gb2312的网页就需要iconv帮忙转码,好在大部分都是utf8了这步可以省却,之后输出页面代码看看,不乱码就可以进行分析了;有时候网页使用gzip编码压缩了(网页头字段Content-Encoding是gzip),这时必须用zlib解码再读取;接下来用cheerio分析页面,用的是和jQuery相似的语法,分析出图片地址和下一页地址就完成任务了。
爬图片相对简单一些,首先还是要网址是https还是http的,然后选择不同的内置对象;先试着下载一次,正常就OK了,如果下载下来的图片只有1K那么说明网站用了反爬虫手段,一般在header里加上Referer就好了,Referer地址就是网站的host地址。
好了,目前基本上就是这些,以后有必要再补充。
本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/xiandedanteng/p/7864811.html,如需转载请自行联系原作者
Node.js制作图片下载爬虫的一般步骤相关推荐
- 【Mac】从0开始用node.js制作爬取结果的查询网站
[Mac]从0开始用node.js制作爬取结果的查询网站 实验要求 实验结果展示 简单了解实验项目所需知识 1 爬虫原理 2 JavaScript语法 3 网络元素的提取 4 正则表达式 5 其他有关 ...
- Python淘宝美眉图片下载爬虫视频教程-何家胜-专题视频课程
Python淘宝美眉图片下载爬虫视频教程-21985人已学习 课程介绍 本套视频主要讲述Python项目实训一:如何利用Python的while循环体设计实现网络爬虫刷博器的程序的设计 ...
- JS将图片转化为base64编码,并实现点击下载,js实现图片下载的实操博客
背景需求 在前端的工作中,经常碰到点击下载图片的需求,但是有一种情况大家经常碰到,就是点击下载地址之后,在浏览器窗口默认打开了,并没有调用浏览器进行下载 如果你正在完善这个需求,一直解决不了,恭喜你看 ...
- 如何用js实现图片下载
如何用js实现图片下载??? 需求场景:点击图标,实现图片下载. html代码: js函数: downLoadImg(imgsrc, name) {var image = new Image();// ...
- 如何用原生JS制作图片时钟
程序设计之道无远弗届,御晨风而返.---- 杰佛瑞 · 詹姆士 今天分享一个小demo,如何用原生JS制作图片时钟,话不多说上代码. html[外链图片转存失败(img-mD0n42FM-156223 ...
- Node.js aitaotu图片批量下载Node.js爬虫1.00版
即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaot ...
- Node.js umei图片批量下载Node.js爬虫1.00
这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下: //====================================================== // ...
- Node.js mimimn图片批量下载爬虫 1.00
这个爬虫在Referer设置上和其它爬虫相比有特殊性.代码: //====================================================== // mimimn图片批 ...
- Node.js meitulu图片批量下载爬虫1.051
原有1.05版程序没有断点续传模式,现在在最近程序基础上改写一版1.051. //====================================================== // m ...
最新文章
- Excel VBA参考文献中人名与年份格式转换
- css揭秘笔记——用户体验
- Python基础-----条件语句与初识基本数据类型(一)
- python中__name__的使用
- k8s:pod容器的生命周期之init容器
- 【Linux】一步一步学Linux——type命令(200)
- cmd 中 net start mysql 提示发生系统错误 5
- c# 多线程 执行事件 并发_C#.NET Thread多线程并发编程学习与常见面试题解析-1、Thread使用与控制基础...
- 网页中文乱码--UTF-8和GB2312互转
- proxychains 一个好用的终端用代理拦截器
- python-fire的使用
- linux内核启动后键盘不能用,编译linux-0.11内核后键盘不对的问题解决方法,比如/变成了-...
- C# 图片exif信息
- origin函数拟合
- 无法打开ONEDRIVE的解决方法【等待验证】
- STM32智能门锁学习二,RFID刷卡解锁
- php页眉,自定义页眉
- 【python+pyqt5】B站直播弹幕姬
- 2022-2028全球与中国长寿和抗衰老治疗市场现状及未来发展趋势
- 筑牢网络安全,联瑞电子为您的信息传输系“安全带”
热门文章
- 第一次,人类在人工神经网络中发现了“真”神经元
- 重磅,2020年度第十届吴文俊人工智能科学技术奖获奖名单公示
- 《自然》评价“天问一号”成功发射—— 全球深空探索走进新时代
- 欧盟最新《AI网络安全政策发展框架》
- 2018人工智能行业创新情报白皮书
- 风景这边独好的AI大年,百度亚马逊等巨头第一季度成绩单怎么样?
- 程序员,你得一条道走到黑!
- 编程正式进入中考模式!北京海淀:通过信息技术考试方可毕业
- 发明 AI 吵架神器?程序员对象这么厉害的吗?
- 科技奥运再进一步,北京冬奥组委携手阿里云启动“云上转播”