夜深了 是时候爬个小黄图了
首先声明,本文可能会引起部分人不适,正直的人请绕行。
其次,本五分钟简易代码,适合刚学爬虫和对python感兴趣的的猿友们。
https://m.lovefou.net/dongtaitu/
这是今天我们要爬取的网站本来想没页遍历的,但是分析网站的时候发现所有的动态图片是有规律的。
https://m.lovefou.net/dongtaitu/10.html
https://m.lovefou.net/dongtaitu/50746.html
规律就是每张图片的链接是从 10 到 50746.
这样就省去了很多步骤。
废话不多说:直接上代码。
首先导入模块
import requestsimport random,timefrom lxml import etree
然后随机选择一个User-Agent,和一个代理ip。代理ip是在西刺网上爬的。
with open('/Users/apple/Desktop/userlist.txt') as u: a = u.readlines() u.close()headers = {"User-agent":random.choice(a).strip()} with open('/Users/apple/Desktop/ip.txt') as i: b = i.readlines() u.close()proxy = {"http":"http://" + random.choice(b)}
也可以选择不用代理。
获取图片地址和图片名称
for num in range(10,1000): time.sleep(random.randrange(2,5)) url = "https://m.lovefou.net/dongtaitu/%d.html" % num r = requests.get(url,headers = headers) r.encoding = r.apparent_encodingprint(r.status_code) html = r.text text = etree.HTML(html)# 提取图片地址 pic_src = text.xpath("//div[@class='cont']//img/@src")# 提取图片名称 pic_names = text.xpath("//div[@class='cont']//img/@alt")
最后保存图片
try: response = requests.get(pic_src[0],headers=headers) response_code = response.status_code pic = response.content # 图片保存路径 filename = "/Users/apple/Desktop/gif动图/" + str(pic_names) + ".gif" with open(filename,'wb') as f: f.write(pic) f.close()print("下载第%d"%num)except:pass
完整代码:
import requestsimport random,timefrom lxml import etree with open('/Users/apple/Desktop/userlist.txt') as u: a = u.readlines() u.close()headers = {"User-agent":random.choice(a).strip()} with open('/Users/apple/Desktop/ip.txt') as i: b = i.readlines() u.close()proxy = {"http":"http://" + random.choice(b)} # 设置爬取数量:def spider_numeber(num): time.sleep(random.randrange(2,5))for num in range(10,num): url = "https://m.lovefou.net/dongtaitu/%d.html" % num r = requests.get(url,headers = headers) r.encoding = r.apparent_encodingprint(r.status_code) html = r.text text = etree.HTML(html) get_pic(text) # 提取图片链接和名字def get_pic(text):# 提取图片地址 pic_src = text.xpath("//div[@class='cont']//img/@src")# 提取图片名称 pic_names = text.xpath("//div[@class='cont']//img/@alt") download(pic_src,pic_names) # 下载图片def download(pic_src,pic_names):try: response = requests.get(pic_src[0],headers=headers)print(response.status_code) pic = response.content# 图片保存路径 filename = "/Users/apple/Desktop/gif动图/" + str(pic_names) + ".gif" with open(filename,'wb') as f: f.write(pic) f.close()print("下载第%d"%num)except:pass if __name__ == '__main__': num = int(input("请输入要爬取多少妹子:")) + 10 spider_numeber(num)
夜深了 是时候爬个小黄图了相关推荐
- 正道的光!这有个用TensorFlow做的小黄图过滤器
机器之心报道 编辑:张倩.陈萍 有了这个插件,再也不怕同事误会了. 相信每个人都遇到过这种情况:想下载一部电影或一个软件,结果跳出一堆色情广告,因为怕同学或同事误会,不得不赶紧关掉浏览器.这种情况广泛 ...
- 小黄图升级了,接入更加强大的鉴黄功能
点击▲关注 "爪哇笔记" 给公众号标星置顶 更多精彩 第一时间直达 一.前言 最近不少小伙伴反映上传小黄图偶尔性的异常,并且不能上传动态图片,很是苦恼!无她,鉴黄API还没有这 ...
- 100万+的小黄图后台管理系统终于开源了
点击▲关注 "爪哇笔记" 给公众号标星置顶 更多精彩 第一时间直达 2019年11月22日鉴黄图床上线了,网友们也都很积极,甚是踊跃的上传了不少有趣的图片,当然由于一些特殊原因 ...
- 深夜,给小黄图撸了一件漂亮的外壳
点击▲关注 "爪哇笔记" 给公众号标星置顶 更多精彩 第一时间直达 一.前言 小黄图上线以来,很多小伙伴积极参与图床的建设,贡献了数不尽的珍藏画作.但是不少小伙伴表示无法全屏看 ...
- 真相:朋友圈的“小黄图”从刷爆到被封的“惊魂七小时”
9月28日,雷锋网编辑睡前在刷朋友圈,突然看到晚上9点47分朋友小西发了一个朋友圈,就是下面这张图. 内容让人会心一笑,心里感叹:哈哈,这个小西! 第二天才发现,这种"小黄图"昨晚 ...
- 网络直播被严查,机器如何帮助鉴别小黄图?
(图片来源:3lian.com) 近日,文化部将19家不合规定的直播平台列入查处名单. 作为新型的社交互动平台,网络直播与传统的视频网站不同,当用户上传内容后,传统的视频网站会进行审核,符合标准后才可 ...
- 计算机视觉怎么知道你在发小黄图...
今天跟大家分享下百度团队在前不久做的一次计算机视觉(CV)的专场分享. 本次的领域信息处理 CV 专场一共有两节课,如何使用 EasyDL 构建互联网内容安全方案(图像内容审核)和膀胱肿瘤识别模型构建 ...
- 云服务中消灭小黄图的大宝剑---X次元口袋
X 次元口袋 把数据的场景做深做透,真正帮助用户缩短从想法到产品的距离,是七牛一直以来的使命.从 2011 年至今,围绕数据管理打造场景化 PaaS ,我们已经服务了超过五十万家客户,承载了超过 20 ...
- 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...
[爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...
最新文章
- Android 曲线动画animation,类似加入购物车动画
- python读取文件多行内容-Python读取文件、大文件和指定行内容的几种方法
- STL体系结构与内核分析-2-STL体系结构基础介绍(侯捷)--笔记
- poll函数实现多路复用
- 一天学一个模式_第一天:策略模式
- 模糊聚类划分matlab代码,Matlab协同模糊聚类建模
- route add添加静态路由
- mysql weindow 安装_windows下怎么安装mysql
- 面试中软性问题的套路与反套路
- python从入门到精通需要多久-Python从入门到精通:一个月就够了
- show processlis
- 多个 本地仓库_老板逼我用 Git,本地指令介绍
- avr单片机流水灯程序c语言,AVR单片机学习(四)C语言的流水灯验证
- teststand-介绍
- 计算机三级网络技术考过指南 【历年考点汇总】
- 手游方舟重启维护服务器要多久,方舟生存进化手游日常维护多久
- Hadoop之HDFS的回收站
- 装配uwsgi和nginx rabbitMQ
- C/C++犯二程度计算
- TAPA认证辅导,TAPA全球委员会正式发布了《运输供应商最低安全要求》
热门文章
- linux安装chrome及其驱动
- App Store上架审核总被拒,可能的原因都在这儿了!
- nett服务器接收消息的方法,C#(一沙框架) .net core3.1 SignalR 服务端推送消息至客户端的实现方法,用弹窗插件进行显示,非常美观实用...
- Vue,js前端实现语音实时转换文字,前端实现浏览器语音实时转换为文字,vue阿里云语音转文字
- SMC压缩空气质量分级及管理——含水量篇
- quicklz php,使用quicklz缩小程序体积
- 最新手机号段归属地数据库 2019年6月版 430826条记录
- Python可视化分析疫情数据
- Linux离线安装java
- 华工简述微型计算机系统的组成,华工 计算机组成原理随堂.doc