首先声明,本文可能会引起部分人不适,正直的人请绕行。

其次,本五分钟简易代码,适合刚学爬虫和对python感兴趣的的猿友们。

https://m.lovefou.net/dongtaitu/

这是今天我们要爬取的网站本来想没页遍历的,但是分析网站的时候发现所有的动态图片是有规律的。

https://m.lovefou.net/dongtaitu/10.html

https://m.lovefou.net/dongtaitu/50746.html

规律就是每张图片的链接是从  10 到 50746.

这样就省去了很多步骤。

废话不多说:直接上代码。

首先导入模块

import requestsimport random,timefrom lxml import etree

然后随机选择一个User-Agent,和一个代理ip。代理ip是在西刺网上爬的。

with open('/Users/apple/Desktop/userlist.txt') as u:    a = u.readlines()    u.close()headers = {"User-agent":random.choice(a).strip()}

with open('/Users/apple/Desktop/ip.txt') as i:    b = i.readlines()    u.close()proxy = {"http":"http://" + random.choice(b)}

也可以选择不用代理。

获取图片地址和图片名称

for num in range(10,1000):    time.sleep(random.randrange(2,5))    url = "https://m.lovefou.net/dongtaitu/%d.html" % num    r = requests.get(url,headers = headers)    r.encoding = r.apparent_encodingprint(r.status_code)    html = r.text    text = etree.HTML(html)# 提取图片地址    pic_src = text.xpath("//div[@class='cont']//img/@src")# 提取图片名称    pic_names = text.xpath("//div[@class='cont']//img/@alt")

最后保存图片

try:    response = requests.get(pic_src[0],headers=headers)    response_code = response.status_code    pic = response.content

# 图片保存路径    filename = "/Users/apple/Desktop/gif动图/" + str(pic_names) + ".gif"    with open(filename,'wb') as f:        f.write(pic)        f.close()print("下载第%d"%num)except:pass

完整代码:

import requestsimport random,timefrom lxml import etree

with open('/Users/apple/Desktop/userlist.txt') as u:    a = u.readlines()    u.close()headers = {"User-agent":random.choice(a).strip()}

with open('/Users/apple/Desktop/ip.txt') as i:    b = i.readlines()    u.close()proxy = {"http":"http://" + random.choice(b)}

# 设置爬取数量:def spider_numeber(num):    time.sleep(random.randrange(2,5))for num in range(10,num):        url = "https://m.lovefou.net/dongtaitu/%d.html" % num        r = requests.get(url,headers = headers)        r.encoding = r.apparent_encodingprint(r.status_code)        html = r.text        text = etree.HTML(html)        get_pic(text)

# 提取图片链接和名字def get_pic(text):# 提取图片地址    pic_src = text.xpath("//div[@class='cont']//img/@src")# 提取图片名称    pic_names = text.xpath("//div[@class='cont']//img/@alt")    download(pic_src,pic_names)

# 下载图片def download(pic_src,pic_names):try:        response = requests.get(pic_src[0],headers=headers)print(response.status_code)        pic = response.content# 图片保存路径        filename = "/Users/apple/Desktop/gif动图/" + str(pic_names) + ".gif"        with open(filename,'wb') as f:            f.write(pic)            f.close()print("下载第%d"%num)except:pass

if __name__ == '__main__':    num = int(input("请输入要爬取多少妹子:")) + 10    spider_numeber(num)

夜深了 是时候爬个小黄图了相关推荐

  1. 正道的光!这有个用TensorFlow做的小黄图过滤器

    机器之心报道 编辑:张倩.陈萍 有了这个插件,再也不怕同事误会了. 相信每个人都遇到过这种情况:想下载一部电影或一个软件,结果跳出一堆色情广告,因为怕同学或同事误会,不得不赶紧关掉浏览器.这种情况广泛 ...

  2. 小黄图升级了,接入更加强大的鉴黄功能

    点击▲关注 "爪哇笔记"   给公众号标星置顶 更多精彩 第一时间直达 一.前言 最近不少小伙伴反映上传小黄图偶尔性的异常,并且不能上传动态图片,很是苦恼!无她,鉴黄API还没有这 ...

  3. 100万+的小黄图后台管理系统终于开源了

    点击▲关注 "爪哇笔记"   给公众号标星置顶 更多精彩 第一时间直达 2019年11月22日鉴黄图床上线了,网友们也都很积极,甚是踊跃的上传了不少有趣的图片,当然由于一些特殊原因 ...

  4. 深夜,给小黄图撸了一件漂亮的外壳

    点击▲关注 "爪哇笔记"   给公众号标星置顶 更多精彩 第一时间直达 一.前言 小黄图上线以来,很多小伙伴积极参与图床的建设,贡献了数不尽的珍藏画作.但是不少小伙伴表示无法全屏看 ...

  5. 真相:朋友圈的“小黄图”从刷爆到被封的“惊魂七小时”

    9月28日,雷锋网编辑睡前在刷朋友圈,突然看到晚上9点47分朋友小西发了一个朋友圈,就是下面这张图. 内容让人会心一笑,心里感叹:哈哈,这个小西! 第二天才发现,这种"小黄图"昨晚 ...

  6. 网络直播被严查,机器如何帮助鉴别小黄图?

    (图片来源:3lian.com) 近日,文化部将19家不合规定的直播平台列入查处名单. 作为新型的社交互动平台,网络直播与传统的视频网站不同,当用户上传内容后,传统的视频网站会进行审核,符合标准后才可 ...

  7. 计算机视觉怎么知道你在发小黄图...

    今天跟大家分享下百度团队在前不久做的一次计算机视觉(CV)的专场分享. 本次的领域信息处理 CV 专场一共有两节课,如何使用 EasyDL 构建互联网内容安全方案(图像内容审核)和膀胱肿瘤识别模型构建 ...

  8. 云服务中消灭小黄图的大宝剑---X次元口袋

    X 次元口袋 把数据的场景做深做透,真正帮助用户缩短从想法到产品的距离,是七牛一直以来的使命.从 2011 年至今,围绕数据管理打造场景化 PaaS ,我们已经服务了超过五十万家客户,承载了超过 20 ...

  9. 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...

    [爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...

最新文章

  1. Android 曲线动画animation,类似加入购物车动画
  2. python读取文件多行内容-Python读取文件、大文件和指定行内容的几种方法
  3. STL体系结构与内核分析-2-STL体系结构基础介绍(侯捷)--笔记
  4. poll函数实现多路复用
  5. 一天学一个模式_第一天:策略模式
  6. 模糊聚类划分matlab代码,Matlab协同模糊聚类建模
  7. route add添加静态路由
  8. mysql weindow 安装_windows下怎么安装mysql
  9. 面试中软性问题的套路与反套路
  10. python从入门到精通需要多久-Python从入门到精通:一个月就够了
  11. show processlis
  12. 多个 本地仓库_老板逼我用 Git,本地指令介绍
  13. avr单片机流水灯程序c语言,AVR单片机学习(四)C语言的流水灯验证
  14. teststand-介绍
  15. 计算机三级网络技术考过指南 【历年考点汇总】
  16. 手游方舟重启维护服务器要多久,方舟生存进化手游日常维护多久
  17. Hadoop之HDFS的回收站
  18. 装配uwsgi和nginx rabbitMQ
  19. C/C++犯二程度计算
  20. TAPA认证辅导,TAPA全球委员会正式发布了《运输供应商最低安全要求》

热门文章

  1. linux安装chrome及其驱动
  2. App Store上架审核总被拒,可能的原因都在这儿了!
  3. nett服务器接收消息的方法,C#(一沙框架) .net core3.1 SignalR 服务端推送消息至客户端的实现方法,用弹窗插件进行显示,非常美观实用...
  4. Vue,js前端实现语音实时转换文字,前端实现浏览器语音实时转换为文字,vue阿里云语音转文字
  5. SMC压缩空气质量分级及管理——含水量篇
  6. quicklz php,使用quicklz缩小程序体积
  7. 最新手机号段归属地数据库 2019年6月版 430826条记录
  8. Python可视化分析疫情数据
  9. Linux离线安装java
  10. 华工简述微型计算机系统的组成,华工 计算机组成原理随堂.doc