夜深了是时候爬个小黄图了

首先声明，本文可能会引起部分人不适，正直的人请绕行。

其次，本五分钟简易代码，适合刚学爬虫和对python感兴趣的的猿友们。

https://m.lovefou.net/dongtaitu/

这是今天我们要爬取的网站本来想没页遍历的，但是分析网站的时候发现所有的动态图片是有规律的。

https://m.lovefou.net/dongtaitu/10.html

https://m.lovefou.net/dongtaitu/50746.html

规律就是每张图片的链接是从 10 到 50746.

这样就省去了很多步骤。

废话不多说：直接上代码。

首先导入模块

import requestsimport random,timefrom lxml import etree

然后随机选择一个User-Agent,和一个代理ip。代理ip是在西刺网上爬的。

with open('/Users/apple/Desktop/userlist.txt') as u:    a = u.readlines()    u.close()headers = {"User-agent":random.choice(a).strip()}

with open('/Users/apple/Desktop/ip.txt') as i:    b = i.readlines()    u.close()proxy = {"http":"http://" + random.choice(b)}

也可以选择不用代理。

获取图片地址和图片名称

for num in range(10,1000):    time.sleep(random.randrange(2,5))    url = "https://m.lovefou.net/dongtaitu/%d.html" % num    r = requests.get(url,headers = headers)    r.encoding = r.apparent_encodingprint(r.status_code)    html = r.text    text = etree.HTML(html)# 提取图片地址    pic_src = text.xpath("//div[@class='cont']//img/@src")# 提取图片名称    pic_names = text.xpath("//div[@class='cont']//img/@alt")

最后保存图片

try:    response = requests.get(pic_src[0],headers=headers)    response_code = response.status_code    pic = response.content

# 图片保存路径    filename = "/Users/apple/Desktop/gif动图/" + str(pic_names) + ".gif"    with open(filename,'wb') as f:        f.write(pic)        f.close()print("下载第%d"%num)except:pass

完整代码：

import requestsimport random,timefrom lxml import etree

with open('/Users/apple/Desktop/userlist.txt') as u:    a = u.readlines()    u.close()headers = {"User-agent":random.choice(a).strip()}

with open('/Users/apple/Desktop/ip.txt') as i:    b = i.readlines()    u.close()proxy = {"http":"http://" + random.choice(b)}

# 设置爬取数量：def spider_numeber(num):    time.sleep(random.randrange(2,5))for num in range(10,num):        url = "https://m.lovefou.net/dongtaitu/%d.html" % num        r = requests.get(url,headers = headers)        r.encoding = r.apparent_encodingprint(r.status_code)        html = r.text        text = etree.HTML(html)        get_pic(text)

# 提取图片链接和名字def get_pic(text):# 提取图片地址    pic_src = text.xpath("//div[@class='cont']//img/@src")# 提取图片名称    pic_names = text.xpath("//div[@class='cont']//img/@alt")    download(pic_src,pic_names)

# 下载图片def download(pic_src,pic_names):try:        response = requests.get(pic_src[0],headers=headers)print(response.status_code)        pic = response.content# 图片保存路径        filename = "/Users/apple/Desktop/gif动图/" + str(pic_names) + ".gif"        with open(filename,'wb') as f:            f.write(pic)            f.close()print("下载第%d"%num)except:pass

if __name__ == '__main__':    num = int(input("请输入要爬取多少妹子：")) + 10    spider_numeber(num)

夜深了是时候爬个小黄图了相关推荐

正道的光！这有个用TensorFlow做的小黄图过滤器
机器之心报道编辑:张倩.陈萍有了这个插件,再也不怕同事误会了. 相信每个人都遇到过这种情况:想下载一部电影或一个软件,结果跳出一堆色情广告,因为怕同学或同事误会,不得不赶紧关掉浏览器.这种情况广泛 ...
小黄图升级了，接入更加强大的鉴黄功能
点击▲关注 "爪哇笔记" 给公众号标星置顶更多精彩第一时间直达一.前言最近不少小伙伴反映上传小黄图偶尔性的异常,并且不能上传动态图片,很是苦恼!无她,鉴黄API还没有这 ...
100万+的小黄图后台管理系统终于开源了
点击▲关注 "爪哇笔记" 给公众号标星置顶更多精彩第一时间直达 2019年11月22日鉴黄图床上线了,网友们也都很积极,甚是踊跃的上传了不少有趣的图片,当然由于一些特殊原因 ...
深夜，给小黄图撸了一件漂亮的外壳
点击▲关注 "爪哇笔记" 给公众号标星置顶更多精彩第一时间直达一.前言小黄图上线以来,很多小伙伴积极参与图床的建设,贡献了数不尽的珍藏画作.但是不少小伙伴表示无法全屏看 ...
真相：朋友圈的“小黄图”从刷爆到被封的“惊魂七小时”
9月28日,雷锋网编辑睡前在刷朋友圈,突然看到晚上9点47分朋友小西发了一个朋友圈,就是下面这张图. 内容让人会心一笑,心里感叹:哈哈,这个小西! 第二天才发现,这种"小黄图"昨晚 ...
网络直播被严查，机器如何帮助鉴别小黄图？
(图片来源:3lian.com) 近日,文化部将19家不合规定的直播平台列入查处名单. 作为新型的社交互动平台,网络直播与传统的视频网站不同,当用户上传内容后,传统的视频网站会进行审核,符合标准后才可 ...
计算机视觉怎么知道你在发小黄图...
今天跟大家分享下百度团队在前不久做的一次计算机视觉(CV)的专场分享. 本次的领域信息处理 CV 专场一共有两节课,如何使用 EasyDL 构建互联网内容安全方案(图像内容审核)和膀胱肿瘤识别模型构建 ...
云服务中消灭小黄图的大宝剑---X次元口袋
X 次元口袋把数据的场景做深做透,真正帮助用户缩短从想法到产品的距离,是七牛一直以来的使命.从 2011 年至今,围绕数据管理打造场景化 PaaS ,我们已经服务了超过五十万家客户,承载了超过 20 ...
【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中（2）...
[爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...

夜深了是时候爬个小黄图了

夜深了是时候爬个小黄图了相关推荐

最新文章

热门文章

夜深了 是时候爬个小黄图了

夜深了 是时候爬个小黄图了相关推荐

最新文章

热门文章

夜深了是时候爬个小黄图了

夜深了是时候爬个小黄图了相关推荐