简单爬虫

  • 安装第三方库
  • 请求页面
  • 解析网页
  • 保存图片

今天深圳的晚上很冷,半夜就睡醒了,出去买点吃的难受的一批


说好的24小时呢?
开搞开搞

安装第三方库

安装第三方请求库(requests)
pip install requests

请求页面


请求成功了
存在特殊情况:请求失败
原因八成是网页知道我们是Python过来的不给我们请求。

这里教各路神仙去解决这个User-Agent的尴尬问题:


嗯…怎么看网页的啊?
啊Sir。来了不要催
(只好打马赛克了)

## 请求网页
import requests
headers={'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')
print(response.request.headers)
print(response.text)

解析网页

需要使用 re库来进行正则匹配
找到我们的图片的位置

上面注意看匹配内容
然后进行解析(我们不是什么都需要匹配的,只是需要匹配href里面的内容)

## 请求网页
import requests
import reheaders = {'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')#然后这里就吧上面的headers放进去
#response = requests.get('https://www.vmgirls.com/12945.html',headers=headers)
# print(response.request.headers)
# print(response.text)
html = response.text
#解析网页
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据
print(urls)

保存图片

第一版本:(文件存在在当前的文件夹,没有创建出来分类)

User-Agent:请求对象   AppleWebKit:请求内核  Chrome浏览器
## 请求网页
import requests
import re
import timeheaders = {'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')
# print(response.request.headers)
# print(response.text)
html = response.text
#解析网页
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)
print(urls)
# 保存图片
for url in urls:time.sleep(1) #睡眠一秒,别把别人网站查崩了file_name = url.split('/')[-1]response = requests.get(url) # 重新请求网站 图片地址就可以直接看了with open(file_name,'wb') as f: #'wb':二进制 file_name:图片名称f.write(response.content)

图片就有了…

有问题?有点…不可能数据啥子的都放这里吧…

现在处理

## 请求网页
import requests
import re
import time
import osheaders = {'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')
# print(response.request.headers)
# print(response.text)
html = response.text
#解析网页
dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1] #根据网页标题去做我们的文件夹名字
if not os.path.exists(dir_name):os.mkdir(dir_name)
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据
# print(urls)
# 保存图片
for url in urls:time.sleep(1)file_name = url.split('/')[-1]response = requests.get(url)with open(dir_name +'/' + file_name,'wb') as f: #'wb':二进制 file_name:图片名称f.write(response.content)

网络觉得你的爬取速度…

2020.6.22更新一波:Python连接数据库,为后期相关操作做准备
Python连接数据库以及组合拳
更新的再次提交,CSDN没有通过,小编只好把图片去掉了

Only老K说-爬取妹子图片(简单入门)相关推荐

  1. python爬取妹子图片1_【爬虫】直接上干货-爬取妹子图整站图片

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 #coding=utf-8 import os import requests from lxml import etree import time cl ...

  2. 利用python爬虫爬取斗鱼图片(简单详细)

    关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...

  3. python指定爬取虎牙图片(简单详细)

    关于 看了很久的斗鱼主播图片,我的欲望也欲来不满,望着他隔壁家的虎牙,我的心开始动摇,最后,我忍不住点开了看,发现了新鲜的图片,人就是如此,祖传手艺岂可落下,于是我开始爬取虎牙的图片- 想看斗鱼的指定 ...

  4. Python爬取网站图片(爬虫入门demo)

    代码功能: 爬取网站的教师图片,在用户主机上创建好PNG文件夹保存共110张图片,同时把每张图片的老师介绍内容写入H3.txt文件中. 实现思路: 打开该网页后用F12查看网页的html原代码,发现图 ...

  5. Python爬虫之——爬取妹子图片

    博主文章地址:http://cuiqingcai.com/3179.html 环境:python 3.6 注:单线程版以在安卓的Qpython(py2.7)上运行成功 第三方库 requests:解析 ...

  6. 使用python爬取妹子图片

    直接上代码 import urllib.request from bs4 import BeautifulSoup import osdef Download(url, picAlt, name):p ...

  7. Python爬虫----爬取妹子图片

    近来无事,或许是独自无聊,便产生以下程序 我们的目的不是搞事,是合理利用资源 各位,虎躯重要,合理食用 环境:python 3.6 第三方库 requests BeautifulSoup4 推荐使用 ...

  8. python爬取妹子图片_利用爬虫爬取清纯妹子图片

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 from bs4 import BeautifulSoup import requests import time import os def get_h ...

  9. Python网络爬虫(四):selenium+chrome爬取美女图片

    说明: Python版本:Python IDE:PyCharm chrome版本:我的版本63 chromedriver.exe:因为是模拟浏览器访问,chrome需要再下载一个驱动,具体方式在我的上 ...

最新文章

  1. linux磁盘管理系列一:磁盘配额管理
  2. android h5输入框被键盘遮挡,APP调用H5开发页面,输入框被软键盘遮挡问题的解决方案...
  3. redis VS kafka
  4. Redis进阶-bind参数详解
  5. gophp解释器_对比平台--Go和PHP之间的区别
  6. 读书笔记_代码大全2第七章_高质量的子程序
  7. should,would,could,must,might,may,can有什么区别
  8. ActivityInfo taskAffinity
  9. LOJ#6284. 数列分块入门 8
  10. 免费使用短信服务接口 ----用Java实现
  11. BERT模型深度解析
  12. python绘制积分函数_Python超越函数积分运算以及绘图实现代码
  13. R语言 时间序列arima模型
  14. 10年测试,告诉你常见的软件测试类型有哪些?
  15. 使用python把批量xls文件转换为xlsx
  16. python speech语言模块安装
  17. 前端js——定时器、定时跑、加速运动
  18. sklearn中的metrics.roc_auc_score评价指标
  19. Air780E连接点灯科技-LuatOS
  20. pms输变电状态监测_智能电网输变电设备综合状态监测系统的设计与实现

热门文章

  1. iOS 控制系统的音量改变
  2. Seccon-ctf-2016-pwn-cheer_msg 题解
  3. jvm-性能优化专题-jvm最全
  4. Yocto开发篇 | Ubuntu构建与体验Poky发行版(Yocto 3.1版本)
  5. html5 自动扣图,js+html5 canvas实现ps钢笔抠图
  6. 《算法4》读书笔记(一)
  7. php 关键词挖掘,如何挖掘长尾关键词
  8. 实验四 VLAN 实验——实现同一个vlan组下PC互通,不同vlan组下的不能互通
  9. python报错“cannot import name ft2font”
  10. 说说Java生态圈的那些事儿