前面学习了Python爬取豆瓣电影Top250的数据,爬取的信息是电影信息的文本信息,但是在互联网上流行的图片才有更大的吸引力,本篇我们来使用python爬取网页上的图片并保存在本地硬盘上,很兴奋吧,Let's Go!

使用Python版本:3.7 

第三方库

requests: 解析url (强大,你不得不用!)
beautifulsoup4:不会正则表达式童鞋的福音,可以容易的提取到html文件中各种标签及其属性

安装方法: 
pip install requests 
pip install beautifulsoup4

爬取目标网页科比职业生涯高清图集 (来自百度网友分享)

https://baijiahao.baidu.com/s?id=1566820986637813&wfr=spider&for=pc

 分析网页源代码:发现需要的内容都集中在class="article-content"的div标签中,而且需要的图片都集中在class="large"的img标签中

啥也不说了,直接上Python代码吧!

KobeForever.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
 
# coding = utf-8

# 导入库
import os
import requests
from bs4 import BeautifulSoup

# 要爬取的科比职业生涯高清图集URL
url = 'https://baijiahao.baidu.com/s?id=1566820986637813&wfr=spider&for=pc'

# 设置headers,网站会根据这个判断你的浏览器及操作系统,很多网站没有此信息可能将拒绝你访问
header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

# 用get方法打开url并发送headers
html = requests.get(url, headers = header)

# 使用自带的html.parser解析,速度慢但通用
soup = BeautifulSoup(html.text, 'html.parser')

# 打印结果 .text是打印出文本信息即源码
# print(html.text)

# 所有的图片内容都包含在class=article-content的大div中
all_div = soup.find('div', class_ = 'article-content').find_all('div', class_ = 'img-container')

# 但是,实际上我们仅仅需要class=large的img标签集合即可
all_img = soup.find_all('img', class_ = 'large')
for img in all_img:
    src = img['src']
    img_url = src
    # 打印出图片的地址
    print(img_url)
    # 实际上,我们更希望保存在我们的电脑硬盘上
    root = 'C:/KobeForever/'
    path = root + img_url.split('/')[-1]
    try:  # 创建或判断路径图片是否存在并下载
        if not os.path.exists(root):
            os.mkdir(root)
        if not os.path.exists(path):
            r = requests.get(img_url)
            with open(path, 'wb') as f:
                f.write(r.content)
                f.close()
                print("文件保存成功")
        else:
            print("文件已存在")
    except:
        print("爬取失败")

运行起来吧,GO!

最后再来一张霸气的!

转载于:https://www.cnblogs.com/MakeView660/p/9645068.html

Python爬虫-爬取科比职业生涯高清图集相关推荐

  1. python爬虫爬取必应每日高清壁纸

    python爬虫爬取必应每日高清壁纸 一.简介 二.使用的环境 三.网页分析 1.分析网页每一页url形式以及总页数 2.网页重要信息收集 3.在源码中寻找所需信息的位置 四.代码实现 五.运行爬虫 ...

  2. python桌面爬虫_Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】...

    本文实例讲述了Python3爬虫爬取英雄联盟高清桌面壁纸功能.分享给大家供大家参考,具体如下: 使用Scrapy爬虫抓取英雄联盟高清桌面壁纸 源码地址:https://github.com/snowy ...

  3. python多线程爬取王者荣耀高清壁纸过程

    多线程与爬虫 目标url json中查找url 访问url 读取json 查看json的list数组 全部图片 粗暴的单线程获取 多线程执行 目标url 查看http://pvp.qq.com/web ...

  4. python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片

    成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...

  5. 【Python爬虫实战】爬取彼岸图库高清图片

    利用Python爬取彼岸图库高清图片 让你每天一张壁纸不重样,今天利用Python爬取 彼岸图库 http://pic.netbian.com/ 分析网页 通过首页可以看到要获取全站图片必须先抓取各个 ...

  6. python3爬虫之使用Scrapy框架爬取英雄联盟高清桌面壁纸

    使用Scrapy爬虫抓取英雄联盟高清桌面壁纸 源码地址:https://github.com/snowyme/loldesk 开始项目前需要安装python3和Scrapy,不会的自行百度,这里就不具 ...

  7. python爬取王者_python 爬取王者荣耀高清壁纸

    一.前言 打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 预览一下桌面吧: 是不是看着这样的桌面也很带感,_ (学会这个技术,你可以爬取其他网站的类似图片 ...

  8. Python爬虫 | 爬取高质量小姐姐照片

    Python爬虫 | 爬取高质量小姐姐照片 1.数据来源分析 2.获取author_id_list和img_id 3.制作detial 4.制作detial_list 5.数据保存 6.批量获取 7. ...

  9. python 爬取王者荣耀高清壁纸

    代码地址如下: http://www.demodashi.com/demo/13104.html 一.前言 打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...

  10. Python爬虫爬取王者荣耀英雄人物高清图片

    Python爬虫爬取王者荣耀英雄人物高清图片 实现效果: 网页分析 从第一个网页中,获取每个英雄头像点击后进入的新网页地址,即a标签的 href 属性值: 划线部分的网址是需要拼接的 在每个英雄的具体 ...

最新文章

  1. springmvc+mybatis整合
  2. 绕过web认证学习总结
  3. 三角函数公式、诱导公式
  4. docker18.09.3修改守护进程配置文件不生效问题
  5. 论文排版怕翻车?这个排版神器是时候用起来了!
  6. 阿里云大数据利器Maxcompute-使用mapjoin优化查询
  7. ROS入门笔记(五):ROS中运行rqt_plot的问题(kinetic)
  8. Windows右键添加command(命令行)
  9. SpringBoot和Hprose集成开发
  10. 计算机更改刷新频率,电脑屏幕刷新率怎么调节?怎么更改电脑屏幕刷新率?
  11. thrift夸语言编程,facebok
  12. 15个非常实用的JavaScript表单验证库
  13. VBA-Excel中单元格的引用方法
  14. 系统集成项目管理工程师高频考点(第八章)
  15. win7 找不到 计算机策略组,win7打开组策略提示无权限怎么解决 win7系统组策略如何开启...
  16. 用炒菜的思路搞定你的复杂分析
  17. DNS安全浅议、域名A记录(ANAME),MX记录,CNAME记录 专题
  18. icu4c-icu4c-68.1编译
  19. 很期待的一个车模打印作品
  20. 将秒转换为小时:分钟:秒

热门文章

  1. stc15f2k60f2单片机定时器_STC15F2K60S2系列
  2. “SD卡已损坏。可能需要重新格式化卡” 解决办法!
  3. JAVAEE框架数据库技术之12_oracle常用函数和高级查询子查询
  4. 【数学建模】相关软件
  5. 手把手教你学dsp_大咖问答第13期:如何掌握DSP设计?顾卫钢博士在线为你解答...
  6. MFC框架学习:《深入浅出MFC》阅读笔记
  7. 用Python执行SQL、Excel常见任务?10个方法全搞定!
  8. 手机通讯录html模板,手机通讯录导模板
  9. bzoj 1171 大sz的游戏 2892 强袭作战 (线段树+单调队列+永久性flag)
  10. 在网页HTML中嵌入QQ、MSN、旺旺、Gtalk快速对话框代码