代码功能:

爬取网站的教师图片,在用户主机上创建好PNG文件夹保存共110张图片,同时把每张图片的老师介绍内容写入H3.txt文件中。

实现思路:

打开该网页后用F12查看网页的html原代码,发现图片所在的标签ul下,但不是唯一,通过find_all函数筛选发现得到的列表的第一个元素就是我们所需要的,最后用for循环遍历提取出每个图片对应的src再通过open的二进制格式把图片写入PNG目录下,同理h3的获得也遵循该思路。需要注意的是环境中除了要安装import对应的包还要安装pip install html5lib

代码实现:

import requests
import os,sys
import shutil
from bs4 import BeautifulSoupresponse = requests.get(url="http://www.mobiletrain.org/teacher/")def get_resource_path(relative_path): # 利用此函数实现资源路径的定位if getattr(sys, "frozen", False):base_path = sys._MEIPASS # 获取临时资源print(base_path)else:base_path = os.path.abspath(".") # 获取当前路径return os.path.join(base_path, relative_path) # 绝对路径if response.status_code == 200:    #404和405是页面消失报错print("连接成功!")# 设置返回源码的编码格式response.encoding = "UTF-8"# print(type(response.text))html = BeautifulSoup(response.text,"html5lib")ul=html.find_all("ul",attrs={"class":"clear"})[0]#找唯一的父节点再找子节点,或者找出后得到列表取第一个li_list = ul.find_all("li")i = 0PNG=get_resource_path('png')   #判断是否有PNG目录存在,存在则删除再创建,避免使用的时候报错if os.path.exists(PNG):shutil.rmtree(PNG)png = os.mkdir(PNG)for li in li_list:i += 1img_src = li.find("img")["src"]response_child = requests.get(img_src)fileWriter = open(get_resource_path(os.path.join("png", "{}.png".format(i))), "wb")fileWriter.write(response_child.content)h3 = li.find("h3").texttext=open('H3.txt','a',encoding='utf-8')text.write(h3+'\n')text.close()
else:print("连接失败!")

Python爬取网站图片(爬虫入门demo)相关推荐

  1. Python爬取网站图片并保存,超级简单

    Python爬取网站图片并保存,超级简单 先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSou ...

  2. Python爬取网站图片数据

    Python爬取网站图片数据 找到需要爬取的网站地址 模拟网站http请求 根据调试模式获取的了解读取到真实的地址url,读取请求头数据和参数信息,模拟http请求调用 import requests ...

  3. python爬取方式_Python 爬虫入门(三)—— 寻找合适的爬取策略

    写爬虫之前,首先要明确爬取的数据.然后,思考从哪些地方可以获取这些数据.下面以一个实际案例来说明,怎么寻找一个好的爬虫策略.(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 ...

  4. python爬取网站图片链接并保存,Python爬取网站图片并保存的实现示例

    先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSoup requests用来请求html页面, ...

  5. python爬取网站图片(尽力在讲解)

    1.首先,先导入两个库(一个就是常用的reques库,另一个就是BeautiSoup库) import requests from bs4 import BeautifulSoup 2.确定你要爬取的 ...

  6. python爬虫怎么爬取图片_怎么用python爬取网站Jpg图片

    用python爬取网站图片,通过引用requests库就可完成.下面,小编将以爬取百度图片为例 工具/原料 python环境,网络 安装requests库 1 cmd打开命令行界面,输入pip ins ...

  7. Python网络爬虫——爬取网站图片小工具

    最近初学python爬虫,就写了一个爬取网站图片的小工具,界面如下: 用到的包主要是爬虫常用的urllib,urllib2和图形界面用的Tkinter,完整代码如下: # -*- coding:utf ...

  8. python 第一行 报错_初学Python-只需4步,爬取网站图片

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来.我:行,那我们卖什么呀?领导:看 ...

  9. python 图片文件_初学Python-只需4步,爬取网站图片(附py文件)

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来. 我:行,那我们卖什么呀? 领导 ...

最新文章

  1. g++ 4.4.7 template 没问题,前面应该程序问题!!
  2. 自学python之路(day2)
  3. org.apache.hadoop.util.PlatformName //cgywin下Hadoop-0.21.0 错误问题
  4. Processing绘制四边形
  5. php和js操作数据库的区别,PHP基础与JS操作的区别
  6. 公厕的门下面为什么都要空一截?难道是为了和别人分享我中午吃的两碗螺狮粉?
  7. 编译ffmpeg、SDL、x264开源库 for ubuntu
  8. poj 3678 Katu Puzzle 2-SAT
  9. JS输出内容为[object Object]
  10. phpcms调用语句
  11. tensorflow Dataset操作
  12. mysql免安装教程_MySQL免安装版环境配置图文教程
  13. python图像物体的自动标注_python中matplotlib实现随鼠标滑动自动标注代码实例
  14. 软件测试个人绩效模板,测试工程师kpi模板.doc
  15. 一文详解什么是代理模式
  16. 03.豆豆的《背叛》与《天道》
  17. Android应用开发性能优化完全分析,移动应用开发课程报告
  18. 真正解决Word中表格首行字母或首列字母(首字母)大写的问题
  19. STM32芯片的ADC引脚的识别与选择
  20. Oracle删除表空间导致报错无法登录解决

热门文章

  1. 安装pyspider遇到Traceback (most recent call last)问题
  2. JSON数组,JSON对象,数组的区别
  3. 自行车变速器挂不上档,最常用的五个调整技巧
  4. CreateFileMapping用法
  5. (超详细的Suse15安装指南) 一步一步安装SUSE15操作说明
  6. 通信的标准——网络分层模型(1)
  7. 2020年AI竞赛获奖方案复盘系列(三) 目标检测竞赛trick-kaggle小麦检测1st2nd Place solution
  8. 网站开启HTTPS,免费的 SSL证书 申请渠道有哪些?
  9. 人类视觉系统(Human Visual System,HVS)
  10. 【附源码】计算机毕业设计SSM网上购物系统