Python爬虫实战(2)之爬取NBA球队各个球员头像图片
1.目标页面
2.页面分析
1.每个队的球员列表都在 class=“team_name”的span下的a标签的href下
2.每个球员的头像图标url 为 class=“td_padding”的td 下的a标签的 img的src
3.每个球员的姓名为 class=“left”下的b的a标签内(作为图片名称)
3.代码
from bs4 import BeautifulSoup
import requests######保存图片函数##########################
def saveImg(myurl):'''1.请求页面2.用返回内容创建soup对象3.获取球员名称放入 namelist4.获取球员图标src连接放入 srclist5.进行图片保存5.1对src链接进行request5.2将返回的数据写入以球员 名字.jpg 命名的文件中'''# 1.请求页面thtml = requests.get(myurl)# 2.用返回内容创建soup对象tsoup = BeautifulSoup(thtml.content, 'lxml')# 3.获取球员名称放入 namelistallname = tsoup.select("td.left > b >a")namelist=[]for tname in allname:namelist.append(tname.text)#### print(namelist)# 4.获取球员图标src连接放入 srclistallsrc=tsoup.select("td.td_padding > a >img")srclist=[]for tsrc in allsrc:srclist.append(tsrc.get("src"))##print(srclist)# 5.进行图片保存# 5.1对src链接进行requestfor i in range(0,len(srclist)):data=requests.get(srclist[i])# 5.2将返回的数据写入以球员 名字.jpg 命名的文件中path='image/'+namelist[i]+".jpg"file=open(path,"wb")file.write(data.content)url="https://nba.hupu.com/players" ##这是主界面
header={
"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.108 Safari/537.36 2345Explorer/8.1.0.14126"
}
urls=[] ##用来存储各个队的球员列表所在的 网址
html=requests.get(url,headers=header)
soup=BeautifulSoup(html.content,"lxml")
##1.获取所有球队页面所在的url地址
allurl=soup.select("span.team_name > a")
for t in allurl:urls.append(t.get("href"))
##print(urls)
#############以上是为了获取目标网址####################
for turl in urls:saveImg(turl)
4.结果
Python爬虫实战(2)之爬取NBA球队各个球员头像图片相关推荐
- 转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...
- 《python爬虫实战》:爬取贴吧上的帖子
<python爬虫实战>:爬取贴吧上的帖子 经过前面两篇例子的练习,自己也对爬虫有了一定的经验. 由于目前还没有利用BeautifulSoup库,因此关于爬虫的难点还是正则表达式的书写. ...
- python爬虫实战之多线程爬取前程无忧简历
python爬虫实战之多线程爬取前程无忧简历 import requests import re import threading import time from queue import Queu ...
- Python爬虫实战一之爬取糗事百科段子
点我进入原文 另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...
- python爬虫实战之异步爬取数据
python爬虫实战之异步爬取数据 文章目录 前言 一.需求 二.使用步骤 1.思路 2.引入库 3.代码如下 总结 前言 python中异步编程的主要三种方法:回调函数.生成器函数.线程大法. 以进 ...
- Python爬虫实战练习:爬取微信公众号文章
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:徐洲更 为了实现该爬虫我们需要用到如下工具 Chrome浏览器 Py ...
- Python爬虫实战Pro | (1) 爬取猫眼电影Top100榜单
在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的序号,片名,主演,上映日期,评分和封面等内容. 之前在Python爬虫实战(1)中我们曾爬取 ...
- python爬虫实战(一)~爬取百度百科人物的文本+图片信息+Restful api接口
我的github地址:https://github.com/yuyongsheng1990/python_spider_from_bdbaike # -*- coding: UTF-8 -*- # @ ...
- Python爬虫实战 | 利用多线程爬取 LOL 高清壁纸
来源:公众号[杰哥的IT之旅] 作者:阿拉斯加 ID:Jake_Internet 如需获取本文完整代码及 LOL 壁纸,请为本文右下角点赞并添加杰哥微信:Hc220088 获取. 一.背景介绍 随着移 ...
最新文章
- POJ1038 Bugs Integrated, Inc.
- Linux 命令之 netstat -- 查看网络状态信息/显示网络状态
- 【Java心得总结六】Java容器中——Collection
- 微软hackathon_Hackathon报告:30小时内您可以编写什么代码? 非常多!
- 新随笔 注:关注后可阅读(持续更新--------)
- netty高级篇(3)-HTTP协议开发
- MediaCreationTool.bat操作手册
- oeasy教您玩转python - 4 - # 调试程序
- Duke的咆哮语录②:我求求你们跟我学一下代码“分层”吧!
- 小白如何快速创建一个属于自己的APP
- AutoJs7、8版本快速接通vscode进行调试脚本
- 5分钟破解WEP加密的无线密码
- 畅享10S 鸿蒙,华为畅享10S正式发布 4800万超广角AI三摄1799元起
- Shell语言基本语法总结(4)正则表达式与文本处理之grep
- 【年度总结】2021 邂逅前端,入坑算法
- 前端之vue监测数据改变的原理
- 机器自动翻译古文拼音 - 将进酒拼音版本,译文拼音版本
- WordPress常用主题功能函数
- opencv3 6.2非线性滤波
- 解决docker容器因报错无法启动的问题,检查、修复容器错误并重启
热门文章
- QTabBar 和 QTabWidget部件 页签
- IOS下localstorage不起作用提示
- 05.看板方法——在制品
- 如何编写python函数_编写高质量的Python代码系列(二)之函数
- JavaScript Core -- 不可小视的标点符号
- html页面国际化之谷歌翻译js实践,支持通过判断浏览器语言自动将中文翻译成英文
- CanMV K210 AI开发板全网首发,项目代码完全开源,千套开发板限时优惠!
- O-LinuxShell-W3
- 一些GIS地图的基础知识
- 2023养老展|山东养老用品展|老年护理产品展|医养健康展