python爬虫爬取豆瓣top排行图片
爬虫是什么?
“网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。”(就是获取信息)
xPath的常用路径表达式
nodename(节点名称):表示选择该节点的所有子节点
“/”:表示选择根节点
“//”:表示选择任意位置的某个节点
“@”: 表示选择某个属性
requests库常用方法
图片转至链接link
图片转至链接:link
爬虫的步骤
1.目标url 网站
2.发送请求
3.解析数据
4.保存数据
所以把步骤搞明白那么爬虫就不会那么的复杂了
import requests
from lxml import etreeurl='https://movie.douban.com/chart'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
#发送请求
data = requests.get(url,headers=headers).content.decode()
#解析数据
html=etree.HTML(data)
n=1
#获取图片地址
novel_url_list=html.xpath('//div[@id="content"]//a[@class="nbg"]/img/@src')
#保存图片
for novel_url in novel_url_list:response = requests.get(novel_url,headers=headers)print('第%d个图片打印成功'%n)n=n+1#保存的名字file_name = novel_url.split('/')[-1]with open(file_name,'wb')as f:f.write(response.content)
总结
不忘初心,方得始终.努力一定能成功,多敲多练才是真理.
python爬虫爬取豆瓣top排行图片相关推荐
- Python 爬虫 爬取豆瓣Top 250 并将海报图片爬取下来保存
本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...
- Python爬虫 爬取豆瓣电影TOP250
Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...
- python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
- python爬虫爬取豆瓣读书Top250
python爬虫爬取豆瓣读书Top250 话不多说,直接上代码! from urllib.request import urlopen, Request from bs4 import Beautif ...
- python爬虫爬取彼岸图网图片
python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...
- Python爬虫爬取豆瓣电影评论内容,评论时间和评论人
Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...
- python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python爬虫爬取百度贴吧图片,requests方法
每天一点点,记录学习 近期爬虫项目,看完请点赞哦---: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方 ...
最新文章
- wps表格粗线和细线区别_学术论文表格制作方法解读
- Jquery控制select实现dataTables数据联动刷新
- 信息学奥赛一本通 1028:字符菱形 | OpenJudge NOI 1.1 09
- openstack 学习_需要IT工作吗? 学习OpenStack
- 文字组合生成器_万字长文神器,原来只是固定数据库排列组合而成
- CentOS x86_64系统手动释放内存
- 【贪心】[USACO 2015 February Contest, Gold]Circular Barn
- Access数据库通过ODBC导出到Oracle的两个小问题ora-24801\Ora-01401
- c++ 数据结构之 线段树
- python自动华 (十二)
- 50个开源性能测试工具
- django orm与scrapy集成:
- vscode 历史版本1.68.1
- JavaScript基础--DOM部分01--李南江
- nginx的工作原理与nginx的配置
- 如何把带图片html转为doc,教您一招:如何将图片里面的文字转成word格式并能编辑...
- 微信小程序|使用小程序制作一个足球拼图小游戏
- 1.回文是指正读和反读均相同的字符序列,如“abba”和“abdba”均是回文,但“good”不是回文。试写一个算法判定给定的字符向量是否为回文。(提示:将一半字符入栈。)2.假设以带头结点的循环链
- Android “adb”不是内部或外部命令,也不是可运行的程序或批处理文件
- 只需两步获取任何小程序源码
热门文章
- 气动调节阀在检修的时候有哪些步骤
- BZOJ 1455 罗马游戏
- 记录----在pycharm中用pip安装CV2(从清华这边的镜像)
- 计算机一打开就卡在更新失败,电脑卡在配置Windows Update失败界面怎么解决
- linux怎么打代码爱心,使用css实现爱心效果
- 【头歌】Linux Linux从入门到精通
- [Java反序列化]CommonsBeanutils1利用链学习
- Tomcat-Session反序列化学习
- Linux 网络驱动 phy 读写寄存器调试方法
- 论文阅读——MISF:Multi-level Interactive Siamese Filtering for High-Fidelity Image Inpainting