这两天又写了一个爬取豆瓣前250部高分电影的爬虫,并把电影名字和图片保存到本地。
用的是requests和BeautifulSoup。

@requires_authorization
import requests
from bs4 import BeautifulSoupdef get_(url):'''获得电影的名字,并且保存电影的图片'''name_list = []turn = 0page = urlwhile turn < 10:r = requests.get(page, timeout=10)soup = BeautifulSoup(r.text,'lxml')div_list = soup.find_all('div',{'class':'item'})for img in div_list:#寻找电影的名字movie_text = img.find('span', {'class': 'title'}).textname_list.append(movie_text)#寻找图片的urlmovie_img = img.find('img')['src']ir = requests.get(movie_img)#如果成功,以电影名保存图片到img文件夹if ir.status_code == 200:#需要在程序目录下新建一个img文件夹with open('img/'+movie_text+'.jpg', 'wb') as f:#with open(movie_text + '.jpg', 'wb') as f:             不需要新建文件夹f.write(ir.content)# 获得下一页的urlturn += 1yema = 25 * turnpage = url + '?start=' + str(yema) + '&filter='print('完成第{}页的保存,共10页'.format(turn))return name_listdef main():url = 'http://movie.douban.com/top250'name_list = get_(url)#将电影名写入到moviename.txtwith open('moviename.txt','w',encoding='utf-8') as f:for i,name in enumerate(name_list):f.write(name)f.write('\n')if __name__=='__main__':main()

requests爬取豆瓣前250部高分电影相关推荐

  1. 【爬取豆瓣前 250 部电影】Python 爬虫和数据可视化(上篇)

    文章目录 一.学习内容 二.任务介绍 三.爬虫知识 四.基本流程 五.准备工作 5.1 获取数据 5.2 解析数据 5.3 保存数据 一.学习内容 Python 语言的基础知识 网络爬虫的技术实现 数 ...

  2. 爬取豆瓣前250电影数据

    1.导入包 import requests from bs4 import BeautifulSoup import pandas as pd 2. 构造分页数字列表 page_indexs = li ...

  3. Python 爬虫 爬取豆瓣Top 250 并将海报图片爬取下来保存

    本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...

  4. day02:requests爬取豆瓣电影信息

    一.requests爬取豆瓣电影信息 -请求url: https://movie.douban.com/top250 -请求方式: get -请求头: user-agent cookies二.sele ...

  5. 爬取豆瓣的正在热映电影

    爬取豆瓣的正在热映电影 引言 思路分析 代码 结果展示 引言 本篇文章较为基础,没有什么技术含量,主要是为了回顾一下如何用XPath提取HTML页面中的数据 思路分析 首先,进入豆瓣电影的主页,并且选 ...

  6. 爬虫如何翻页 爬取豆瓣排名250电影

    1.爬虫翻页问题: 正在做爬虫练习:爬取豆瓣电影排名前250的电影,但一页只显示排名前25的电影,爬取250部电影就遇到了爬虫翻页的问题.记录下,希望帮助到正在学习的小伙伴! 2.爬虫翻页解决思路: ...

  7. 【爬虫案例】Requests爬取豆瓣短评以及入门爬虫注意事项

    一.Requests是什么? Requests 是一个 Python 的 HTTP 客户端库. 支持的 HTTP 特性: 保持活动和连接池.国际域名和URL.Cookie持久性会话 浏览器式SSL验证 ...

  8. Scrapy 框架:爬取豆瓣Top 250

    使用Scrapy爬取豆瓣电影Top250 鲁迅说,豆瓣排行榜这么多,不爬一爬可惜了. 第一步:安装Scrapy 安装命令: pip3 install scrapy win用户一般来说第一次都不会太顺利 ...

  9. 爬取豆瓣Top 250电影信息、下载图片、存储到Excel,快来试试吧!

    写的第一个还算有点复杂的Python的程序,有点意思,感觉Python的实用性和开发效率实在很优秀,O(∩_∩)O哈哈~ 源代码在最后,有兴趣的可以试试跑一下. 爬虫地址豆瓣电影 Top 250. 文 ...

最新文章

  1. 深入Mysql,SqlServer,Oracle主键自动增长的设置详解
  2. Android之内存泄露、内存溢出、内存抖动分析
  3. 在查询语句中使用 NOLOCK 和 READPAST
  4. address标签,为网页加入地址信息
  5. python递归列文件_python-Bash:从最大列递归地向文件写入一行
  6. delphi 脚本引擎比较
  7. 嗨,您好 。 。 ! 您如何评价Java / Java EE技能?
  8. 微课|中学生可以这样学Python(2.2.4节):逻辑运算符
  9. maven打的包带exec包比不带的大_spring boot maven打包可执行jar包缺少依赖包的问题...
  10. python技术路线_django开发网站的技术路线?
  11. python下载-Python下载和安装图文教程[超详细]
  12. tcp连接python_python网络编程--TCP连接的三次握手(三报文握手)与四次挥手
  13. r语言聚类分析_R语言实现tSNE聚类分析
  14. 开闭原则(开放封闭原则)
  15. FileNet unfile sql
  16. 鸿蒙空间命运法则,洪荒之终极人族
  17. 计算机术语中的channel,English 中关于道路方面用词之(4)—Channel, Tunnel
  18. 2021阿里云供应链大赛--需求预测与单级库存优化参赛总结
  19. RF射频卡的介绍与与手机NFC的通信
  20. git 2.33.1 访问服务器报Permission denied (publickey)

热门文章

  1. 无盘服务器磁盘缓存,网众无盘教程 教你挂盘设置缓存
  2. 网页的基本信息及组成HTML文件的基本结构
  3. Matlab——彩色图像的拼接与裁剪
  4. ubuntu下Android开发环境的搭建:eclipse+SDK详细安装教程+常见问题及其解决方案
  5. 中职生学云计算机技术应用,云课堂在中职计算机课程教学中的应用
  6. 硬件-4-戴尔Inspiron 5577笔记本拆机
  7. AI会让AI工程师失业吗?
  8. 淘宝标题可以改吗 淘宝标题优化技巧方法有哪些
  9. 还在纠结毕业后是去大公司还是小公司工作?我来告诉你至少应该去初创公司工作一次的5大理由
  10. C++设计模式之工厂模式