python 爬取豆瓣top100电影页面

运行结果截图:

代码:
(原网站:https://movie.douban.com/top250)

1、将页面保存 避免多次访问
(登陆状态需页面cookie)

import requestsurl="https://movie.douban.com/top250"
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.46','cookie':'bid=sO6ny0NVNqQ; _pk_id.100001.4cf6=77175839ae9b2c3b.1619686194.1.1619686194.1619686194.; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utma=30149280.35012747.1619686195.1619686195.1619686195.1; __utmb=30149280.0.10.1619686195; __utmc=30149280; __utmz=30149280.1619686195.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.351459569.1619686195.1619686195.1619686195.1; __utmb=223695111.0.10.1619686195; __utmc=223695111; __utmz=223695111.1619686195.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=URY22xM5zXDRrprNmeoAzbBY6gxEoqR9; __gads=ID=06784ca21b6f77c2-22a7788cafc70011:T=1619686197:RT=1619686197:S=ALNI_MbW9cpCEeKsCd89PFHC4T-1d80nKg'}
r = requests.get(url,headers=headers)
r.encoding = r.apparent_encoding
html= r.text#print(html)with open("maoyan250_page1.html","w+",encoding="utf-8") as f:f.write(html)print("爬取完毕!")

2、爬取第一页

import requests
from bs4 import BeautifulSoupf=open("maoyan250_page1.html",encoding="utf-8")
html=f.read()
#print(html)soup=BeautifulSoup(html,"lxml")movies = soup.select('ol li')
for movie in movies:rank = movie.find(name = 'em').get_text()filmname = movie.find(name = "span",class_='title').get_text()star = movie.find_all("p")[0].text.strip()  #用strip去除两边空格。star_split = star.split("主演:")     #使用回车(\n),切割information为两段daoyan = star_split[0]     # 第一段为导演和演员的信息zhuyan = star_split[1].split("\n")[0]     # 第二段为年份、地点、类型的信息score = movie.find(class_="rating_num").get_text()pic = movie.find(name='img').get('src')path = filmname+".jpg"pic_r = requests.get(pic)with open(path,"wb")as f:f.write(pic_r.content)print(rank,filmname,daoyan,zhuyan,score)content=[rank,filmname,daoyan,zhuyan,score]   #将爬取内容存储为txtwith open("douban.txt","a+",encoding="utf-8") as file:file.write(str(content))print("第一页爬取完毕!文件写入完毕!")

python 爬取豆瓣top100电影页面相关推荐

  1. python爬取豆瓣排行榜电影(静态爬取)(二次爬取)

    目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站 爬取html数据 完整代码 python爬取豆瓣排行 ...

  2. Python爬取豆瓣Top250电影可见资料并保存为excel形式

    Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...

  3. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  4. Python爬取豆瓣Top250电影排名

    # -*- codeing = utf-8 -*- # @Time: 2021/12/27 14:30 # @Author: 买欣怡 # @File: 7. spider-豆瓣.py # @Softw ...

  5. python爬取豆瓣排行榜电影数据(含GUI界面版)

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  6. python爬取豆瓣TOP250电影

    按照小甲鱼的爬虫教程,再自己修改了一部分. 废话不多说,直接贴代码 import requests from bs4 import BeautifulSoup import redef open_ur ...

  7. Python爬取豆瓣动作电影好评前100名

    获取豆瓣动作电影好评前100名 代码 #!/usr/bin/env python # -*- coding: utf-8 -*- # https://movie.douban.com/j/chart/ ...

  8. python爬取猫眼top100电影,经典永远是经典

    想必大家在无聊的时候,都想找一部口碑的好电影,而自己又没看过的,这个其实可以参考猫眼top100的上排名,因为排名是靠评分升上去,想排名第一的<霸王别姬>,"哥哥"在里 ...

  9. 利用python爬取豆瓣电影top250

    利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

最新文章

  1. 找java培训机构如何挑选
  2. 为Delphi程序添加事件和事件处理器
  3. 22.6. 视图(View)
  4. 编写你的第一个 Django 应用,第 2 部分
  5. DataRow的RowState属性变化问题
  6. iOS 无法获取 WiFi 列表?一定是因为你不知道这个框架
  7. 中国央行将发行全球首个法定数字货币,消息是真的吗?
  8. 用Jackson编写大型JSON文件
  9. Vue + Spring Boot 项目实战(八):导航栏与图书页面设计
  10. yum 安装nginx
  11. mysql客户端工具_性能优化-理解 MySQL 体系结构(MySQL分库分表)
  12. vim表达式正则替换
  13. ****阿里云使用+快速运维总结(不断更新)
  14. PAT1030.——完美数列
  15. 【POJ 2342】Anniversary party(入门树形dp)
  16. python画图代码讲解_python画图例子代码
  17. java开发入职注意
  18. 微信小程序开发文档-萧然 8.28
  19. java教程——电商秒杀系统介绍
  20. 影评系统的机遇和挑战

热门文章

  1. windeployqt.exe 发布windows下qt产生的exe程序
  2. 学习GNU Make (1)(转)
  3. 终端中用命令成功修改linux~Ubuntu PATH环境变量
  4. mac10.11重装php,macosx-10.11-更新osx10.11后,删除自带php版本,重新编译php5.5.29,到make阶段提示错误。...
  5. 随想录(驱动开发程序员需要的一些技能)
  6. 关于投篮的数学建模模型_数学建模 投篮命中率的数学模型
  7. java基础代码实例_java学习之web基础(3):Servlet 和 Request的登录处理实例
  8. submit+php语法报错,PHP语法基础部分
  9. java.lang.NumberFormatException: Infinite or NaN原因之浮点类型除数为0
  10. 事业编还是程序员_头条员工为不加班,降薪去事业单位,结果蒙了:还不如当程序员...