1、爬虫翻页问题:

正在做爬虫练习:爬取豆瓣电影排名前250的电影,但一页只显示排名前25的电影,爬取250部电影就遇到了爬虫翻页的问题。记录下,希望帮助到正在学习的小伙伴!

2、爬虫翻页解决思路:

在网上查到有几种翻页的解决方案:

爬虫翻页技巧的四种方法_风启新尘的博客-CSDN博客_爬虫翻页

爬虫中几种翻页方式_野生猕猴桃的博客-CSDN博客_爬虫翻页

3、爬虫翻页解决方案:

综合各种解决方案后,我选择了第一个链接里面的第一种最简单的解决方案:

在URL里找到循环规律,电影每页显示排名25部电影

4、翻页爬取前250部电影源码:

源码(供参考):

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
for page in range(0,250,25):
    url= 'https://movie.douban.com/top250?start=' + str(page) + '&filter='
    res = requests.get(url,headers = headers)
    html = res.text
    bs = BeautifulSoup(html,'html.parser')
    movies = bs.find_all(class_ = 'item')
    for movie in movies:
        #提取序号
        num = movie.find(class_='pic')
        #提取电影名
        name = movie.find('span',class_='title')
        #提取评分
        rating_num = movie.find(class_ = 'rating_num')
        #提取推荐语
        #quote = movie.find(class_='quote')
         #提取链接
        link = movie.find('a')['href']
        print('排名:' +num.text.strip(), '电影:'+name.text,' ','评分:'+ rating_num.text, '\n','电影链接:'+link)

爬虫如何翻页 爬取豆瓣排名250电影相关推荐

  1. python从入门到放弃篇26(lxml.etree库,urllib.request库,构造xpath路径,构造url)实现翻页爬取豆瓣书简介并保存数据

    今天,我研究了构造url和xpath路径的方法实现翻页爬取数据.觉得还可以,不过还是存在一些问题,没有我想的那么理想,因为,目前只实现了爬取每一页的第一本书及其书评.我等有时间会再去研究. 第一步,我 ...

  2. [Python Scrapy爬虫] 二.翻页爬取农产品信息并保存本地

    前面 "Python爬虫之Selenium+Phantomjs+CasperJS" 介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分 ...

  3. 爬取豆瓣前250电影数据

    1.导入包 import requests from bs4 import BeautifulSoup import pandas as pd 2. 构造分页数字列表 page_indexs = li ...

  4. 爬取豆瓣Top 250电影信息、下载图片、存储到Excel,快来试试吧!

    写的第一个还算有点复杂的Python的程序,有点意思,感觉Python的实用性和开发效率实在很优秀,O(∩_∩)O哈哈~ 源代码在最后,有兴趣的可以试试跑一下. 爬虫地址豆瓣电影 Top 250. 文 ...

  5. python爬虫(一)爬取豆瓣电影排名前50名电影的信息

    python爬虫(一)爬取豆瓣电影排名前50名电影的信息 在Python爬虫中,我们可以使用beautifulsoup对网页进行解析. 我们可以使用它来爬取豆瓣电影排名前50名的电影的详细信息,例如排 ...

  6. Python爬虫入门 | 7 分类爬取豆瓣电影,解决动态加载问题

      比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒--   又比如知乎关注的人列表页面:   我复制了其中两个人昵称 ...

  7. Python 爬虫 爬取豆瓣Top 250 并将海报图片爬取下来保存

    本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...

  8. Scrapy翻页爬取示例——列表页、详情页

    Scrapy翻页爬取示例--列表页.详情页 引言: 本人最近在帮助同事们爬取一批英-泰双语数据,顺带复习了一下scrapy爬虫相关的知识.下面以简单的小项目为例,一起来开始吧! 示例一:爬取列表页 本 ...

  9. Python自动翻页爬取网页名称、评论等信息实例

    一.已知评论页数,自动翻页爬取 import requests from bs4 import BeautifulSouppage = int(input('请输入评论总页数:'))+1 #整型 fo ...

最新文章

  1. nginx 内核优化参数
  2. mysql备份实例攻略
  3. Oracle四舍五入,向上取整,向下取整
  4. 计算机与广播电视论文,计算机技术在广播电视节目的应用论文
  5. java 32位jdk_jdk9 32位下载 jdk9.0(Java SE Development Kit 9) v9.0.4 官方版 32位 下载-脚本之家...
  6. java 数组的索引_java如何寻找数组中心索引
  7. 阻止form表单提交的常用方式
  8. bzoj 1637: [Usaco2007 Mar]Balanced Lineup【瞎搞】
  9. base64编码格式
  10. python-12:怎么在爬虫代码中伪装header
  11. CentOS 8下 MySQL 8.0 安装部署(亲测)
  12. C++ - 使用copy函数打印容器(container)元素
  13. 文科三本学计算机专业好吗,三本学费一年大约需要多少
  14. 芝加哥大学校长:诺贝尔奖人才是怎样炼成的?
  15. C++ 笔记 加号运算符重载
  16. UPC2022/3/18 晚训练赛补题
  17. 固件-驱动-软件 区别
  18. SuperMap GIS管线数据优化
  19. HDOJ(HDU) 1862 EXCEL排序(类对象的快排)
  20. 三维实景沙盘数字模拟沙盘M3DGIS系统开发教程第18课

热门文章

  1. 【财务】FMS财务管理系统---存货管理
  2. 成都四和能聚分析抖音起店的四大重点
  3. 毕业论文查重怎么才算重复内容?
  4. win7计算机无法右键,win7右键无法使用怎么办_解决win7点击鼠标右键没反应的方法...
  5. FlinkSQL源码解析(三)执行流程
  6. 航拍深圳大运中心体育馆全景,从2018年到2021年分享
  7. 写dockerfile中的种种问题,拉取镜像错误access denied for centos, repository does not exist or may require ‘docke
  8. 菜鸟实战UML——活动图
  9. 阿里往事:阿里20周年年会侧记
  10. Ethereum Probabilistic Micropayments