豆瓣Top250电影名怎么爬

参考博文:https://www.cnblogs.com/leon507/p/7614345.html

怎么实现

因为没有系统学习过,所以只能做搬运工。看了几篇有关爬取豆瓣Top250的电影信息,这篇是最简单易懂的了,所以摘过来学习学习。但这个博主的代码只是爬了电影名,然后也没有将爬到的数据保存到本地,那我就在他的基础上加了几行代码,将数据保存到本地了。

首先爬虫三部曲?
第一,requests爬取网页的HTML信息
第二,解析HTML。解析有很多种方法>_<
第三,保存本地

翻页信息
第一页:https://movie.douban.com/top250?start=0&filter=
第二页:https://movie.douban.com/top250?start=25&filter=
第三页:https://movie.douban.com/top250?start=50&filter=
第十页:https://movie.douban.com/top250?start=225&filter=

所以翻页规律就是 25*i (i+1)表示第几页

在网页源代码中定位需要爬取的信息

代码如下

加了一点自己的解释>_<

import requests
from bs4 import BeautifulSoup
def get_movies(): #定义一个函数来爬取数据headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36','Host': 'movie.douban.com'}movie_list = []     #定义一个空列表,放电影名                                                  #定义序列for i in range(0, 10):#遍历页数,0表示第一页url = 'https://movie.douban.com/top250?start=' + str(i * 25)     #通过循环,下载第二页,第三页r = requests.get(url, headers=headers, timeout=10)  #爬虫第一步,requests发送请求,爬取HTML信息             #timeout=10,响应时长print(str(i + 1), "页响应状态码:", r.status_code)                   #显示状态码,返回200,请求成功soup = BeautifulSoup(r.text, "lxml")  #爬虫第二步,解析数据div_list = soup.find_all('div', class_='hd')                     #如下图显示,电影名字在div标签之后for each in div_list:movie = each.a.span.text.strip()                              #span后的文本movie_list.append(movie)                                      #append(movie),在movie_list中添加movie序列return movie_list
movies = get_movies() print(movies)
import pandas as pd
df = pd.DataFrame(movies)
#df.to_csv('doubanTop250Movies_name.csv') 不知道为啥这个文件打开后乱码
df.to_excel('doubanTop250Movies_name.xlsx')

结果如下



总的来说就是 要查看要爬取的信息在网页源代码中是如何显示的,再根据规律写爬取的代码>_<

task1 - 爬取豆瓣Top250电影名相关推荐

  1. python爬虫--爬取豆瓣top250电影名

    关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝. 1 import requests 2 from bs4 import ...

  2. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  3. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  4. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  5. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

  6. Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除)

    Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...

  7. Python爬取豆瓣Top250电影可见资料并保存为excel形式

    Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...

  8. 爬取豆瓣Top250电影

    爬取豆瓣Top250电影数据一直是爬虫小白的入门练手项目,下面就来分享一下自己的爬取过程. 开始之前,先简单写一下需求和实现思路. 需求: 爬取豆瓣电影Top250的数据,数据包含排名.电影名称.导演 ...

  9. 爬取豆瓣top250电影并分析

    爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

最新文章

  1. 【转】Hadoop分布式集群搭建hadoop2.6+Ubuntu16.04
  2. python3 发送邮件
  3. 4.22、Bootstrap V4自学之路-----内容---轮播
  4. 读书笔记_CLR.via.c#第十四章_字符,字符串和文本处理
  5. Vue学习【第六篇】:Vue-cli脚手架(框架)与实战案例
  6. PowerDesigner15在win7-64位系统下对MySQL 进行反向工程以及建立物理模型产生SQL语句步骤图文傻瓜式详解...
  7. mysql-索引操作
  8. MFC架构之CWinThread类
  9. realme曝光全球首张6400万像素样张 大家品一品?
  10. 奔驰车载逻辑单元 (OLU) 源代码遭泄露
  11. 可靠性试验(环境试验、机械试验、HALT试验等)
  12. 最大似然估计程序c语言,极大似然估计(示例代码)
  13. 40种javascript设计模式总结及实例代码演示
  14. JS逆向加密——AES加密解密
  15. 小米扫地机器人粉尘盒_小米扫地机器人尘盒怎么打开
  16. 计算机视觉基础理论知识
  17. [笔记]深入解析Windows操作系统《三》系统机制
  18. Linux 6.2 最新合并情况:拓展 ArmSoc 支持,华为代码加速核心功能 715 倍!
  19. transporter上传卡正在交付_Transporter上传卡在—正在验证 APP
  20. fiddler-2-5分钟学会手机端抓包

热门文章

  1. RegisterHotKey设置系统级热键《转》
  2. android onresume方法,Android onActivityResult()和onResume()的执行顺序
  3. oracle常见数据端口,各种数据库默认端口汇集
  4. eXtremeDB内存实时数据库
  5. 关于checkpoint机制
  6. 通如短信设备TR-F3X27工业无线通信路由器
  7. 软件测试面试怎样介绍自己的项目?会问到什么程度?
  8. 原来TMD是背景颜色的原因,
  9. VS2010旗舰版下载
  10. 美术专业如何利用计算机思维,电脑美术教学的初探