爬取豆瓣电影top250

平时不知道看什么电影,正好最近学习了爬虫,自己试着把电影排行下载下来,边看边学两不误。
下面直接上代码:

import requests
from bs4 import BeautifulSoup# 爬取网页源码
def download_page(url):headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}req = requests.get(url=url, headers=headers)return req.content# 爬取单页电影名返回列表
def get_page_list(html):soup = BeautifulSoup(html, 'lxml')# find方法返回的是第一个符合条件的元素movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})movie_name_list = []# find_all 返回所有符合条件的元素for movie_li in movie_list_soup.find_all('li'):movie_name = movie_li.find('span', attrs={'class': 'title'}).getText()movie_num = movie_li.find('em').getText()movie_score = movie_li.find('span', attrs={'class': 'rating_num'}).getText()movie_name_list.append('%s.%s score: %s分' % (movie_num, movie_name, movie_score))return movie_name_list# 保存文件
def write_file(url):with open('douban_top_movies.txt', 'a', encoding='utf-8') as f:html = download_page(url)movies = get_page_list(html)for movie in movies:f.write(str(movie) + '\n')def main():# 通过分析发现每一页地址的'start='后的数字不同,每页递增25正是每一页所含有的电影数,通过遍历即可爬取每一页for n in range(0, 250, 25):page_url = 'http://movie.douban.com/top250?start=%d&filter=' % nwrite_file(page_url)if __name__ == '__main__':main()

效果如图:

爬取豆瓣电影排行榜top250相关推荐

  1. Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中

    概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...

  2. 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图

    **爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...

  3. python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)

    ''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...

  4. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  5. [爬虫] 爬取豆瓣电影排行榜

    申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删 爬取豆瓣电影排行榜 这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理 这次我们要做例子的网站 ...

  6. python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中

    python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...

  7. 爬取豆瓣电影排行top250

    功能描述V1.0: 爬取豆瓣电影排行top250 功能分析: 使用的库 1.time 2.json 3.requests 4.BuautifulSoup 5.RequestException 上机实验 ...

  8. 第一次练手爬取豆瓣电影排名top250

    从b站看了如何爬取豆瓣电影top250的视频,就是跟着练习实现了,就把代码贴了一下. from bs4 import BeautifulSoup #网页解析,获取数据 import re #正则表达式 ...

  9. python爬虫爬取豆瓣电影排行榜,并写进csv文件,可视化数据分析

    #1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...

最新文章

  1. 15000个开源项目中挑选Top 12
  2. Linux程序内存跟踪,分享一款Linux进程和内存活动监视神器
  3. PL/SQL Developer连接本地Oracle 11g 64位数据库和快捷键设置
  4. idea+maven下jrebel的安装破解
  5. 网络硬盘录像机和数字硬盘录像机区别(nvr dvr ipc区别)
  6. java.lang.StringIndexOutOfBoundsException: String index out of range: 0错误的原因
  7. PHP操作tcpdf插件生成PDF
  8. ORA-24042 ORA-12545 ORA-26714 bug(Bug 5623403)
  9. VirtualBox启动虚拟机出错VT-x disable
  10. 190115每日一句
  11. ArcGIS:如何创建地理数据库、创建要素类数据集、导入要素类、表?
  12. 电机与拖动matlab仿真,Matlab仿真软件在电机与拖动中的应用
  13. android模仿微信浮窗,Android仿微信视屏悬浮窗效果
  14. 赵小楼《天道》《遥远的救世主》深度解析(123)价格战的目的:是分一杯羹,不是吃肉
  15. NVMe | 热插拔
  16. 深入理解Java虚拟机-Java内存区域与内存溢出异常
  17. 医疗管理系统-检查组管理
  18. 加州大学圣地亚哥分校计算机科学排名,加州大学圣地亚哥分校计算机科学硕士排名第18(2020年TFE Times排名)...
  19. Http详解,2021年是做Android开发人员的绝佳时机
  20. DIV+CSS中标签dl dt dd常用的用法

热门文章

  1. bitcomet下载|bitcomet(比特彗星)下载
  2. 和黄医药上海张江创新药生产基地开工,产能可达苏州基地五倍
  3. 爬虫(6)-使用selenium爬取淘宝天猫商品信息(价格,销售量等)
  4. ARCGIS批量矢量裁剪.
  5. 那些年我们熬夜打造一可收缩流式标签控件
  6. 家电行业如何利用crm客户管理系统提升销售水平?
  7. 企业如何快速地制作出电子产品宣传册?
  8. 使用WINSOCK的网络通信模拟程序 (客户机端)
  9. os.path.exists()对大小写是否敏感的问题
  10. “扔瓶子”手残党们有救了