爬取豆瓣电影排行榜top250
爬取豆瓣电影top250
平时不知道看什么电影,正好最近学习了爬虫,自己试着把电影排行下载下来,边看边学两不误。
下面直接上代码:
import requests
from bs4 import BeautifulSoup# 爬取网页源码
def download_page(url):headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}req = requests.get(url=url, headers=headers)return req.content# 爬取单页电影名返回列表
def get_page_list(html):soup = BeautifulSoup(html, 'lxml')# find方法返回的是第一个符合条件的元素movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})movie_name_list = []# find_all 返回所有符合条件的元素for movie_li in movie_list_soup.find_all('li'):movie_name = movie_li.find('span', attrs={'class': 'title'}).getText()movie_num = movie_li.find('em').getText()movie_score = movie_li.find('span', attrs={'class': 'rating_num'}).getText()movie_name_list.append('%s.%s score: %s分' % (movie_num, movie_name, movie_score))return movie_name_list# 保存文件
def write_file(url):with open('douban_top_movies.txt', 'a', encoding='utf-8') as f:html = download_page(url)movies = get_page_list(html)for movie in movies:f.write(str(movie) + '\n')def main():# 通过分析发现每一页地址的'start='后的数字不同,每页递增25正是每一页所含有的电影数,通过遍历即可爬取每一页for n in range(0, 250, 25):page_url = 'http://movie.douban.com/top250?start=%d&filter=' % nwrite_file(page_url)if __name__ == '__main__':main()
效果如图:
爬取豆瓣电影排行榜top250相关推荐
- Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中
概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...
- 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图
**爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...
- python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)
''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...
- python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
- [爬虫] 爬取豆瓣电影排行榜
申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删 爬取豆瓣电影排行榜 这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理 这次我们要做例子的网站 ...
- python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...
- 爬取豆瓣电影排行top250
功能描述V1.0: 爬取豆瓣电影排行top250 功能分析: 使用的库 1.time 2.json 3.requests 4.BuautifulSoup 5.RequestException 上机实验 ...
- 第一次练手爬取豆瓣电影排名top250
从b站看了如何爬取豆瓣电影top250的视频,就是跟着练习实现了,就把代码贴了一下. from bs4 import BeautifulSoup #网页解析,获取数据 import re #正则表达式 ...
- python爬虫爬取豆瓣电影排行榜,并写进csv文件,可视化数据分析
#1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...
最新文章
- 15000个开源项目中挑选Top 12
- Linux程序内存跟踪,分享一款Linux进程和内存活动监视神器
- PL/SQL Developer连接本地Oracle 11g 64位数据库和快捷键设置
- idea+maven下jrebel的安装破解
- 网络硬盘录像机和数字硬盘录像机区别(nvr dvr ipc区别)
- java.lang.StringIndexOutOfBoundsException: String index out of range: 0错误的原因
- PHP操作tcpdf插件生成PDF
- ORA-24042 ORA-12545 ORA-26714 bug(Bug 5623403)
- VirtualBox启动虚拟机出错VT-x disable
- 190115每日一句
- ArcGIS:如何创建地理数据库、创建要素类数据集、导入要素类、表?
- 电机与拖动matlab仿真,Matlab仿真软件在电机与拖动中的应用
- android模仿微信浮窗,Android仿微信视屏悬浮窗效果
- 赵小楼《天道》《遥远的救世主》深度解析(123)价格战的目的:是分一杯羹,不是吃肉
- NVMe | 热插拔
- 深入理解Java虚拟机-Java内存区域与内存溢出异常
- 医疗管理系统-检查组管理
- 加州大学圣地亚哥分校计算机科学排名,加州大学圣地亚哥分校计算机科学硕士排名第18(2020年TFE Times排名)...
- Http详解,2021年是做Android开发人员的绝佳时机
- DIV+CSS中标签dl dt dd常用的用法