爬取豆瓣电影top250

平时不知道看什么电影，正好最近学习了爬虫，自己试着把电影排行下载下来，边看边学两不误。
下面直接上代码：

import requests
from bs4 import BeautifulSoup# 爬取网页源码
def download_page(url):headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}req = requests.get(url=url, headers=headers)return req.content# 爬取单页电影名返回列表
def get_page_list(html):soup = BeautifulSoup(html, 'lxml')# find方法返回的是第一个符合条件的元素movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})movie_name_list = []# find_all 返回所有符合条件的元素for movie_li in movie_list_soup.find_all('li'):movie_name = movie_li.find('span', attrs={'class': 'title'}).getText()movie_num = movie_li.find('em').getText()movie_score = movie_li.find('span', attrs={'class': 'rating_num'}).getText()movie_name_list.append('%s.%s score: %s分' % (movie_num, movie_name, movie_score))return movie_name_list# 保存文件
def write_file(url):with open('douban_top_movies.txt', 'a', encoding='utf-8') as f:html = download_page(url)movies = get_page_list(html)for movie in movies:f.write(str(movie) + '\n')def main():# 通过分析发现每一页地址的'start='后的数字不同，每页递增25正是每一页所含有的电影数，通过遍历即可爬取每一页for n in range(0, 250, 25):page_url = 'http://movie.douban.com/top250?start=%d&filter=' % nwrite_file(page_url)if __name__ == '__main__':main()

效果如图：

爬取豆瓣电影排行榜top250相关推荐

Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中
概述利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中使用pymongo库操作MOngodb数据库没有进行数据清洗源码 items.py class Dou ...
爬取豆瓣电影排行榜，并制作柱状图与3d柱状图
**爬取豆瓣电影排行榜,并简单制作柱状图一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...
python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)
''' 爬取豆瓣电影排行榜设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...
python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
[爬虫] 爬取豆瓣电影排行榜
申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删爬取豆瓣电影排行榜这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理这次我们要做例子的网站 ...
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片，分别保存到csv文件和文件夹中
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...
爬取豆瓣电影排行top250
功能描述V1.0: 爬取豆瓣电影排行top250 功能分析: 使用的库 1.time 2.json 3.requests 4.BuautifulSoup 5.RequestException 上机实验 ...
第一次练手爬取豆瓣电影排名top250
从b站看了如何爬取豆瓣电影top250的视频,就是跟着练习实现了,就把代码贴了一下. from bs4 import BeautifulSoup #网页解析,获取数据 import re #正则表达式 ...
python爬虫爬取豆瓣电影排行榜，并写进csv文件，可视化数据分析
#1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...

爬取豆瓣电影排行榜top250

爬取豆瓣电影top250

爬取豆瓣电影排行榜top250相关推荐

最新文章

热门文章