豆瓣Top250电影名怎么爬

参考博文：https://www.cnblogs.com/leon507/p/7614345.html

怎么实现

因为没有系统学习过，所以只能做搬运工。看了几篇有关爬取豆瓣Top250的电影信息，这篇是最简单易懂的了，所以摘过来学习学习。但这个博主的代码只是爬了电影名，然后也没有将爬到的数据保存到本地，那我就在他的基础上加了几行代码，将数据保存到本地了。

首先爬虫三部曲？
第一，requests爬取网页的HTML信息
第二，解析HTML。解析有很多种方法>_<
第三，保存本地

翻页信息
第一页：https://movie.douban.com/top250?start=0&filter=
第二页：https://movie.douban.com/top250?start=25&filter=
第三页：https://movie.douban.com/top250?start=50&filter=
第十页：https://movie.douban.com/top250?start=225&filter=

所以翻页规律就是 25*i （i+1）表示第几页

在网页源代码中定位需要爬取的信息

代码如下

加了一点自己的解释>_<

import requests
from bs4 import BeautifulSoup
def get_movies(): #定义一个函数来爬取数据headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36','Host': 'movie.douban.com'}movie_list = []     #定义一个空列表，放电影名                                                  #定义序列for i in range(0, 10):#遍历页数，0表示第一页url = 'https://movie.douban.com/top250?start=' + str(i * 25)     #通过循环，下载第二页，第三页r = requests.get(url, headers=headers, timeout=10)  #爬虫第一步，requests发送请求，爬取HTML信息             #timeout=10，响应时长print(str(i + 1), "页响应状态码:", r.status_code)                   #显示状态码，返回200，请求成功soup = BeautifulSoup(r.text, "lxml")  #爬虫第二步，解析数据div_list = soup.find_all('div', class_='hd')                     #如下图显示，电影名字在div标签之后for each in div_list:movie = each.a.span.text.strip()                              #span后的文本movie_list.append(movie)                                      #append(movie)，在movie_list中添加movie序列return movie_list
movies = get_movies() print(movies)
import pandas as pd
df = pd.DataFrame(movies)
#df.to_csv('doubanTop250Movies_name.csv') 不知道为啥这个文件打开后乱码
df.to_excel('doubanTop250Movies_name.xlsx')

结果如下

总的来说就是要查看要爬取的信息在网页源代码中是如何显示的，再根据规律写爬取的代码>_<

task1 - 爬取豆瓣Top250电影名相关推荐

python爬虫--爬取豆瓣top250电影名
关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝. 1 import requests 2 from bs4 import ...
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
scrapy爬取豆瓣top250电影数据
scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...
Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息前言双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
python采用requests+bs4爬取豆瓣top250电影信息
爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...
Python爬虫菜鸟入门，爬取豆瓣top250电影（自己学习，如有侵权，请联系我删除）
Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...
Python爬取豆瓣Top250电影可见资料并保存为excel形式
Python爬取豆瓣Top250电影可见资料并保存为excel形式利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...
爬取豆瓣Top250电影
爬取豆瓣Top250电影数据一直是爬虫小白的入门练手项目,下面就来分享一下自己的爬取过程. 开始之前,先简单写一下需求和实现思路. 需求: 爬取豆瓣电影Top250的数据,数据包含排名.电影名称.导演 ...
爬取豆瓣top250电影并分析
爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓爬取数据需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

task1 - 爬取豆瓣Top250电影名

豆瓣Top250电影名怎么爬

怎么实现

代码如下

结果如下

task1 - 爬取豆瓣Top250电影名相关推荐

最新文章

热门文章