爬虫获取豆瓣喜剧电影相关信息

利用Requests库爬取豆瓣喜剧电影排行榜前两百部电影的相关信息

首先附上豆瓣电影的网站链接：
思考步骤：
最后附上本文的代码：
前200部电影结果展示：

首先附上豆瓣电影的网站链接：

链接: link.

思考步骤：

右键网页 + 点击检查：

当我们下拉到第20部电影(蓝色圈)的时候可以发现右边 network里面出现了请求
可以观察到页面请求是get 并且内容的格式(Content-Type) 为json

get() 请求里是不是可以添加params 参数呢
所以我们自定义params参数通过get请求返回给网页

param = {'type': '24','interval_id': '100:90','action': '','start': 0,'limit': '20'}

通过返回这样的参数我们可以获取前20部电影的相关信息

在抓取到页面的资源后利用json格式获取数据:

如何获取json里面的数据？
easy: 我们通过取字典里面内容的方式就可以了

print(response.json()[0].get('title'))
print(response.json()[0].get('score'))
print(response.json()[0].get('regions'))

最后附上本文的代码：

#  在下拉的过程中 页面ajax动态刷新页面 利用抓包工具查看返回内容类型 get请求 返回特定的参数即可
import requests
import json
import pandas as pdif __name__ =="__main__":# 爬取豆瓣喜剧电影排行榜前200步电影的相关信息df = pd.DataFrame(columns=['电影名','评分','地区','地址','发布日期','评论人数'])url = 'https://movie.douban.com/j/chart/top_list'  # 豆瓣电影地址headers =  {"User-Agent" :"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}  # 利用 headers进行伪装for num in range(0,181,20):   # 页面是ajax动态刷新的 每下拉到二十部 就刷新一次页面  所以181的下标 包含了前200部param = {'type': '24','interval_id': '100:90','action': '','start': num,'limit': '20'}response = requests.get(url=url,params=param,headers=headers)   # 页面为get请求 可以在网站的headers中看到content=response.json()  # Content-Type 为 json格式的数据 length=len(content)for i in range(0,length):s = pd.Series({'电影名':content[i].get('title'),'评分':eval(content[i].get('score')), '地区':content[i].get('regions')[0] , '地址':content[i].get('url'),'发布日期':content[i].get('release_date'),'评论人数':content[i].get('vote_count')})df = df.append(s, ignore_index=True)# 这里必须选择ignore_index=True 或者给 Series 一个index值df.to_csv('./douban_movie.csv',encoding='utf-8',index=False,index_label=None)

前200部电影结果展示：

爬虫获取豆瓣喜剧电影相关信息相关推荐

微博数据爬虫——获取用户微博相关信息（四）
任务:给定u_id,获取用户每条微博的mid.发布时间.照片数.@数.链接数 1.获取微博信息查看网页源代码,发现数据保存在js中利用正则匹配可以实现获取单条微博全部信息 add = urllib ...
python爬虫获取豆瓣图书Top250
在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...
Java爬虫获取豆瓣的短评数据
Java爬虫获取豆瓣的短评数据打开豆瓣的选电影页面的链接,可以看到该网页的下面分为热门,最新,经典等栏目分类,网页每次显示20部电影,通过几部电影的查看,可以发现电影的短评页https://movi ...
某投诉网站爬虫-获取对应的投诉信息
某投诉网站爬虫-获取对应的投诉信息此爬虫原本是一道面试题,说难不难,说简单也不简单:因为站点的反爬机制,我现在也没摸清楚,不过目前看来应该是你在一段时间内访问数据超过对应的数量就会封ip 5-10分 ...
使用Python爬虫获取豆瓣影评，并用词云显示
使用Python爬虫获取豆瓣影评,并用词云显示 Python语言流行到现在,目前最受开发者喜爱的功能莫过于它的爬虫功能,以至于很多人以为Python的英语发音也是"爬虫",其实它是 ...
Scrapy 框架获取豆瓣电影的信息(包括图片)和电影评论-1
文章目录一.项目目录二.定义爬取结果存储的数据结构(items.py) 电影信息评论信息三.爬取到结果后的处理类(spiders 文件夹) 电影信息(movieInfo.py) 评论信息(co ...
获取Java系统相关信息
1 package com.test; 2 3 import java.util.Properties; 4 import java.util.Map.Entry; 5 6 import org.ju ...
mysql 获取操作系统信息_php获取服务器操作系统相关信息的方法
这篇文章主要介绍了php获取服务器操作系统相关信息的方法,涉及php针对服务器端预定义变量及系统函数的使用技巧,需要的朋友可以参考下本文实例讲述了php获取服务器操作系统相关信息的方法.分享给大家供 ...
python爬虫获取肯德基门店信息
python爬虫获取肯德基门店信息 1.在谷歌浏览器中打开肯德基官网,进入餐厅查询页面 2.在搜索框中输入地区并按f12打开开发者工具发现已经抓取到了一条Ajax请求,可以从中获取请求的url,以及 ...

爬虫获取豆瓣喜剧电影相关信息

利用Requests库爬取豆瓣喜剧电影排行榜前两百部电影的相关信息

首先附上豆瓣电影的网站链接：

思考步骤：

最后附上本文的代码：

前200部电影结果展示：

爬虫获取豆瓣喜剧电影相关信息相关推荐

最新文章

热门文章

爬虫获取豆瓣喜剧电影相关信息

利用Requests库爬取豆瓣喜剧电影排行榜 前两百部电影的相关信息

首先附上豆瓣电影的网站链接：

思考步骤：

最后附上本文的代码：

前200部电影结果展示：

爬虫获取豆瓣喜剧电影相关信息相关推荐

最新文章

热门文章

利用Requests库爬取豆瓣喜剧电影排行榜前两百部电影的相关信息