通过豆瓣API爬取北美票房榜
import urllib.request as request
import json #完整代码
url = 'https://api.douban.com/v2/movie/us_box' #开放的api接口地址
crawl_content=request.urlopen(url).read()
top20 = json.loads(crawl_content.decode('utf-8'))['subjects']#json解析我们想要获取的内容# print(top20)
for movie in top20:
# print(movie['subject']['id']) #相对应电影的id在嵌套的json里面
# print()url='https://api.douban.com/v2/movie/'+movie['subject']['id'] #相对应电影的地址print(url)mobieContent = request.urlopen(url).read()print(json.loads(mobieContent.decode('utf-8'))['title']+':'+json.loads(mobieContent.decode('utf-8'))['rating']['average'])
# 获取对应电影的名称和分数
查看豆瓣开放的API:
豆瓣开发者文档:https://developers.douban.com/wiki/?title=movie_v2#simple-subject
我们可以看到:如下图我们需要的信息。
通过运行以下代码段我们可以看到JSON的结构,
import urllib.request as request
import json
url = 'https://api.douban.com/v2/movie/top250 '
crawl_content = request.urlopen(url).read()
top20 = json.loads(crawl_content.decode('utF-8'))['subjects']
print(top20)
如下图:json有个嵌套结构,我们需要获取的id在嵌套的subect下面。因此我们用如下代码获取到指定的页面:
import urllib.request as request
import json
url = 'https://api.douban.com/v2/movie/us_box'
crawl_content=request.urlopen(url).read()
top20 = json.loads(crawl_content.decode('utf-8'))['subjects']print(top20)
for movie in top20:
# print(movie['subject']['id']) 这里可以测试一下输出电影的id
# print()url='https://api.douban.com/v2/movie/'+movie['subject']['id'] #在这里指定url的地址print(url) #测试一下
上面代码获取的网址直接输入网页可以得到类似下图:
得到我们想获得的电影名城和得分
print(json.loads(mobieContent.decode('utf-8'))['title']+':'+json.loads(mobieContent.decode('utf-8'))['rating']['average'])
通过豆瓣API爬取北美票房榜相关推荐
- 小试牛刀--利用豆瓣API爬取豆瓣电影top250
最近得赶进度爬点东西,对于豆瓣,它为开发者提供了API,目前是v2版本,目前key不对个人开放,但是可以正常通过其提供的API获取数据.豆瓣V2版API权限分3类:公开.高级.商务,我们用开放基本数据 ...
- scrapy爬取QQ音乐榜单歌曲及豆瓣电影信息。
系列文章目录 第一章 scrapy爬取起点中文网24小时热销榜单. 第二章 scrapy爬取苏州二手房交易信息. 第三章 scrapy爬取QQ音乐榜单歌曲及豆瓣电影信息. 目录 系列文章目录 前言 一 ...
- html登录界面设计代码_Python登录豆瓣并爬取影评
Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自定义设置.主题等) 浏览器行为跟踪(如跟踪分 ...
- python爬虫阶段性总结和项目实操——爬取猫眼票房Top100
本博客通过爬取猫眼票房Top100来简要复习一下网页的HTML获取(requests库)解析(Beautiful Soup库)和数据保存(csv库)以及总结一下爬取过程中遇到的问题和解决方法 运行结果 ...
- python爬虫:爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
- 【python爬虫自学笔记】(实战)----爬取猫眼电影榜单Top100
目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...
- 使用PHP+QueryList 爬取猫眼电影榜单信息
爬虫是我一直以来跃跃欲试的技术,现在的爬虫框架很多,比较流行的是基于python,nodejs,java,C#的的框架,其中又以基于python的爬虫流行最为广泛,还有的已经是一套傻瓜式的软件操作,如 ...
- 用Python爬取2019富豪榜数据分析
本文转自公众号『简说Python』,详情请扫码关注该公众号: 零 写在前面 前面三篇文章讲了数据分析虚拟环境创建和pandas读写CSV.TSV.JSON.Excel.XML格式的数据,今天我们继续探 ...
- java爬虫黑马百度云,Java爬虫小Demo java爬取百度风云榜数据
Java爬虫小Demo java爬取百度风云榜数据 很简单的一个小例子,使用到了java的爬虫框架 jsoup ,一起啦看看实现的方法吧! 相关推荐:Python爬虫实战 python爬虫爬取百度风云 ...
最新文章
- Zabbix监控Windows客户端设置
- u盘魔术师装linux,使用U盘魔术师安装Win7系统教程
- 探秘Tomcat(一)——Myeclipse中导入Tomcat源码
- Vue学习(watch、computed、生命周期、filter)- 学习笔记
- OpenCV 中的图像处理
- Apache Ignite本机持久性,简要概述
- python 定时器_python定时器apscheduler及一个django的小tips
- java anotherstring_徐葳【2019版最新】40小时掌握Java语言之06String类
- oss上传判断_OSS
- 如何截取滚动的页面,窗口
- Javascript使用模板字符串,find,findIndex,some,every查找数据以及map,filter过滤数据,reduce求和或平均值
- 多恩布什《宏观经济学》第十三版笔记和课后答案
- 机顶盒抓包(无法连接WIFI的设备)
- Cadence PSpice 仿真8:带阻滤波器温度分析仿真实战图文教程
- PMSM电机学习记录--矢量控制之滞环电流控制(Bang-Bang控制)
- WebBrowser 怎么样可以不保存SESSION?急!!!!!!!!!!!!
- redis实战(12):Redis性能监控指标汇总
- oracle 创建 permanent tablespace
- No SQL 数据库
- 安卓3d游戏开发引擎_从德军总部3D到虚幻5,游戏引擎能有多大的飞跃?
热门文章
- HJ88 扑克牌大小
- “===”、“==” 的区别
- 放弃使用禁用驱动强制签名了,建议申请驱动签名证书
- 互联网促进全民公益时代的到来
- 计算机链接手机网络游戏,怎么用手机玩Wegame电脑游戏 Wegame手机玩电脑游戏方法分享...
- [Ynoi2019]魔法少女网站
- 行政科购入计算机一台,行政单位会计分录练习题.doc
- ::before 和:after的区别
- 《SQL与关系数据库理论——如何编写健壮的SQL代码》一3.7 TABLE_DUM和TABLE_DEE
- breakpad 的dum文件的解析及demo的编译