小白级别的爬虫入门

最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件。

爬虫开始之前

我们先来看看猫眼专业版-实时票房这个网页,看看我们要爬取的数据,分析网页的结构和查看源码。

(1)网页链接:https://piaofang.maoyan.com/dashboard

(2)爬取的数据:红框框里面的数据就是我们想要的

3)查看网页源码:从网页源码中看到我们想要的数据并没有存在,所以通过直接的爬虫爬取数据,也只是获到这部分内容(有试过),这是因为数据是动态加载的。

(4)分析数据是以什么方式出现:检查元素,点击network,再进行刷新,你就会发现这时候会加载一个json文件

json文件的url:https://box.maoyan.com/promovie/api/box/second.json,是动态来加载数据的。从文件中我们就可以看到了我们想要爬取的数据,数据存储在为“list”的关键字里面,接下来我们每次爬取数据就只要抓取这个json文件来进行数据的分析和处理即可

爬虫开始

库的选择:BeautifuSoup、urllib.request、json、pygal

部分代码:

# 打开网页,获取源码
def open_page(url):try:netword=urlopen(url)except HTTPError as hp:print(hp)else:# 采用BeautifulSoup来解析,且指定解析器html=bs(netword,'lxml')return html# 获取网页数据
def get_page(url):# 电影名称,上映天数,电影总票房,票房占比,排片场次,排片占比,场均人次,上座率 movieName,releaseInfo,sumBoxInfo,boxInfo,boxRate,showInfo,showRate,avgShowView,avgSeatView=[],[],[],[],[],[],[],[],[]html=open_page(url)p=html.find('p')text=p.get_text()# 将数据转换为python能够处理的格式jsonObj=json.loads(text)# 获取字典里面特定的键对应的键值data=jsonObj.get('data')# 想要的数据就在字典的键"list"对应的值lists=data.get('list')# print(type(lists)==type([]))判断类型for list in lists:# 获取字典里面特定的键对应的键值,并存储到列表中去movieName.append(list.get('movieName'))releaseInfo.append(list.get('releaseInfo'))sumBoxInfo.append(list.get('sumBoxInfo'))boxInfo.append(list.get('boxInfo'))boxRate.append(list.get('boxRate'))showInfo.append(list.get('showInfo'))showRate.append(list.get('showRate'))avgShowView.append(list.get('avgShowView'))avgSeatView.append(list.get('avgSeatView'))return movieName,

就这样吧,把要爬取的数据全部存储到列表中去了,最终的实现结果(只是处理了两个数据,总票房和综合票房,做出svg文件):

总票房:

综合票房:

完整代码链接:https://pan.baidu.com/s/1SI2IKuGJS8Z5NJPwzVGk1w 密码:vrif

python爬虫实战--爬取猫眼专业版-实时票房相关推荐

  1. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  2. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  3. python爬虫实战-爬取视频网站下载视频至本地(selenium)

    #python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...

  4. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  5. 【Python爬虫】爬取猫眼电影票房

    题记 本文旨在记录爬取猫眼电影国内票房榜单的过程,以及对脚本内字体文件反爬函数的说明. 环境 系统: Windows 10 Python版本: Python 3.7 爬取时间: 2019.3.19 难 ...

  6. 【Python爬虫】爬取猫眼电影排行榜并存放至csv文件

    在进行本节实战之前,希望您对requests库以及正则表达式有所了解. 运行平台:windows **Python版本: Python3.x ** 一.依赖库的安装 在本节实战之前,请确保已经正确安装 ...

  7. python爬虫,爬取猫眼电影1(正则表达式)

    本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...

  8. python爬取动态加载的网页之爬取猫眼电影实时票房

    <猫眼电影实时票房>这个网页是通过动态加载的数据,大约4秒钟就要请求一次服务器,上面的数据每次请求都会产生变化,如果直接用requests请求它的html源代码,并获取不了它的数据. 网页 ...

  9. python爬虫:爬取猫眼TOP100榜的100部高分经典电影

    1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...

最新文章

  1. [转载] Intention scheduling for BDI agent systems
  2. 网页版python叫什么-我不想浏览网页,那么我就用Python实现网页自动化朗读!
  3. Linux及安全课程——相关链接总结
  4. cocos2d-x史上最著名的诗
  5. linux 修改php配置,PHP部署时的几个配置修改说明
  6. 程序员到CTO需要准备什么
  7. 将爬取到的数据存入数据框并导出
  8. js正则表达式校验手机号码和电话号码
  9. DIY_实现光敏电阻传感器简单控制LED
  10. Tensorflow的ckpt转为npy格式的代码
  11. HTML 内联元素之间的空隙问题
  12. ppt矩形里面的图片怎么放大缩小_如何在PPT中插入大量图片而又保持其美感?
  13. 管中窥豹之淘宝大数据平台
  14. Ubuntu Server 22.04 Jammy Jellyfish安装Budgie桌面环境
  15. 小米3的卡槽,卡住了
  16. Java SE菜鸟之异常
  17. 【CCS仿真系列教程】手把手教你纯软件仿真实现音频滤波
  18. Scoop包管理工具
  19. php手写签名保存,PHP+JS实现PC端+移动端PDF手写签名合并
  20. Qt读写Excel--QXlsx基本使用1

热门文章

  1. Ubuntu下与openvpx相关的目录和文件
  2. 导出备忘录Word文档
  3. 03 ,线性代数 :集合,空间,群,阿贝尔群,向量,向量空间
  4. 微软正式宣布 Visual Studio 2022!
  5. Chrome浏览器 设置跨域访问
  6. 电商工具箱之淘宝黑号库
  7. vue做移动端适配最佳解决方案,亲测有效
  8. python 使用图形化界面tkinter显示图片 规定大小!
  9. 华为手机SD卡升级指导
  10. Ubuntu释放缓存/内存和显存