PY爬取2020年电影票房排行

思路：用requests库获取对应页面的源码，用beautifulSoup库筛选出想要的信息，再用matplotlib库实现数据可视化。
下面直接呈现源码：

import requests
from bs4 import BeautifulSoup
from matplotlib import pyplot as plt
from matplotlib import font_managerallUniv = []
x = []
y = []#获取指定网址的页面源码
def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = 'utf-8'return r.textexcept:return ""#筛选出网页中《td》标签中的信息，并存放到列表allUniv中
def fillUnivList(soup):data = soup.find_all('tr')#data类型是bs4.element.ResultSetfor tr in data:# print(tr)ltd = tr.find_all('td')#类型是bs4.element.ResultSetif len(ltd)==0:continuesingleUniv = []for td in ltd:# print(td.string)singleUniv.append(td.string)allUniv.append(singleUniv)#控制台打印结果
def printUnivList(num):print("{:<6}{:<30}{:<40}{:<8}".format("年度排名","历史排名","电影名称","上映年份"))for i in range(num):u=allUniv[i]print("{:<6}{:<30}{:<40}{:<8}".format(u[0],u[1],u[2],u[6]))#将电影名称，历史排名放到x,y列表
def fix(num):for i in range(num):u = allUniv[i]x.append(u[2])y.append(u[1])#将数据可视化
def draw():my_font = font_manager.FontProperties(fname="C:/WINDOWS/Fonts/MSYH.ttc")#设置图片大小plt.figure(figsize=(20, 15), dpi=80)#画柱状图plt.bar(range(len(x)),y,width=0.3)# plt.barh(range(len(x)), y, height=0.3)#设置x轴刻度和字样plt.xticks(range(len(x)),x,fontproperties=my_font,rotation=70)# 添加描述信息plt.xlabel("电影名称", fontproperties=my_font)plt.ylabel("历史排名", fontproperties=my_font)plt.title("2020最火的电影排行", fontproperties=my_font)# 绘制网格plt.grid(alpha=0.3)  # 里面的第一个参数设置透明度#展示plt.show()#调用上面的所有方法，实现爬取，显示
def main():url = 'http://58921.com/alltime/2020'html = getHTMLText(url)soup = BeautifulSoup(html, "html.parser")fillUnivList(soup)printUnivList(20)fix(20)draw()if __name__ == '__main__':main()

运行的效果如下：

PY爬取2020年电影票房排行相关推荐

如何利用 C# 爬取「猫眼电影专业版：票房」数据！
在现代生活中,看电影已经成为大家的一种休闲方式. 前几天,我们介绍了如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息!,通过这份"热映口碑"榜单,我们可以看到大家对当前 ...
如何利用 C# 爬取「猫眼电影：国内票房榜」及对应影片信息！
以前我写过一些爬取猫眼电影数据的图文: 如何利用 C# 爬取「猫眼电影专业版:票房」数据? 如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息? 如何利用 C# 爬取「猫眼电影:最受期待榜」及 ...
JAVA模拟电影票房,Neo4j入门之中国电影票房排行浅析
什么是Neo4j? Neo4j是一个高性能的NoSQL图形数据库(Graph Database),它将结构化数据存储在网络上而不是表中.它是一个嵌入式的.基于磁盘的.具备完全的事务特性的Java持久化 ...
Neo4j入门之中国电影票房排行浅析
什么是Neo4j? Neo4j是一个高性能的NoSQL图形数据库(Graph Database),它将结构化数据存储在网络上而不是表中.它是一个嵌入式的.基于磁盘的.具备完全的事务特性的Java持 ...
python学习之爬取ts流电影
爬取ts流电影文件记录需求程序结构目录编写代码基本思路代码编写优化需求 **前言**最近学习Python,语法规则.变量等也看完了,但是觉得啥也没记住,打开py不知道写啥,只能print ...
Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评
Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影<后来的我们>热门短评目录输出结果实现代码输出结果实现代码 # -*- coding: ...
scrapy爬取豆瓣top250电影数据
scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...
爬虫实战（一）利用scrapy爬取豆瓣华语电影
爬虫第一个项目是爬取豆瓣华语电影,后面将对这部分数据进行分析. 本文也是发表于『运筹OR帷幄』微信公众号的<用数据带你了解电影行业-华语篇>的爬虫介绍篇. 1. 爬取思路在观察了豆瓣每个 ...
携程酒店数据爬取2020.5
携程酒店数据爬取2020.5 1. 开题目前网上有好多爬取携程网站的教程,大多数通过xpath,beautifulsoup,正则来解析网页的源代码.然后我这个菜b贪方便,直接copy源码的xpath ...

PY爬取2020年电影票房排行

PY爬取2020年电影票房排行相关推荐

最新文章

热门文章