数据科学俱乐部

中国数据科学家社区

作者:徐麟,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据。

前言:

随着社会的发展,越来越多的电视剧出现在了电视的荧幕或是视频网站。其中有许多的精品,例如经久不衰的《西游记》《红楼梦》,亦或是近年来口碑十分不错的《琅琊榜》《白夜追凶》,然而也有一些电视剧,因为种种原因,并不是很尽如人意。

今天我们通过爬取豆瓣上近5000部有评分的国产电视剧(不包括港台剧),对比一下剧集以及参演演员的评分情况。

01

数据来源

本次我们爬取的数据来源主要分为三个部分:分别是有评分的剧集列表、剧集评分及其他信息、演员信息,对应如下三个页面:

PART1:剧集列表

PART2:剧集信息

PART3:演员信息

通过爬取以上三个页面的数据,我们可以获得完整的电视剧评分及演员信息数据,用于之后的数据对比及可视化,我们以爬取第一部分的代码为例,展示整体爬取思路:

driver = webdriver.Chrome()driver.maximize_window()    driver.close() driver.switch_to_window(driver.window_handles[0])  url = 'https://movie.douban.com/tag/#/?sort=U&range=2,10&tags=%E7%94%B5%E8%A7%86%E5%89%A7,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86'js='window.open("'+url+'")'driver.execute_script(js)driver.close() driver.switch_to_window(driver.window_handles[0])while True:   try:      js="var q=document.documentElement.scrollTop=10000000"       driver.execute_script(js)     driver.find_element_by_class_name('more').click()     time.sleep(2)   except:     break 

name = [k.text for k in driver.find_elements_by_class_name('title')]   score = [k.text for k in driver.find_elements_by_class_name('rate')]   url = [k.get_attribute('href') for k in driver.find_elements_by_class_name('item')]  pd.DataFrame({'name':name,'score':score,'url':url}).to_excel('电视剧名称.xlsx')

02

剧集对比

我们在剧集对比部分主要展示两部分数据,首先是TOP15以及BOTTOM15的剧集评分及拍摄年代:

可以看到十分鲜明的对比,评分较高的剧集大多拍摄年份剧集都有一定的年头,并且历经时间的考验,愈发展示其独特的魅力。相反,一些评分较低的剧集,往往都是近年来拍摄的,可能这也与剧集增多有关。需要提醒的是榜单中的《寻秦记》不是古天乐版本,那是经典中的经典,至于榜单中出现的版本,大家可以有机会亲自去了解一下

正所谓没有无缘无故的爱,也没有无缘无故的恨,我们也选取了豆瓣当中对于剧集的一些有意思的点评。通过点评,让我们了解这些评分产生的原因:

TOP篇:

1

许多年以后观看发现,其中造型与性格塑造完美,准确把握原著,时代影响力巨大,印象极其深刻。------《西游记》

2

老一代影艺人是以一种虔诚的态度对待红楼梦的,87版之后,世间再无真人版红楼。------《红楼梦》

3

这就是我的圣经,思想启蒙之作 ------《我爱我家》

4

鞋儿破 帽儿破 身上的袈裟破 你笑我 他笑我 一把扇儿破 经典 ------《活佛济公》

5

绝对是国产情景喜剧无法超越的巅峰之作!其中每个角色都是无法复制的! ------《武林外传》

BOTTOM篇:

1

没见到甜蜜,倒是这个演技每一秒都是暴击 ------《甜蜜暴击》

2

现在还是有这么多粗糙的偶像剧,玩了几十年的老套桥段还在用 ------《极光之恋》

3

瞟了半集被吓死了,演技跟痴呆似的= = ------《路跑甜心》

4

剧情奇葩,演技浮夸,特技粗糙。一剧融合了以上的所有元素,导演简直就是演艺圈的火锅店老板 ------《来自星星的继承者们》

5

于妈拍的那版.....其实还挺好看的! ------《新笑傲江湖》

03

演员对比

我们此次根据演员参演的剧集评分,考虑演员在其中角色的重要性进行赋权,结合剧集评论数量,加权平均得到每个演员的评分情况。首先是我们评选的评分靠前的演员及其出生年份:

估计大部分年轻的读者,可能对这些名单中的演员很多都不是很熟悉,在此小编建议各位可以去看一下这些老戏骨的剧集,感受他们所散发的魅力。同时我们也专门对比了下80后、90后(包含00后)的评分,找寻其中的佼佼者:

刘昊然在评分中领跑其他的90后,考虑到其今年只有20岁出头,我们也期望他在未来能给我们带来更多经典的作品。

可能很多读者对TOP20的演员并不是很熟悉,其实大可不必,因为下面的榜单中相信大多都会是你所熟悉的:

想必看到这里,各位会找到熟悉的感觉,我们相信榜上的各位演员其实也是最具潜力的演员。只要努力雕琢演技,未来一定会受到观众对其演技的认可,我们同时分别对比了一下男、女演员:

在此需要指出的是,余文乐和赵又廷上榜并不是因为其剧集评分真的偏低,主要是其参与的大陆制作剧集评分较低,并且我们此次没有统计港台剧。我们也希望榜单中的各位演员未来更加精彩的表现。

04

星座分布

感谢豆瓣给我们提供了演员星座的数据,小编周围也有许多对星座十分感兴趣的朋友,不妨我们看一下星座的分布情况:

看来星座整体分布还是比较平均的,只是天秤座和天蝎座略多于其他星座,关于星座,至于你信不信,反正小编是不怎么信的

关于矩形树图的实现,可以参考以下代码:

from pyecharts import TreeMapstar_stat = actor_data.groupby('xingzuo').agg({'name':'count'}).reset_index().sort_values('name'                              ,ascending=False)[0:12].reset_index()

data = [{'value':star_stat['name'][i],         'name':star_stat['xingzuo'][i]+' '+str(star_stat['name'][i])} for i in range(star_stat.shape[0])]

treemap = TreeMap("星座分布图", width=1200, height=600)treemap.add("星座分布", data, is_label_show=True, label_pos='inside')treemap.render('星座分布.html')

05

城市分布

我们在看完了星座分布之后,再继续来看一下演员的城市分布,看看有多少自己的老乡在参演着电视剧:

不出意外,北京和上海两大中心城市的演员数量也是最多的,而第三名就是小编的家乡青岛了。之前每当小编提及青岛,总是会提起青岛的明星多,这次的数据更加使得小编未来有了交流(chuixu)的底气。

我们下面分别来看一下TOP5的各个城市明星名单:

北京

上海

青岛

哈尔滨

西安

以上就是此次文章的所有内容,也欢迎大家留言与我们分享你对电视剧或者演员的一些看法,等候你的回复

Python中文社区作为一个去中心化的全球技术社区,以成为全球20万Python中文开发者的精神部落为愿景,目前覆盖各大主流媒体和协作平台,与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系,拥有来自十多个国家和地区数万名登记会员,会员来自以公安部、工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司,全平台近20万开发者关注。

Python中文社区公众号底部回复“内推”

获取一周内推技术职位清单

▼ 点击下方阅读原文免费成为社区会员

用Python分析豆瓣,评分最低的演员原来是他相关推荐

  1. 纵观 30 年 5000 多部国产电视剧,豆瓣评分最低的演员原来是……

    作者 | 徐麟 责编 | 胡巍巍 随着社会的发展,越来越多的电视剧出现在了电视的荧幕或是视频网站.其中有许多的精品,例如经久不衰的<西游记><红楼梦>,亦或是近年来口碑十分不错 ...

  2. 纵观30年5000多部国产电视剧,豆瓣评分最低的演员原来是……

    作者介绍:徐麟,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据 个人公众号:数据森麟(ID:shujusenlin) ...

  3. Python爬虫——豆瓣评分8分以上电影爬取-存储-可视化分析

    本文就豆瓣8分以上电影进行爬取-存储-可视化分析. 不足之处欢迎在评论区指出讨论. 当然,如果觉得不错,要帮助的话,还请点个赞. 目录 数据爬取 分析网页 动态网页和静态网页 获取信息 获得二级信息 ...

  4. 手把手教你用Python分析豆瓣电影——以《我不是药神》《邪不压正》为例

    <我不是药神>是由文牧野执导,宁浩.徐峥共同监制的剧情片,徐峥.周一围.王传君.谭卓.章宇.杨新鸣等主演 .影片讲述了神油店老板程勇从一个交不起房租的男性保健品商贩程勇,一跃成为印度仿制药 ...

  5. 疯狂python讲义豆瓣评分_书榜 | 计算机书籍(9.9-9.15)销售排行榜

    原标题:书榜 | 计算机书籍(9.9-9.15)销售排行榜 或作或辍,一曝十寒,则虽读书百年,吾未见其可也. -- 吴梦祥 "书榜"栏目是脚本之家每周推出计算机书籍销量排行榜!数据 ...

  6. R在线性回归中的应用--分析豆瓣评分与票房之间关系的案例研究

    一数据准备 二查看各国影片的票房概况 三通过简单线性回归研究豆瓣评分与票房之间的关系 四小结 一.数据准备 我们需要的票房数据来自CBO中国票房网,中国票房网记录了从2008年到目前为止的每年票房排名 ...

  7. 苹果(maccms V10) Python 采集豆瓣评分直接入库。

    豆瓣评分接口"https://movie.douban.com/j/new_search_subjects?sort=R&range=0,10&tags=&start ...

  8. 牛刀小试:利用Python分析豆瓣电影Top250(一)

    使用Scrapy框架抓取豆瓣电影TOP250信息(https://movie.douban.com/top250). 获取影片信息后对数据进行清洗,手动填补遗漏的电影信息等. 整理完毕后具体信息如下 ...

  9. 用Python盘点那些豆瓣评分低于3.0的奇葩电影

    最近刷抖音,刷到一部抄袭<X战警>电影海报的电影. 连电影海报都需要抄袭,这得是什么烂片! 尝试百度了一下,果然让人哭笑不得,连雷神的麒麟臂都一起抄了. <女娲日记>绝对刷新你 ...

  10. python进阶书籍推荐-豆瓣评分9.4!年度最值得推荐的Python进阶书

    原标题:豆瓣评分9.4!年度最值得推荐的Python进阶书 来自:程序员书库(ID:OpenSourceTop) 编译 链接:https://whatpixel.com/fluent-python-b ...

最新文章

  1. voom: precision weights unlock linear model analysis tools for RNA-seq read counts
  2. boost::sort::pdqsort相关的测试程序
  3. NetCat Tutorials
  4. BZOJ4573:[ZJOI2016]大森林——题解
  5. html制作状态栏数字时钟,html5 canvas制作15种数字时钟样式代码
  6. java性能优化方案_Java性能优化要点
  7. linux入门 适合初学者_经过慎重考虑,我拿出这套适合初学者入门的Java基础完整版视频...
  8. Protocol Buffers proto语言语法说明
  9. 创建目录_Word创建自动目录,你会了吗?
  10. iOS 颜色选择器 仿ps 调色板
  11. python——设置渐变色
  12. 易语言从c盘开始搜索文件夹,易语言递归寻找文件及文件夹
  13. 从概念入手,了解AWS在Iaas、Paas,Saas层的服务
  14. MySQLIntegrityConstraintViolationException异常处理
  15. php项目管理师什么,《项目管理师》填空题题目答案搜索在线
  16. 新发布!易聊 SCRM 正式上线
  17. react 断网提示
  18. 学python能做什么兼职-初学Python到月入过万最快的兼职途径(纯干货)
  19. git实践系列七:迁出和回退
  20. JAVA中使用AES256加密

热门文章

  1. 如何给PDF文件添加水印?
  2. 对象数组中根据某个属性名的值相同,求某一项的和。
  3. 七夕恋人必备表白源码
  4. oracle10g dblink优化,dblink如果很慢可以用这种方式优化
  5. Aruco物体定位(追踪)在UE4中的实现
  6. jQuery手风琴图片轮播(源码+注释)
  7. springboot 配置日志文件
  8. 同事把实数作为 HashMap 的key,领导心态崩了
  9. python词云分析难吗_【python数据挖掘】使用词云分析来分析豆瓣影评数据
  10. 苹果手机科学计算机怎样调用,iOS上的表达式科学计算器Calculator i++使用说明