最近大火的电视剧《延禧攻略》已宣告大结局,除了剧情走心,演员的那些头花啊头饰啊,戏服也都精致无比。本文利用Python抓取互联网上演员的部分数据,分析演员的姓名、星座、身高、体重和籍贯等信息,利用bs+pyecharts绘制词云和玫瑰图。

为什么这么闲?

《延禧攻略》可以说是于正的洗白之作,没有特别的戏说,也没有异想天开的改编,在基本尊重历史事实的基础上,通过魏璎珞(令妃)的视角窥探整个后宫的众生相。可以称得上“管中窥豹,可见一斑”。

某位哲人说过:一个电视剧这么火,背后一定有原因。背后绝对有JQ。又有哲人说过:内因很重要。为此决定现学现卖,抛砖引玉地分析一下演员背后的因素。

1、分析网页

step1:分析网页内容

感谢电视指南网的数据支撑。

通过浏览网页,发现我们所需的演员信息:

step2:分析网页数据格式

通过网页格式,可知所需的信息

<ul class="gclearfix">

<li><a class="mh-pic" href="/14784/role/203516.html" target="_blank"><img height="124" class="mh-img" alt="秦岚" src="http://img.tvzn.com/role/simages/203516.jpg"><span class="mh-role">富察·容音</span><span class="mh-mask"></span></a><p class="mh-title"><a class="mh-actor" href="/person/553.html">秦岚</a>饰演</p></li>

为此,可利用beautifulsoup查找关键信息:

contents1 = soup.find('ul', class_="gclearfix").findAll("li")

step3:定点抓取数据

通过循环抓取主演姓名信息

actorName = content.find("p", class_="mh-title").find("a", class_="mh-actor")

通过循环抓取非主演姓名信息

actorName = content.find("p", class_="mh-l").find("a", class_="mh-actor")

2、汇总数据

将演员的姓氏和名字分开统计:

surnamelist = [];
givennamelist = [];
surname_dict = {}
for actorname in nameList:    
    surnamelist.append(actorname[0]);
    for givenname in actorname[2:]:
        givennamelist.append(givenname)   
    if actorname[0] not in surname_dict:
        surname_dict[actorname[0]] = 1
    else:
        surname_dict[actorname[0]] += 1

3、绘制词云

利用wordcloud绘制词云:

word_count = collections.Counter(surnamelist );
# 设置词云属性
wc = WordCloud(font_path=font_path,  # 设置字体
               background_color="white",  # 背景颜色
               max_words=2000,  # 词云显示的最大词数
               mask=back_coloring,  # 设置背景图片
               max_font_size=100,  # 字体最大值
               random_state=42,
               width=1000, height=860, margin=1,)

wc.generate_from_frequencies(word_count);

姓氏(主角背景版):

姓氏(苹果背景版):

名字:

4、进一步地抓取更多信息

费了这么大的劲,只分析一个姓名感觉不能得到满足,通过仔细分析网页结构,有一个惊喜的发现:

每个演员都有个人的链接!!!

链接信息就在href中:

<a class="mh-actor" href="/person/553.html">秦岚</a>

发现天然的富矿后,老夫欣喜若狂,为此加班到深夜3点,进一步分析了演员的身高、体重、籍贯和星座。

话不多说,直接看结构:

<div class="tn-box-content tn-widget-content tn-corner-bottom">
        籍贯:辽宁省沈阳市沈河区<br>
        身高:165cm/5.4英尺<br>
        体重:46kg/101磅<br>
        职业:演员,歌手<br>
       生日:1981-07-17<br>
       星座:巨蟹座<br>
       性别:女<br>
       血型:b型<br>
       三围:<br>                                </div>

5、分析共同出演电视剧

同样地,上词云。

《延禧攻略》当仁不让,高居首位。同时有额外发现,就是很多大火的电视剧《凤囚凰》《朝歌》《我们正年轻》《长歌行》等。

6、出玫瑰图,看个人信息

直接上图,不说话:

从来没有无缘无故的爱,也没有无缘无故的恨。一部热播剧的背后是几百个演员的艰辛付出和刻苦修炼。愿生活多姿,但你得足够努力!

欢迎关注个人公众号:科学小镇。

《延禧攻略》演员大起底——利用Python+bs+pyecharts分析绘制词云和玫瑰图相关推荐

  1. 用word2vec解读延禧攻略人物关系

    原文来自公众号 无界社区mixlab 链接如下: https://mp.weixin.qq.com/s/zRqt9OL6G1s3UZY1AJR9ag 关系图谱地址 https://shadowcz00 ...

  2. 大数据分析——暑期黑马《延禧攻略》到底有多火!

    上周的文章一发果然引来了小伙伴们的积极留言,纷纷要求小编做个分析,小编也是为难呀,几经思量,终于选了个<延禧攻略>出来. 纵观今年暑假的爆款剧不再是湖南卫视的什么金鹰独播剧了,虽然有着&l ...

  3. 每天6亿人在看《延禧攻略》?大数据告诉你哪家视频网站VIP值得买(附代码)

    导读:随着<延禧攻略>的播出,魏璎珞.富察皇后等各位后宫小主的命运时刻牵动着各位观众的心.同时爱奇艺也因为该剧的大火,收获了单日超过6亿的播放量.我们此次将对比各大视频网站2018年截止到 ...

  4. 延禧攻略:她是最懦弱的妃子,却为乾隆生下大清最出名的皇子!

    原文链接:http://www.sohu.com/a/242585389_577721 导读:近期,继<后宫·甄嬛传>之后又一部清宫剧走进了大众的视野,它就是于正新作<延禧攻略> ...

  5. 《如懿传》《延禧攻略》同获金骨朵网络影视盛典奖项

    中新网北京1月13日电 (记者 马海燕)第三届金骨朵网络影视盛典12日晚在北京举行,罗晋.戚薇.宋祖儿.熊梓淇等40余位明星艺人共同出席.两部清宫古装剧<如懿传>和<延禧攻略> ...

  6. 硅谷版《延禧攻略》,到底哪位科技大佬才是真正的魏璎珞?

    硅谷Live / 实地探访 / 热点探秘/ 深度探讨 最近小探碰到一个在谷歌工作的美国小哥哥问小探最近都看啥剧.<延禧攻略>啊!小探好后悔自己为啥不是女儿身投入大清帝王的怀抱--没想到 一 ...

  7. 数据分析告诉你,为什么《延禧攻略》这么火?

    霸屏整个暑假的<延禧攻略>刚刚落下帷幕,女主魏璎珞最终统摄六宫,成为兰宫领袖,走向权利巅峰.这部清宫剧一改于正的雷剧画风,从开播伊始就赚足观众好感,在整个暑期档一骑绝尘.到底是什么原因让& ...

  8. AI「复活」《延禧攻略》众生相

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一部<延禧攻略>,让清朝古装剧在国内大火了一把. 敢爱敢恨的魏璎珞,贤良淑德的富察皇后,深藏不漏的纯妃-- 人物特点各个鲜明,令 ...

  9. 假如古代有了云计算,延禧攻略里的各位嫔妃要如何宫斗

    延禧攻略最近大火,男女老少都在疯狂追剧,就连我们一项业余爱好单一的程序员小哥也用周末时间狂刷了70多集,妥妥的延禧粉.延禧攻略主要有两大看点,一个是各种CP让人眼花缭乱,帝后cp,后璎cp,卫龙cp等 ...

最新文章

  1. 【每日一算法】救生艇
  2. 独家 | SVP:一种用于深度学习的高效数据选择方法
  3. EXTJS+ASP.NET上传文件带实时进度条代码
  4. 精通python要多久-小白到精通python要多久
  5. U9cloud RPA加持 智领未来
  6. Ettercap内网渗透
  7. [NOIP2015提高组]运输计划
  8. 不出来信号 quartus_男人一旦动了真情,会向你发出这6个“信号”不爱的人装不出来...
  9. C语言解析Ini格式文件
  10. php file 扩展,php5.4.31安装php_fileinfo扩展和php_intl扩展
  11. 如何设置好看的form表单样式_HTML表格表单
  12. 微信支付超详细教程(附商城订单处理逻辑)
  13. 做事没有动力怎么办?
  14. Twaver-HTML5基础学习(12)连线(Link)
  15. 模式识别技术是人工智能的基础技术,模式识别技术的发展潜力
  16. android ellipsize的使用
  17. 你们最爱的BAT,都有什么部门和职位呢
  18. 【软件工程】软件与软件危机
  19. 如何打开虚拟机服务器,虚拟机怎么打开ssh服务器
  20. vc++按钮应用大全

热门文章

  1. WindowsXP VOL,VLK,FPP,RTM的含义
  2. 你知道Alpha/Beta/RC/RTM/RTW/GA是什么版本吗?
  3. org后缀的文件怎么打开
  4. 互联网手机潮进入PK时代:周鸿祎激战小米雷军
  5. Illustrator 教程:如何在 Illustrator 中剪切及擦除图稿?
  6. c语言中字符型不用单引号,必须知道的C语言知识细节:单引号和双引号正确用法...
  7. WSL2安装CUDA报错:The public CUDA GPG key does not appear to be installed.
  8. 最黑外包文思海辉西安分公司(连载一)
  9. 返回顶部浮动图标代码
  10. 我和我的CSDN高校俱乐部