# -*- coding: utf-8 -*-
#@Time :18-9-23 上午11:22
#@Author : LiMeng
#@Email : 925762221@qq.com
#@File : yanxigonglvu.py
#Software:PyCharm
import  requests
import  ppretty
import collections
from wordcloud import WordCloud
from bs4 import  BeautifulSoup
import matplotlib.pyplot as plt
from scipy.misc import imread
import jieba
def get():url='http://www.tvzn.com/14784/yanyuanbiao.html'res=requests.get(url=url)html=res.contentdianshiju_list=[]nameList=[]soup=BeautifulSoup(html,'lxml')dianshuju_x=[]# 主演contents1 = soup.find('ul', attrs={'class':'gclearfix'}).findAll("li")for content in contents1:#actorNamezhuyan=content.find('p',attrs={'class':'mh-actor'}).find('a',attrs={'class':'mh-actor'})actorNamezhuyan=content.find('a',attrs={'class':'mh-actor'})# print(actorNamezhuyan)href=actorNamezhuyan.attrs['href']# 将分析得到的网页地址进行二次爬虫,这里是要寻找某个演员参演的电视剧,需要再次发送请求res1=requests.get(('http://www.tvzn.com/'+href))rsp=res1.textsoup1=BeautifulSoup(rsp,"lxml")content1 = soup1.find('ul',attrs={'class':'tn-avatar-list tn-helper-reset tn-helper-clearfix'})# print(type(dianshiju_list))for x in content1.strings:#这里是获取节点下面所有的内容if (x):#有的节点下面没有内容,所以需要将其过滤掉dianshiju_list.append(x)#将电视剧目表添加到数组中# 配角contents2=soup.find('div',attrs={'class':'mh-name-list'}).findAll('li')for contentx in contents2:aclist=contentx.findAll('p')for x in aclist:nameList.append(x.find('',attrs={'class':'mh-actor'}).getText())# 得到包含演员的数组surnamelist = []givennamelist = []surname_dict = {}for actorname in nameList:surnamelist.append(actorname[0])for givenname in actorname[2:]:givennamelist.append(givenname)if actorname[0] not in surname_dict:surname_dict[actorname[0]]=1else:surname_dict[actorname[0]]+=1file=open('./data.txt','w')for x in nameList:file.write(x)file.write(" ")file.close()word_count = collections.Counter(dianshiju_list);bg_pic = imread('mask.jpeg')wordcloud = WordCloud(font_path='./simhei.ttf', mask=bg_pic, background_color="white", width=1000, height=860,margin=2).generate_from_frequencies((word_count))plt.imshow(wordcloud)plt.axis('off')plt.show()
if __name__ == '__main__':get()

python 爬取《延禧攻略》所有的演员参演的电视剧相关推荐

  1. 用word2vec解读延禧攻略人物关系

    原文来自公众号 无界社区mixlab 链接如下: https://mp.weixin.qq.com/s/zRqt9OL6G1s3UZY1AJR9ag 关系图谱地址 https://shadowcz00 ...

  2. python文本挖掘与分析:热剧《延禧攻略》用户评论分析

    需要用到的工具:pycharm编辑器,python3 主要用到的库:re,urllib,requests,time,BeautifulSoup,selenium,numpy,matplotlib,ji ...

  3. 《延禧攻略》演员大起底——利用Python+bs+pyecharts分析绘制词云和玫瑰图

    最近大火的电视剧<延禧攻略>已宣告大结局,除了剧情走心,演员的那些头花啊头饰啊,戏服也都精致无比.本文利用Python抓取互联网上演员的部分数据,分析演员的姓名.星座.身高.体重和籍贯等信 ...

  4. 从还珠格格到延禧攻略,不变的是什么?

    点击上方"brucepk",选择"置顶公众号" 第一时间关注 Python 技术干货! 阅读文本大概需要 2 分钟. 听说经典电视剧「还珠格格」即将又要被翻拍了 ...

  5. 数据分析告诉你,为什么《延禧攻略》这么火?

    霸屏整个暑假的<延禧攻略>刚刚落下帷幕,女主魏璎珞最终统摄六宫,成为兰宫领袖,走向权利巅峰.这部清宫剧一改于正的雷剧画风,从开播伊始就赚足观众好感,在整个暑期档一骑绝尘.到底是什么原因让& ...

  6. 看《延禧攻略》学配色与构图

    2019独角兽企业重金招聘Python工程师标准>>> <延禧攻略>自开播以来凭借画面的高级与构图的唯美刷新了影视审美的新高度,这部剧的整体配色非常高级,布景精致,给人一 ...

  7. 硅谷版《延禧攻略》,到底哪位科技大佬才是真正的魏璎珞?

    硅谷Live / 实地探访 / 热点探秘/ 深度探讨 最近小探碰到一个在谷歌工作的美国小哥哥问小探最近都看啥剧.<延禧攻略>啊!小探好后悔自己为啥不是女儿身投入大清帝王的怀抱--没想到 一 ...

  8. 透过日播放量超过6亿的《延禧攻略》,看2018视频网站格局

    作者介绍:徐麟,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据 个人公众号:数据森麟(ID:shujusenlin) ...

  9. 下流社会:抖音、西虹市、延禧攻略与中产崩盘

    IT派 - {技术青年圈} 持续关注互联网.区块链.人工智能领域 你看<延禧攻略>了吗?你属于下流阶层吗? 日本文化研究所的三浦展在<下流社会>这本书中抛出一个惊动整个日本乃至 ...

  10. UI设计行业中的“延禧攻略”,教你从青铜变王者

    最近一直在追<延禧攻略>,女主魏璎珞敢爱敢恨,有仇必报的性格吸引不少人,她从低贱的秀坊小宫女步步为营,最终成为皇帝最宠爱的令妃呼风唤雨.尔虞我诈的后宫,想要打怪升级光有颜值是万万不够的,更 ...

最新文章

  1. Dynamips和Vmware完成CCVP试验(4)
  2. 第八周项目实践2 建立连串算法库
  3. DCMTK:比较DICOM图像并计算差异指标
  4. android系统手势app,8种iOS手势规定和14种android手势规定详解
  5. HTML+CSS+JS实现 ❤️svg图片透明层文本显示❤️
  6. 推荐的上海python培训班_燃烧的蔬菜推推推
  7. Spring mvc介绍
  8. SDL2源代码分析5:更新纹理(SDL_UpdateTexture())
  9. PLC控制系统设计的一般步骤是什么?
  10. 常用DateUtil
  11. 基于SSM框架的学生学籍管理系统(源码及具体讲解)
  12. Linux基础知识学习
  13. 软考非计算机专业考难吗,非计算机专业考软考初级哪个更容易过
  14. 怎样写标题才能获得流量,写标题的技巧
  15. 谷歌、Microsoft、火狐浏览器主页被篡改解决方法
  16. ECSHOP后台提示 XMlHttpRequest status:[500] 解决办法2016年6月
  17. jenkins的应用
  18. 代码太多不要怕,分享一个阅读代码的神器
  19. Scrapy start_requests
  20. 【嵌入式基础】内存(Cache,RAM,ROM,Flash)

热门文章

  1. Python基础学习笔记【廖雪峰】
  2. 【基础练习】codevs1506 传话题解
  3. LVGL官方文档-7.11.0-8-Porting-Logging
  4. android sdk 固态硬盘,使用TVM在android中进行Mobilenet SSD部署
  5. tig--颠覆 Git 命令使用体验的神器
  6. 第二节 物料清单(BOM)
  7. 一家快倒闭的茶馆如何通过一套商业模式改变现状,月盈利百万的方案分享!
  8. 大数据技术如何有效阻击网络黑产?
  9. 从理解透视到场景构图
  10. 令人心酸的100个微瞬间 不信你不会被触动 别落泪哦