python 爬取《延禧攻略》所有的演员参演的电视剧
# -*- coding: utf-8 -*-
#@Time :18-9-23 上午11:22
#@Author : LiMeng
#@Email : 925762221@qq.com
#@File : yanxigonglvu.py
#Software:PyCharm
import requests
import ppretty
import collections
from wordcloud import WordCloud
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
from scipy.misc import imread
import jieba
def get():url='http://www.tvzn.com/14784/yanyuanbiao.html'res=requests.get(url=url)html=res.contentdianshiju_list=[]nameList=[]soup=BeautifulSoup(html,'lxml')dianshuju_x=[]# 主演contents1 = soup.find('ul', attrs={'class':'gclearfix'}).findAll("li")for content in contents1:#actorNamezhuyan=content.find('p',attrs={'class':'mh-actor'}).find('a',attrs={'class':'mh-actor'})actorNamezhuyan=content.find('a',attrs={'class':'mh-actor'})# print(actorNamezhuyan)href=actorNamezhuyan.attrs['href']# 将分析得到的网页地址进行二次爬虫,这里是要寻找某个演员参演的电视剧,需要再次发送请求res1=requests.get(('http://www.tvzn.com/'+href))rsp=res1.textsoup1=BeautifulSoup(rsp,"lxml")content1 = soup1.find('ul',attrs={'class':'tn-avatar-list tn-helper-reset tn-helper-clearfix'})# print(type(dianshiju_list))for x in content1.strings:#这里是获取节点下面所有的内容if (x):#有的节点下面没有内容,所以需要将其过滤掉dianshiju_list.append(x)#将电视剧目表添加到数组中# 配角contents2=soup.find('div',attrs={'class':'mh-name-list'}).findAll('li')for contentx in contents2:aclist=contentx.findAll('p')for x in aclist:nameList.append(x.find('',attrs={'class':'mh-actor'}).getText())# 得到包含演员的数组surnamelist = []givennamelist = []surname_dict = {}for actorname in nameList:surnamelist.append(actorname[0])for givenname in actorname[2:]:givennamelist.append(givenname)if actorname[0] not in surname_dict:surname_dict[actorname[0]]=1else:surname_dict[actorname[0]]+=1file=open('./data.txt','w')for x in nameList:file.write(x)file.write(" ")file.close()word_count = collections.Counter(dianshiju_list);bg_pic = imread('mask.jpeg')wordcloud = WordCloud(font_path='./simhei.ttf', mask=bg_pic, background_color="white", width=1000, height=860,margin=2).generate_from_frequencies((word_count))plt.imshow(wordcloud)plt.axis('off')plt.show()
if __name__ == '__main__':get()
python 爬取《延禧攻略》所有的演员参演的电视剧相关推荐
- 用word2vec解读延禧攻略人物关系
原文来自公众号 无界社区mixlab 链接如下: https://mp.weixin.qq.com/s/zRqt9OL6G1s3UZY1AJR9ag 关系图谱地址 https://shadowcz00 ...
- python文本挖掘与分析:热剧《延禧攻略》用户评论分析
需要用到的工具:pycharm编辑器,python3 主要用到的库:re,urllib,requests,time,BeautifulSoup,selenium,numpy,matplotlib,ji ...
- 《延禧攻略》演员大起底——利用Python+bs+pyecharts分析绘制词云和玫瑰图
最近大火的电视剧<延禧攻略>已宣告大结局,除了剧情走心,演员的那些头花啊头饰啊,戏服也都精致无比.本文利用Python抓取互联网上演员的部分数据,分析演员的姓名.星座.身高.体重和籍贯等信 ...
- 从还珠格格到延禧攻略,不变的是什么?
点击上方"brucepk",选择"置顶公众号" 第一时间关注 Python 技术干货! 阅读文本大概需要 2 分钟. 听说经典电视剧「还珠格格」即将又要被翻拍了 ...
- 数据分析告诉你,为什么《延禧攻略》这么火?
霸屏整个暑假的<延禧攻略>刚刚落下帷幕,女主魏璎珞最终统摄六宫,成为兰宫领袖,走向权利巅峰.这部清宫剧一改于正的雷剧画风,从开播伊始就赚足观众好感,在整个暑期档一骑绝尘.到底是什么原因让& ...
- 看《延禧攻略》学配色与构图
2019独角兽企业重金招聘Python工程师标准>>> <延禧攻略>自开播以来凭借画面的高级与构图的唯美刷新了影视审美的新高度,这部剧的整体配色非常高级,布景精致,给人一 ...
- 硅谷版《延禧攻略》,到底哪位科技大佬才是真正的魏璎珞?
硅谷Live / 实地探访 / 热点探秘/ 深度探讨 最近小探碰到一个在谷歌工作的美国小哥哥问小探最近都看啥剧.<延禧攻略>啊!小探好后悔自己为啥不是女儿身投入大清帝王的怀抱--没想到 一 ...
- 透过日播放量超过6亿的《延禧攻略》,看2018视频网站格局
作者介绍:徐麟,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据 个人公众号:数据森麟(ID:shujusenlin) ...
- 下流社会:抖音、西虹市、延禧攻略与中产崩盘
IT派 - {技术青年圈} 持续关注互联网.区块链.人工智能领域 你看<延禧攻略>了吗?你属于下流阶层吗? 日本文化研究所的三浦展在<下流社会>这本书中抛出一个惊动整个日本乃至 ...
- UI设计行业中的“延禧攻略”,教你从青铜变王者
最近一直在追<延禧攻略>,女主魏璎珞敢爱敢恨,有仇必报的性格吸引不少人,她从低贱的秀坊小宫女步步为营,最终成为皇帝最宠爱的令妃呼风唤雨.尔虞我诈的后宫,想要打怪升级光有颜值是万万不够的,更 ...
最新文章
- Dynamips和Vmware完成CCVP试验(4)
- 第八周项目实践2 建立连串算法库
- DCMTK:比较DICOM图像并计算差异指标
- android系统手势app,8种iOS手势规定和14种android手势规定详解
- HTML+CSS+JS实现 ❤️svg图片透明层文本显示❤️
- 推荐的上海python培训班_燃烧的蔬菜推推推
- Spring mvc介绍
- SDL2源代码分析5:更新纹理(SDL_UpdateTexture())
- PLC控制系统设计的一般步骤是什么?
- 常用DateUtil
- 基于SSM框架的学生学籍管理系统(源码及具体讲解)
- Linux基础知识学习
- 软考非计算机专业考难吗,非计算机专业考软考初级哪个更容易过
- 怎样写标题才能获得流量,写标题的技巧
- 谷歌、Microsoft、火狐浏览器主页被篡改解决方法
- ECSHOP后台提示 XMlHttpRequest status:[500] 解决办法2016年6月
- jenkins的应用
- 代码太多不要怕,分享一个阅读代码的神器
- Scrapy start_requests
- 【嵌入式基础】内存(Cache,RAM,ROM,Flash)