镇魂优酷视频短评爬虫
#!/usr/bin/python
# -*- coding: UTF-8 -*-import urllib.request
import urllib.error
import re
from lxml import etree
import time
import pandas as pd
import sys
import jieba
import numpy #numpy计算包
import matplotlib.pyplot as pltimport matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
from wordcloud import WordCloud#词云包headers=("user-agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)comments = ''
try:for i in range(14,100):#因第13页存在乱码,暂无法解决,仅爬取前14页-100页url="https://p.comments.youku.com/ycp/comment/pc/commentList?jsoncallback=n_commentList&app=100-DDwODVkv&objectId=915073585&objectType=1&listType=0¤tPage="+str(i)+"&pageSize=30&sign=04b1133bd3b5d0e79f2cc2cc48121a9c&time=1531057086"data=urllib.request.urlopen(url).read().decode("utf-8","ignore")patcom='"content":"(.*?)",'resultcom=re.compile(patcom).findall(data)for j in range(0,len(resultcom)):non_num = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)resultcom[j]=resultcom[j].translate(non_num)resultcom[j]=eval("u'"+resultcom[j]+"'")comments = comments + (str(resultcom[j])).strip()#为方便对数据进行清洗,我们将列表中的数据放在一个字符串数组pattern = re.compile(r'[\u4e00-\u9fa5]+')#清洗标点符号,至少匹配一个汉字的写法filterdata = re.findall(pattern, comments)cleaned_comments = ''.join(filterdata)#将序列中的元素以指定的字符连接生成一个新的字符串。segment = jieba.lcut(cleaned_comments)#返回listwords_df=pd.DataFrame({'segment':segment})#segment列名stopwords=pd.read_csv("chineseStopWords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')#quoting=3全不引用,index_col为默认为None,即不指定行索引,系统自动加上行索引(0-),words_df=words_df[~words_df.segment.isin(stopwords.stopword)]#去掉在stopword中显示的文字,words_df的type仍然是DataFramewords_stat = words_df.groupby(by=['segment'])['segment'].agg({"计数": numpy.size})#以segment分类,以计数对该列聚合,size()函数主要是用来统计矩阵元素个数words_stat = words_stat.reset_index().sort_values(by=["计数"], ascending=False)print(words_stat)wordcloud=WordCloud(font_path="Lib/site-packages/wordcloud/font163/simheittf.ttf",background_color="white",max_font_size=80,width=1000,height=600) #指定字体类型、字体大小和字体颜色word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}wordcloud=wordcloud.fit_words(word_frequence)plt.imshow(wordcloud)plt.axis('off')plt.show()except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)time.sleep(10)
except Exception as e:print("exception:"+str(e))#若为Exception异常,延时10秒执行time.sleep(10)
下面是比较靠前的词频 ,稀饭是这个表情包的含义,一刷就是一串。
segment 计数
2118 好 442
1357 原著 387
6359 镇魂 341
5077 稀饭 322
1708 喜欢 319
4911 真的 292
1695 啊啊啊 287
4326 演技 276
2162 好看 246
2393 小说 239
3791 朱一龙 217
1147 剧情 206
1127 剧 190
4317 演员 184
4120 没 179
2914 想 172
1660 哈哈哈 152
4653 电视剧 144
5394 老师 136
4879 看过 133
335 不错 130
2515 希望 130
2107 女孩 128
3694 更新 125
675 会员 121
3468 教授 112
4941 眼神 111
3439 改编 109
4740 白宇 99
词云见下图,不过赵云澜三个字在图中分成赵云和澜,还有待完善。
评论第13页出现问题,待解决。
镇魂优酷视频短评爬虫相关推荐
- 大数据环境下的优酷视频数据分析与推荐系统
优酷视频网是中国最具影响力的网络媒体和具有全球影响力的中文视频网站,研究优酷视频标题的网络抓取技术,研究标题语料库的数据库设计方法和用户接口设计实现方法,标题语料的字词处理方法,实现标题语料字词检索. ...
- php 实时更新内容_亿级视频内容如何实时更新?优酷视频背后的技术揭秘
简介: 优酷视频内容数据天然呈现巨大的网络结构,各类数据实体连接形成了数十亿顶点和百亿条边的数据量,面对巨大的数据量,传统关系型数据库往往难以处理和管理,图数据结构更加贴合优酷的业务场景,图组织使用包 ...
- 详解优酷视频质量评价体系
万字长文 | 详解优酷视频质量评价体系 分享嘉宾|李静博士,阿里巴巴文娱集团资深算法专家,阿里巴巴大文娱摩酷实验室视频体验与质量团队负责人 整理出品|AICUG人工智能社区 本文地址:https:// ...
- 优酷视频如何分享个人主页
1.点击打开优酷视频 优酷视频如何分享个人主页 2.点击右下角的[我的] 优酷视频如何分享个人主页 3.点击左上角的头像 优酷视频如何分享个人主页 4.点击右上角的分享图标 优酷视频如何分享个人主页 ...
- 优酷视频如何意见反馈?优酷视频怎么意见反馈
01. 我们打开优酷视频APP. 优酷视频如何意见反馈?优酷视频怎么意见反馈 02. 在视频的首页,我们点击下方最右侧的那个"我的". 优酷视频如何意见反馈?优酷视频怎么意见反馈 ...
- 优酷视频怎么提交意见反馈
在使用优酷视频中发现有一些问题,那么想要提交反馈上报,可是找不到,今天就让我把这个分享给需要的朋友. 优酷视频怎么提交意见反馈 1.进入优酷视频后选择"我的"栏 优酷视频怎么提交意 ...
- 优酷视频如何修改账号密码?
一.pc端:您能够立即登陆[点一下这儿]密码重置哦~或是能够按下列方式实际操作哦. 1.登陆本站,网页页面最上边[登陆]功能键,登陆界面右下角点一下[密码忘了]. 优酷视频如何修改账号密码? 2.请输 ...
- 优酷视频如何在手机进行安全设置?
你好,假如您要想拆换优酷手机绑定手机上/登陆密码,您能够按下列方式开展实际操作: 1.打开手机优酷app,点一下[我的]-[我的在线客服]: 优酷视频如何在手机进行安全设置? 2.点一下[我的在线客服 ...
- 优酷视频如何将地区设置为中国大陆
播放器软件很多,本文小编给大家推荐优酷视频,本文继续分享"优酷视频如何将地区设置为中国大陆".优酷视频放器是优酷视频旗下的视频客户端产品,支持丰富内容的在线点播及电视台直播.作为国 ...
最新文章
- Blender从头到尾创建一辆宝马轿车视频教程
- Eclipse 创建 Java 项目概述
- flask uwsgi nginx *504* Gateway Time ou解决办法
- TI Davinci DM6446 开发攻略(序)
- Ubuntu 12.04嵌入式交叉编译环境arm-linux-gcc搭建过程图解
- 修复被破坏的 vs 工程设置
- ubuntu 使用apt-get install 安装php5.6--php7
- 【报告分享】2020中国教育行业生存实录.pdf(附下载链接)
- SQL Server舍入功能概述– SQL舍入,上限和下限
- MFC添加View的方法
- 电脑脱机状态怎么解除_win7系统如何解除脱机工作 win7系统解除脱机工作步骤【介绍】...
- (转)某期货系统漏洞致巨损二审在即 千万损失谁来买单?
- ubantu分区知识
- Java实现视频编码格式转换(转libx264编码格式)
- 微信公众号/订阅号留言板使用介绍
- Springcloud微服务中多模块重复代码重构成公共模块的实现
- Rancher Labs获2500万美元C轮融资
- VS2015编辑图片
- 怎样添加服务器远程角色,添加角色和功能,Windows Server 2012 R2如何安装远程桌面服务...
- 网站被流量攻击了,如何解决
热门文章
- layui 验证规则 lay-verify
- mw325r 服务器无响应),水星(MERCURY)MW325R路由器连不上网怎么办?
- 逐帧动画(Frame Animation)
- 基于android平台的旅游系统,基于Android平台的智能导游系统设计方案
- make menuconfig详解
- 宁波大学c语言理论考试试题科目一,科目一理论最新考试试题
- “六西格玛管理快要被淘汰了“是真的吗?
- 回文数,给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。
- springboot工具的安装和使用
- 字根科技-政府网站错别字检测的新选择