#!/usr/bin/python
# -*- coding: UTF-8 -*-import urllib.request
import urllib.error
import re
from lxml import etree
import time
import pandas as pd
import sys
import jieba
import numpy    #numpy计算包
import matplotlib.pyplot as pltimport matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
from wordcloud import WordCloud#词云包headers=("user-agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)comments = ''
try:for i in range(14,100):#因第13页存在乱码,暂无法解决,仅爬取前14页-100页url="https://p.comments.youku.com/ycp/comment/pc/commentList?jsoncallback=n_commentList&app=100-DDwODVkv&objectId=915073585&objectType=1&listType=0&currentPage="+str(i)+"&pageSize=30&sign=04b1133bd3b5d0e79f2cc2cc48121a9c&time=1531057086"data=urllib.request.urlopen(url).read().decode("utf-8","ignore")patcom='"content":"(.*?)",'resultcom=re.compile(patcom).findall(data)for j in range(0,len(resultcom)):non_num = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)resultcom[j]=resultcom[j].translate(non_num)resultcom[j]=eval("u'"+resultcom[j]+"'")comments = comments + (str(resultcom[j])).strip()#为方便对数据进行清洗,我们将列表中的数据放在一个字符串数组pattern = re.compile(r'[\u4e00-\u9fa5]+')#清洗标点符号,至少匹配一个汉字的写法filterdata = re.findall(pattern, comments)cleaned_comments = ''.join(filterdata)#将序列中的元素以指定的字符连接生成一个新的字符串。segment = jieba.lcut(cleaned_comments)#返回listwords_df=pd.DataFrame({'segment':segment})#segment列名stopwords=pd.read_csv("chineseStopWords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')#quoting=3全不引用,index_col为默认为None,即不指定行索引,系统自动加上行索引(0-),words_df=words_df[~words_df.segment.isin(stopwords.stopword)]#去掉在stopword中显示的文字,words_df的type仍然是DataFramewords_stat = words_df.groupby(by=['segment'])['segment'].agg({"计数": numpy.size})#以segment分类,以计数对该列聚合,size()函数主要是用来统计矩阵元素个数words_stat = words_stat.reset_index().sort_values(by=["计数"], ascending=False)print(words_stat)wordcloud=WordCloud(font_path="Lib/site-packages/wordcloud/font163/simheittf.ttf",background_color="white",max_font_size=80,width=1000,height=600) #指定字体类型、字体大小和字体颜色word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}wordcloud=wordcloud.fit_words(word_frequence)plt.imshow(wordcloud)plt.axis('off')plt.show()except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)time.sleep(10)
except Exception as e:print("exception:"+str(e))#若为Exception异常,延时10秒执行time.sleep(10)

下面是比较靠前的词频 ,稀饭是这个表情包的含义,一刷就是一串。

     segment   计数
2118       好  442
1357      原著  387
6359      镇魂  341
5077      稀饭  322
1708      喜欢  319
4911      真的  292
1695     啊啊啊  287
4326      演技  276
2162      好看  246
2393      小说  239
3791     朱一龙  217
1147      剧情  206
1127       剧  190
4317      演员  184
4120       没  179
2914       想  172
1660     哈哈哈  152
4653     电视剧  144
5394      老师  136
4879      看过  133
335       不错  130
2515      希望  130
2107      女孩  128
3694      更新  125
675       会员  121
3468      教授  112
4941      眼神  111
3439      改编  109
4740      白宇   99

词云见下图,不过赵云澜三个字在图中分成赵云和澜,还有待完善。

评论第13页出现问题,待解决。

镇魂优酷视频短评爬虫相关推荐

  1. 大数据环境下的优酷视频数据分析与推荐系统

    优酷视频网是中国最具影响力的网络媒体和具有全球影响力的中文视频网站,研究优酷视频标题的网络抓取技术,研究标题语料库的数据库设计方法和用户接口设计实现方法,标题语料的字词处理方法,实现标题语料字词检索. ...

  2. php 实时更新内容_亿级视频内容如何实时更新?优酷视频背后的技术揭秘

    简介: 优酷视频内容数据天然呈现巨大的网络结构,各类数据实体连接形成了数十亿顶点和百亿条边的数据量,面对巨大的数据量,传统关系型数据库往往难以处理和管理,图数据结构更加贴合优酷的业务场景,图组织使用包 ...

  3. 详解优酷视频质量评价体系

    万字长文 | 详解优酷视频质量评价体系 分享嘉宾|李静博士,阿里巴巴文娱集团资深算法专家,阿里巴巴大文娱摩酷实验室视频体验与质量团队负责人 整理出品|AICUG人工智能社区 本文地址:https:// ...

  4. 优酷视频如何分享个人主页

    1.点击打开优酷视频 优酷视频如何分享个人主页 2.点击右下角的[我的] 优酷视频如何分享个人主页 3.点击左上角的头像 优酷视频如何分享个人主页 4.点击右上角的分享图标 优酷视频如何分享个人主页 ...

  5. 优酷视频如何意见反馈?优酷视频怎么意见反馈

    01. 我们打开优酷视频APP. 优酷视频如何意见反馈?优酷视频怎么意见反馈 02. 在视频的首页,我们点击下方最右侧的那个"我的". 优酷视频如何意见反馈?优酷视频怎么意见反馈 ...

  6. 优酷视频怎么提交意见反馈

    在使用优酷视频中发现有一些问题,那么想要提交反馈上报,可是找不到,今天就让我把这个分享给需要的朋友. 优酷视频怎么提交意见反馈 1.进入优酷视频后选择"我的"栏 优酷视频怎么提交意 ...

  7. 优酷视频如何修改账号密码?

    一.pc端:您能够立即登陆[点一下这儿]密码重置哦~或是能够按下列方式实际操作哦. 1.登陆本站,网页页面最上边[登陆]功能键,登陆界面右下角点一下[密码忘了]. 优酷视频如何修改账号密码? 2.请输 ...

  8. 优酷视频如何在手机进行安全设置?

    你好,假如您要想拆换优酷手机绑定手机上/登陆密码,您能够按下列方式开展实际操作: 1.打开手机优酷app,点一下[我的]-[我的在线客服]: 优酷视频如何在手机进行安全设置? 2.点一下[我的在线客服 ...

  9. 优酷视频如何将地区设置为中国大陆

    播放器软件很多,本文小编给大家推荐优酷视频,本文继续分享"优酷视频如何将地区设置为中国大陆".优酷视频放器是优酷视频旗下的视频客户端产品,支持丰富内容的在线点播及电视台直播.作为国 ...

最新文章

  1. Blender从头到尾创建一辆宝马轿车视频教程
  2. Eclipse 创建 Java 项目概述
  3. flask uwsgi nginx *504* Gateway Time ou解决办法
  4. TI Davinci DM6446 开发攻略(序)
  5. Ubuntu 12.04嵌入式交叉编译环境arm-linux-gcc搭建过程图解
  6. 修复被破坏的 vs 工程设置
  7. ubuntu 使用apt-get install 安装php5.6--php7
  8. 【报告分享】2020中国教育行业生存实录.pdf(附下载链接)
  9. SQL Server舍入功能概述– SQL舍入,上限和下限
  10. MFC添加View的方法
  11. 电脑脱机状态怎么解除_win7系统如何解除脱机工作 win7系统解除脱机工作步骤【介绍】...
  12. (转)某期货系统漏洞致巨损二审在即 千万损失谁来买单?
  13. ubantu分区知识
  14. Java实现视频编码格式转换(转libx264编码格式)
  15. 微信公众号/订阅号留言板使用介绍
  16. Springcloud微服务中多模块重复代码重构成公共模块的实现
  17. Rancher Labs获2500万美元C轮融资
  18. VS2015编辑图片
  19. 怎样添加服务器远程角色,添加角色和功能,Windows Server 2012 R2如何安装远程桌面服务...
  20. 网站被流量攻击了,如何解决

热门文章

  1. layui 验证规则 lay-verify
  2. mw325r 服务器无响应),水星(MERCURY)MW325R路由器连不上网怎么办?
  3. 逐帧动画(Frame Animation)
  4. 基于android平台的旅游系统,基于Android平台的智能导游系统设计方案
  5. make menuconfig详解
  6. 宁波大学c语言理论考试试题科目一,科目一理论最新考试试题
  7. “六西格玛管理快要被淘汰了“是真的吗?
  8. 回文数,给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。
  9. springboot工具的安装和使用
  10. 字根科技-政府网站错别字检测的新选择