文章目录

  • 1.后裔弃兵
  • 2.万恶之源弹幕
python3.8
jupyter notebook

1.后裔弃兵

《后翼弃兵》豆瓣短评数据集

import pandas
import csv
import jieba
import numpy
from PIL import Image
from wordcloud import WordCloud
def getDataFromCsv():# 设置星级等级,根据等级来定位提取弹幕stars = ("1","2","3","4","5")# 设置空列表,装从表格里面读出来的所有数据comments = []# 打开表格,"r"读取模式  读取数据with open("1.csv","r",encoding="utf-8") as file:# 表格操作读数据reader = csv.reader(file)# 遍历表格里得到所有数据     [用户名,星级,评论]for i in reader:# 如果没有星级if i[8] not in stars:# 数据无效,忽略不处理passelse:# 数据有效,装入数组comments.append(i)# print(comments)file.close()# 将装有数据的列表返回出来return comments
getDataFromCsv()
[['2020-11-12 14:11:28.928','后翼弃兵','32579283','https://movie.douban.com/subject/32579283/comments?sort=new_score&status=P','#未注销#','https://www.douban.com/people/thedarknine/','\n            \n                网飞出品,多 半成品,这可是久违的“丝滑”。神童,但不神化。“山川异域,风月同天”,何尝不是一个江湖故事。\n        ','\n                    2020-10-23\n                ','4','1368'],['2020-11-12 14:11:28.928','后翼弃兵','32579283','https://movie.douban.com/subject/32579283/comments?sort=new_score&status=P','转发点赞五星','https://www.douban.com/people/26414546/','\n            \n                这个剧情感觉有点平淡,但是我为什么看完了。男人都想帮你,但其实是想睡你,但其实还是想帮你。没啥,我也想生活在俄罗斯。\n        ','\n                    2020-10-24\n                ','5','1407'],['2020-11-12 14:11:28.928','后翼弃兵','32579283','https://movie.douban.com/subject/32579283/comments?sort=new_score&status=P','fushia','https://www.douban.com/people/gotothefield/','\n            \n                国际象棋版麦瑟尔夫人+美国夫人+梅尔罗斯。最后一集好俗气啊但我仍然不能免俗地在每一个泪点留下眼泪。\n        ','\n                    2020-10-27\n                ','4','634'], ['2020-11-12 14:11:28.928','后翼弃兵','32579283','https://movie.douban.com/subject/32579283/comments?sort=new_score&status=P','你说什么都对','https://www.douban.com/people/limiaolm/','\n            \n                关键时刻还是姐妹比男人靠谱\n        ','\n                    2020-11-05\n                ','4','0']]
# 定义函数,将解析的评论做成词云
def getWordCloud():# 调用函数:得到表格中所有的数据data = getDataFromCsv()# 定义空的字符串,把所有的评论装进来str = ""# 遍历所有的数据for i in data:# [用户名, 星级, 评论]str+=i[6]print(str)# 通过jieba分词器将评论里面的词语用空格分离出来cutWord = " ".join(jieba.cut(str))# print(cutWord)# 读取图片模型
#     bgImg = numpy.array(Image.open("a.jpg"))# 准备词云参数cloud = WordCloud(# 文字的路径:本地的系统文件路径font_path="C:\Windows\Fonts\STZHONGS.TTF",# 生成词云的图片背景background_color="white",max_words=1300,margin=3,width=1800,height=800,random_state=42# 参考图片(参数,没有引号)
#         mask=bgImg).generate(cutWord)# 将做成的结果生成图片cloud.to_file("ciyun.png")
getWordCloud()

2.万恶之源弹幕

数据csv

import pandas
import csv
import jieba
import numpy
from PIL import Image
from wordcloud import WordCloud
def getDataFromCsv():# 设置星级等级comments = []# 打开表格,"r"读取模式  读取数据with open(r"E:\01_hjz\datas\01_ml\paulmadanmaku.csv","r",encoding="utf-8") as file:# 表格操作读数据reader = csv.reader(file)# 遍历表格里得到所有数据   next(reader)#从第二行开始读取for i in reader:# 如果没有星级comments.append(i)print(comments)file.close()# 将装有数据的列表返回出来return comments
getDataFromCsv()
[['0 days 00:01:16.562000000','2020-01-05','2020-01','2020-01-05 15:58:45','你要感谢人家小伙子点到为止,不然你眼睛保不住。','7ecdfd8'],['0 days 00:00:59.156000000','2020-05-18','2020-05','2020-05-18 04:49:33','已经被打死了','fb2f37fe'],...]
# 定义函数,将解析的评论做成词云
def getWordCloud():# 调用函数:得到表格中所有的数据data = getDataFromCsv()# 定义空的字符串,把所有的评论装进来str = ""# 遍历所有的数据for i in data:# [用户名, 星级, 评论]str+=i[4]print(str)# 通过jieba分词器将评论里面的词语用空格分离出来cutWord = " ".join(jieba.cut(str))# print(cutWord)# 读取图片模型
#     bgImg = numpy.array(Image.open("a.jpg"))# 准备词云参数cloud = WordCloud(# 文字的路径:本地的系统文件路径font_path="C:\Windows\Fonts\STZHONGS.TTF",# 生成词云的图片背景background_color="white",max_words=1300,margin=3,width=1800,height=800,random_state=42# 参考图片(参数,没有引号)
#         mask=bgImg).generate(cutWord)# 将做成的结果生成图片cloud.to_file("ciyun.png")
getWordCloud()
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.605 seconds.
Prefix dict has been built successfully.

python爬取弹幕读取csv文件制作弹幕热点词云图-万恶之源马老师-后裔弃兵相关推荐

  1. python爬取《三国演义》小说统计词频生成词云图

    python爬取<三国演义>小说&统计词频&生成词云图 注意点: 爬取小说正文时用的正则表达式涉及到多行匹配.需要开启多行模式(?s) book_content_re = ...

  2. 和讯网债券数据Python爬取保存成CSV文件之一

    本文讲述国债数据使用python爬取的方式,并将得到的数据保存成CSV文件以日期命名,方便后期处理. 具体代码如下所示: import requests from bs4 import Beautif ...

  3. Python——爬取某瓣电影评论信息并生成词云图

  4. 利用python爬取2019-nCoV确诊数据并制作pyecharts可视化地图

    1.本章利用python爬取2019-nCoV确诊数据并制作pyecharts可视化地图: 2.主要内容为绘制出中国各省疫情数据,疫情数据从四个维度进行可视化展示:累积确诊人数.现存确诊人数.治愈人数 ...

  5. pandas读取csv写入mysql_使用python的pandas库读取csv文件保存至mysql数据库

    第一:pandas.read_csv读取本地csv文件为数据框形式 data=pd.read_csv('G:\data_operation\python_book\chapter5\\sales.cs ...

  6. Python爬取《隐秘的角落》弹幕数据,实现简单可视化(附源码)

    工具使用 开发环境: win10.python3.6 开发工具: pycharm 相关模块 : requests,stylecloud 思路分析 1.爬虫获取数据 爱奇艺的弹幕数据是以 .z 形式的压 ...

  7. python利用numpy模块读取csv文件

    文章目录 numpy.loadtxt()方法 简单读取 字符串处理-str参数 跳过首行 - skiprow = 1 读取特定列 - usecols参数 numpy切片 更多读取方法 numpy.lo ...

  8. python爬取豆瓣评论,并制作成词云

    一.爬取豆瓣热评 该程序进行爬取豆瓣热评,将爬取的评论(json文件)保存到与该python文件同一级目录下 注意需要下载这几个库:requests.lxml.json.time import req ...

  9. 没有内涵段子可以刷了,利用Python爬取段友之家贴吧图片和小视频(含源码)

    由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...

最新文章

  1. spi的dma方式前四个字节_UTF-16是固定两个字节长度吗?
  2. Karma和Jasmine 自动化单元测试环境搭建
  3. Tomcat6(含Tomcat6)之后默认没有common,server和shared文件夹,如何配置
  4. 【Android工具】Cx文件管理器,Cx File Explorer安卓samba客户端
  5. WPS版excel怎样核对两表数据和文本不一致之处
  6. webpack打包之clean-webpack-plugin插件 默认下载4.0.0版本的踩坑记录
  7. 机房收费系统之实现图(组件图、部署图)
  8. 设计模式-05.建造者模式与模板方法模式比较
  9. 802.11n无线网卡驱动linux,Ubuntu 16.04 无线网卡驱动安装 80211
  10. Linux环境变量PSI指什么,psi是什么单位(pSI指标应用原则)
  11. python:defaultdict 对象
  12. 004-2018-09-06 列表
  13. android仿今日头条视频显示效果
  14. DOS命令CD D:\ 不管用,怎么进入D盘
  15. Python_内置函数之round的幺蛾子
  16. P2404 自然数的拆分问题 回溯
  17. 解读腾讯音乐Q3财报:营收上涨31% 音乐市场下半场战事即将开启?
  18. 安润网提供的游戏下载,您可以到安润网的论坛中下载,无须注册。
  19. 无法加载shockwave flash
  20. 宇宙是设计好的,结构像齿轮一样精准

热门文章

  1. 上海徐汇户口对口的重点学校康健外国语实验中学
  2. python arm64_Etcher for arm64(鲲鹏、飞腾)
  3. easyui 隐藏input_easyui datagrid 列显示和隐藏
  4. 百度UEditor富文本编辑器去除自动追加span标签
  5. 4 前端 溢出 定位 模态框 透明度 JavaScript简介
  6. 正则表达式?来直接告诉你怎么写
  7. CGB2005-京淘18
  8. 熬夜吃什么好 经常熬夜吃什么好
  9. JAVA基础(持续更新中)
  10. 3.了解Spring Boot2自动配置原理