1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)

https://www.bilibili.com/video/av22224421

2.用python 编写爬虫程序,从网络上爬取相关主题的数据。

3.对爬了的数据进行文本分析,生成词云。

import  requests
import jieba
import pandas
import matplotlib.pyplot as plt
from wordcloud import WordCloud ,ImageColorGenerator
from bs4 import BeautifulSoupdef jieba_cut(sentence):seg = jieba.cut(sentence)segList = []for i in seg:segList.append((i))return segListif __name__=='__main__':str=''url='http://comment.bilibili.com/36773399.xml'page=requests.get(url)page.encoding='utf-8'soup=BeautifulSoup(page.text,"html.parser")content=soup.find_all('d')for i in content:str=str+i.textwith open('bilibili.txt','w',encoding='utf-8') as f:f.write(str)dict={}with open ('bilibili.txt','r',encoding='utf-8') as f:words=jieba_cut(f.read())wordslist=set(words)for word in wordslist:dict[word]=words.count(word)mask = plt.imread(r'H:\129\wallhaven-627476.jpg')text=' '.join(words)wc = WordCloud(width=1000,height=800,margin=2,background_color='white',  # 设置背景颜色font_path='C:\Windows\Fonts\STZHONGS.TTF',  # 若是有中文的话,这句代码必须添加,不然会出现方框,不出现汉字max_words=1000,  # 设置最大现实的字数max_font_size=400,  # 设置字体最大值random_state=50,  # 设置有多少种随机生成状态,即有多少种配色方案mask=mask,)mycloud = wc.generate(text)image_colors = ImageColorGenerator(mask)wc.recolor(color_func=image_colors)wc.to_file('cloudword.jpg')

4.对文本分析结果进行解释说明。

5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。

找到视频网站,查找网页源码,找出cid,打开弹幕文件XML,开始爬取弹幕存入文本中。在词频统计时出现一点小问题,用字典统计。

6.最后提交爬取的全部数据、爬虫及数据分析源代码。

 

转载于:https://www.cnblogs.com/129lai/p/8921280.html

爬虫大作业-爬取B站弹幕相关推荐

  1. pythongui界面实现爬取b站弹幕_Python爬虫自动化爬取b站实时弹幕实例方法

    免费资源网,https://freexyz.cn/ 最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频.我们都是知道b站是一个弹幕网站,那你 ...

  2. Python爬取B站弹幕方法介绍

    Python爬取B站弹幕方法介绍 文章目录 Python爬取B站弹幕方法介绍 前言 寻找弹幕数据 编写爬虫 B站弹幕数量 新技术介绍 参考文章 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数 ...

  3. python接收弹幕_闲着没事,尝试一下用Python爬取B站弹幕呀~

    原标题:闲着没事,尝试一下用Python爬取B站弹幕呀~ 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 站视频的弹幕数据. 对于爬虫而言,我们需要找到对应数据 ...

  4. 萌新学习Python爬取B站弹幕+R语言分词demo说明

    代码地址如下: http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这 ...

  5. 用Python爬取B站弹幕并做成词云

    用Python爬取B站弹幕并做成词云 一.获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的"开发者工具": 进入NetWork后等待requests刷出,数据够了后可随意 ...

  6. Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云

    一 . Java爬取B站弹幕 弹幕的存储位置 如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号, ...

  7. python爬取知乎话题广场_学习python爬虫---爬虫实践:爬取B站排行榜2(爬取全部分类排行榜、利用pygal库作图)...

    前面我们爬取了B站上全站的排行榜,详细见:魏勇:学习python爬虫---爬虫实践:爬取B站排行榜​zhuanlan.zhihu.com 一.爬取全部分类排行榜 我们观察一下B站排行榜,那里还有番剧排 ...

  8. python爬取b站弹幕并进行数据可视化

    python爬取b站弹幕并进行数据可视化 1.第一步,爬取b站弹幕 我们随便打开一个b站视频 打开开发者模式,在network下搜索list,可以找到该视频的弹幕文件 打开之后是这个样子的 结构还是比 ...

  9. 爬取B站弹幕制作词云图

    大家好,我是天空之城,今天给大家带来,爬取B站弹幕制作词云图. 以下内容部分来自公众号数据分析与统计学之美,号主是大牛,有需要的加他. 首先打开一个b站视频https://www.bilibili.c ...

最新文章

  1. AI在智能建筑中的应用和发展
  2. 关于JSON基础的总结
  3. centos中rabbitmq的安装及php支持
  4. yolov3剪枝 SlimYOLOv3
  5. cocos lua 创建替换图片
  6. 嵌入式笔录(6)单管收音机电路分析
  7. Vue报错Module not found: Error: Can‘t resolve ‘less-loader‘
  8. LC.exe”已退出,代码为 -1
  9. subpress installed post-installation script returned error exit status 1
  10. hbuilder自述文件_一次修复一个自述文件
  11. Shell 常用积累
  12. 使用注解方式搭建SpringMVC
  13. JS开发3D建模软件
  14. 系统架构演进路线及战术分析(微博、LinkedIn)
  15. 电脑桌面没有计算机图标鼠标也点不起来,电脑桌面上的图标不见了,鼠标也没用了该怎么办呢?...
  16. java全栈系列之JavaSE--递归详解022
  17. karma测试html,常用的前端自动化测试工具介绍 —— Karma(二)
  18. 古代时辰计时与现代时间换算
  19. 2016版excel_Python使用openpyxl和pandas处理学生成绩Excel文件实用案例
  20. 使用Python requests和BeautifulSoup库爬取去哪儿网

热门文章

  1. jmeter性能测试步骤实战教程
  2. 芯片设计五部曲之二 | 图灵艺术家——数字IC
  3. “九把锁”还是春秋时期的黄金密道
  4. andorid 访问不到smms图片
  5. springmvc集成shiro后,session、request姓汪还是姓蒋 ?
  6. color.cpp:7456: error: (-215) scn == 3 || scn == 4 的解决办法
  7. Oracle 裁减了Java布道师员工
  8. [整理] 如何学习插画,美术等
  9. 【收藏】5个免费的插画网站,绝对的宝藏资源
  10. android 微软桌面,Mirosoft Launcher微软桌面