代码链接:https://github.com/Brucepk/Kris-noodles

一、哔哩哔哩弹幕

#bilibili-noodles.py
from bs4 import BeautifulSoup
import pandas as pd
import requests
url = 'http://comment.bilibili.com/87150521.xml'
html = requests.get(url).content
html_data = str(html, 'utf-8')
soup = BeautifulSoup(html_data, 'lxml')
results = soup.find_all('d')comments = [comment.text for comment in results]
comments_dict = {'comments': comments}df = pd.DataFrame(comments_dict)
df.to_csv('noodles.csv', encoding='utf-8')

str(html, ‘utf-8’) 可以转换编码

#bilibili-noodles-jieba
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import pandas as pd
import jiebadf = pd.read_csv('noodles.csv', header=None)text = ''
for line in df[1]:text += ' '.join(jieba.cut(line, cut_all=False))
backgroud_Image = plt.imread('Kris.jpg')wc = WordCloud(background_color='white', mask=backgroud_Image, font_path='C:\Windows\Fonts\STXINGKA.TTF',max_words=2000, max_font_size=80, random_state=30,)
wc.generate_from_text(text)
# 看看词频高的有哪些,把无用信息去除
process_word = WordCloud.process_text(wc, text)
sort = sorted(process_word.items(), key=lambda e: e[1], reverse=True)
print(sort[:50])
img_colors = ImageColorGenerator(backgroud_Image)
wc.recolor(color_func=img_colors)
plt.imshow(wc)
plt.axis('off')
wc.to_file("wyf.jpg")
print('生成词云成功!')

https://github.com/fxsjy/jieba

  • jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用HMM 模型
  • jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
  • 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8
  • jieba.cut 以及jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for循环来获得分词后得到的每一个词语(unicode),或者用 jieba.lcut 以及 jieba.lcut_for_search直接返回 list
  • jieba.Tokenizer(dictionary=DEFAULT_DICT)新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

backgroud_Image = plt.imread(‘Kris.jpg’)读取图片生成三维数组

wc = WordCloud(background_color=‘white’, mask=backgroud_Image,font_path=‘C:\Windows\Fonts\STXINGKA.TTF’,max_words=2000, max_font_size=80, random_state=30,)
mask图形,font_path字体,max_font_size显示的最小的字体大小,max_words要显示的词的最大个数,random_state : int or None为每个单词返回一个PIL颜色

爬虫学习——大碗宽面b站和网易云可视化分析代码相关推荐

  1. notes-Java学习指南①(快速入门)(网易云课堂)

    Java学习指南①(快速入门)(网易云课堂) 讲师:邵发(阿发你好) 章节1:第1章 Hello,World 课时1关于本篇11:55 编程语言的演化 机器码-汇编语言-C语言-C++ -java/C ...

  2. 每天自动签到京东获取京豆,自动升级b站和网易云音乐

    苏生不惑第266 篇原创文章,将本公众号设为星标,第一时间看最新文章. 之前分享过签到太麻烦?全自动一键签到网易云音乐,b站,京东,百度贴吧等网站 和账号升级攻略:每天自动升级b站和网易云音乐,自动签 ...

  3. Python爬虫-猫眼电影《冰雪奇缘2》评论数据的可视化分析

    [TPython爬虫-猫眼电影<冰雪奇缘2>评论数据的可视化分析 项目简介 爬虫,称为网页蜘蛛或网络机器人,用于自动获取互联网上的信息.我通过python爬虫来爬取猫眼电影的评论,对最新热 ...

  4. Python爬虫之js加密破解,抓取网易云音乐评论生成词云

    js破解历程 前言 技能点 界面概况 静态网页动态网页 页面解析 step1: 找参数step2:分析js函数step3:分析参数step4: 校验step5:转为python代码 编写爬虫 很多人学 ...

  5. 带你写爬虫(python)第二篇----抓取网易云音乐下面的评论(API方式)

    抓取网易云音乐<大学无疆>的评论 一直喜欢使用网易云音乐,网易云歌曲下面的评论给其加分不少,所以这一篇来写一下怎么抓取歌曲下面的评论. 准备工作 目标网页:http://music.163 ...

  6. 网络爬虫终篇:向10万级网易云用户发送定向消息

    本文目标: 上篇我们获得了评论用户ID及主页地址.本篇就可以基于这些数据进行一些数据分析和市场操作.理论上学会了本文的方法,你可以在任何一个网页发送广告信息,本文具有被坏人利用的可能性,因此设置了收费 ...

  7. 账号升级攻略:每天自动升级b站和网易云音乐,自动签到天翼云盘和百度贴吧...

    苏生不惑第257 篇原创文章,将本公众号设为星标,第一时间看最新文章. 之前分享过5分钟搞定b站答题成为正式会员,每天自动刷经验值升级账号,不过那个GitHub仓库已经被删了,作者提供了本地版本和腾讯 ...

  8. Python网络爬虫实践(1):爬取网易云音乐播放量大于1000万的歌单

    Python网络爬虫实践(1) 一.需求分析 爬取网易云音乐播放量大于1000万的歌单. 二.实施步骤 1.安装selenium selenium是一个用于Web应用自动化程序测试的工具,测试直接运行 ...

  9. 【开源项目学习】源码剖析,学习仿网易云音乐app代码

    [前言] 这篇文字不全是讲app代码,而是博主怎么根据代码系统学习梳理的过程,非专业,如有不对,欢迎指出 仿网易云音乐app源码地址:https://github.com/aa112901/remus ...

  10. 新手爬虫——网易云音乐分析

    前言 --一篇关于爬取网易云音乐的简单分析文章,仅供学习交流 本文主要分析用requests对网易云音乐进行访问时的一些问题,selenium可以很好得避开这些问题,本文不做讨论 提示:以下是本篇文章 ...

最新文章

  1. 单人纸牌_NOI导刊2011提高(04)
  2. 8086逻辑运算和移位
  3. JAVA_HOME系统环境变量
  4. 16.看板方法——三类改进机会笔记
  5. while循环python的范围_python-无法在while循环中从列表中排除一定范围内的项目
  6. 自然语言处理(NLP)书籍、项目、视频资源清单
  7. armbian n1 桌面_Armbian5.89桌面版安装OpenMediaVault教程
  8. Redis设计与实现(导航)
  9. PHP解析抖音无水印视频播放地址原理
  10. CoreOS裸机安装步骤(亲测)
  11. OC block的回环引用
  12. 组合数据类型(序列:列表)
  13. 建立FAT文件系统学习笔记
  14. <stm32学习笔记>--基本定时器TIM6TIM7
  15. Java后端实习总结--福州之旅
  16. 采用analysis-dynamic-synonym插件,动态文件的方式同步同义词
  17. TCP重点系列之sack介绍
  18. [MicroPython]TurniBit开发板DIY自动窗帘模拟系统
  19. java使用File类创建文件或文件夹
  20. 使用jspdf将网页转化成pdf(解决滚动条以外变成黑色问题及缺少echarts图表问题)

热门文章

  1. PLC与工业DTU接线快速入门
  2. <EDEM 基础案例02>Rock Box
  3. SecureCRT中文汉化版和永久免费激活。
  4. 需求分析模板_如何进行培训需求分析?
  5. 如何写毕业设计——开题报告
  6. Web浏览器发送POST请求
  7. K均值(K-Means)聚类算法简介
  8. NetApp存储常用检查命令
  9. netapp linux ntfs,netapp存储常用命令
  10. 驱动精灵的护眼大师屏保非常不错