简介:快来拿出你珍藏的pick star,用大家对他的爱重塑一个他吧。通过爬取微博评论,制作你的偶像图片词云,天天都是不重样的哦!

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:101677771

06月03号,英雄联盟史上永远的神--UZI退役,一代传奇落下帷幕。

作为联盟史上颇有争议的ADC选手,"狗黑"和"狗吹"无时无刻不展开着激烈的键盘搏杀。那么,在3号UZI的退役微博下,是哪一种声音更多呢?下面让我们一起通过Python爬取微博评论,科学的分析一下吧!

  • 准备工作

首先,我们找到UZI的退役微博评论界面(泪目..):

此时,利用谷歌浏览器的抓包工具,即点击F12,清空所有连接后,F5刷新,看到评论为下面的链接:

记住右边标注红框的部分,一会需要用到它来爬取评论。

同时点击左边第二行hotflow?id...那个network,找到Cookie值,将他复制下来,备用。

然后,通过观察翻页规律,发现第二页比首页评论多了一个参数max_id,而这个参数可以在首页的页面返回值中拿到。故想获得n页的链接,只需要解析n-1页就可以了。

  • 爬微博评论阶段

    首先构造请求头,通过requests库得到页面响应。

headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',    'Accept': 'application/json, text/plain, */*', 'MWeibo-Pwa': '1',    'Referer': 'https://m.weibo.cn/detail/%s' % mid, 'X-Requested-With': 'XMLHttpRequest',    'Cookie': '复制的Cookie值'    }url = args.urlif num > 1:    url = 'https://m.weibo.cn/comments/hotflow?id={}&mid={}&max_id={}&max_id_type=0'.format(mid, mid, max_id)response = requests.get(url, headers=headers

接下来对返回值进行解析:

comment = item['text']comment = emoji.demojize(comment)comment = re.sub('<span.*</span>', ' ', comment)comment = re.sub('<a.*>', ' ', comment)name = item['user']['screen_name']created_at = itemi['created_at']

通过循环获取每条评论的用户名、评论时间和评论内容,并对评论内容做去表情和图片链接的处理,最后保存为csv文件:

df = pd.DataFrame({'用户名': name_list, '评论': comment_list, '时间': created_at_list})df = df.drop_duplicates()df.to_csv('comments.csv', index=False)

结果如图(二次泪目中...):

这样一个简单的爬虫就处理完成了,食材准备好了,主食就应该开火了,起锅烧油!

偶像词云制作

首先,选择你最爱的偶像的照片,这里选择狂小狗童鞋:

然后进行抠图、配上白色背景(如果不进行这一步,最后制作的词云可能会因为色差不明显导致有噪音):

rmbg = RemoveBg("你的api", "error.log")rmbg.remove_background_from_img_file(path)
img = cv2.imread(path, -1) img_copy = img.copy() img_shape = img_copy.shape width = img_shape[0] height = img_shape[1] for yh in range(height): for xw in range(width): color_d = img_copy[xw, yh] if color_d[3] == 0: img_copy[xw, yh] = [255, 255, 255, 255]

上述代码需要用到removebg模块的api,搜索这个模块,注册一下就可以拿到,很简单。

经过这两步处理后,就可以进行词云的制作了。

wc = WordCloud(font_path='simkai.ttf', background_color='white', mask=img)wc.generate_from_frequencies(words)wc.to_file(os.path.join(savepath, title+'.png'))

效果如下图:

可见,人们对于简自豪UZI的退役还是怀念与祝福占主流的,一员老将的离去,标志着一部分人青春的结束,但是未来的旅程也会同样精彩的!

不只是UZI,你喜欢的偶像是谁呢?准备一张他的美照,输入启动命令'python crawling.py --url 评论链接 --image 美照地址',就可以进行词云自动生成了。

看看你爱的他今天是什么‘颜色‘ -- Python爬取微博评论制作专属偶像词云相关推荐

  1. python爬取+BI分析5000条内衣数据,发现妹子最爱这款文胸

    生活中我们经常会用python进行数据爬取,但是爬取简单分析难,很多人喜欢用echarts图表接口或者是python的第三方库进行数据可视化,甚至是用matlab,基本上都需要用代码实现,在数据展示上 ...

  2. 用Python爬取B站、腾讯视频、芒果TV和爱奇艺视频弹幕

    众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...

  3. python爬取爱回收华为手机回收信息

    话说在前头,爬爱回收对我这个菜鸟来说,收获很大(有点麻烦)... 具体代码可见文末我的GitHub链接... 首先明确一下目的,本来是想着爬取全部的价格数据,但是想想未免太多,所以先从手机-华为开始爬 ...

  4. 利用python爬取我爱我家租赁房源信息

    主要思路: 1.通过get方法向服务器提交head文件和cookie信息(通过在chrome网页上面登录之后获取,避免了通过账号密码模拟登陆的繁琐过程),实现模拟登陆的效果 2.访问网页,通过万能的正 ...

  5. 用python爬取爱课程首页所有的图片并下载到本地

    分析:因为是要下载所有的图片,不需要进行筛选.这就简单多了.图片一般都在"src="的后面. 代码: # -*- coding:utf-8 -*-__author__ = 'Boh ...

  6. python爬取二次元肥宅最喜欢的壁纸图片,看过的都说爱了

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  7. python爬取企业电话_如何用python抓取爱企查企业信息

    前段时间,经理让我去找一些企业的信息,我平常习惯于使用爱企查.所以,便想着写一个程序来实现这个,所以有以下的代码:import json import requests import re from  ...

  8. 什么猫咪最受欢迎?Python爬取全网猫咪图片,哪一款是你最爱的

    工具准备 开发工具:pycharm 开发环境:python3.7, Windows11 使用工具包:requests 项目思路解析 做爬虫案例首先需要明确自己的采集目标,白又白这里采集的是当前网页的所 ...

  9. Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是......

    作者 | 量化小白H 责编 | 胡巍巍 Python规划学习路线图,速领取? https://edu.csdn.net/topic/python115?utm_source=csdn_bw 本文爬取了 ...

最新文章

  1. pycharm的安装配置和简单使用
  2. java中处理字符编码(网页与数据库)(转)
  3. powershell /遍历/psobject/字符串转换Json/json数组操作
  4. aws terraform_在AWS第1部分中使用Terraform自动缩放组:基本步骤
  5. python urllib模块学习笔记
  6. 手机卫星定位系统_70%手机已支持北斗却没感受到?下载个App查证下
  7. 1.gloox开发环境搭建
  8. javac参数 编译警告关闭_JVM之JIT即时编译
  9. 《艾恩ASP文件上传类》开发和使用总结
  10. linux欺骗技术,显卡欺骗器状态检测及安装注意事项
  11. 计算机毕业设计的代码会查重吗,一般毕业论文会查重代码吗?
  12. c语言 什么是指针变量,c语言指针详解:什么是指针?
  13. 从小说网站爬取小说并写入txt文档中
  14. excel中图片导入mysql_把Excel的数据(文字、图片)导入MySQL数据库
  15. 游戏编程该读哪些书?
  16. 美国之行---领略真正的美国文化--牛排
  17. 谷歌浏览器反复提示PageOffice安装
  18. 互联网营销新模式,泰山众筹sun4.0模式了解一下
  19. python的下载安装以及两种打开方式
  20. 全志T3开发板——嵌入式入门学习测试教程(4)

热门文章

  1. Android的图片叠加
  2. Python: 装饰器的小例子
  3. VMmware安装VMware Tools问题解决
  4. 部署FIM 2010 R2—1先决条件准备
  5. Agile.Net 组件式开发平台 - 平台系统介绍
  6. REUSE_ALV_GRID_DISPLAY显示ALV,设置可编辑时,与内表数据同步问题
  7. 【转】Win2008 r2 远程桌面授权已过期的解决办法
  8. 【珍藏】 2012.NET开发必看资料53个+经典源码77个—下载目录
  9. 《洛克菲勒留给儿子的38封信》 第四封:现在就去做
  10. Composer - PHP 世界里用于管理项目依赖的工具