python爬取春节祝福语,并生成心形词云
前言
最近刚好在看爬虫,就爬取一下春节祝福语,生成个词云玩一玩,大家有兴趣可以试试,会奉上源代码,很简单。效果图如下:
环境
环境:windows,
语言:python,python版本是3.7
所依赖的第三方包:
selenium----爬取网站,收集祝福语,这个库做UI自动化测试的估计会比较常见,我这里没采用使用requests库去爬取,用这个库的好处是爬取的过程中页面是实时可见的
wordcloud---用来生成词云
PIL---使词云生成想要的轮廓, 这里注意python3.7安装的时候应该使用pip install pillow
numpy---生成那种有轮廓的词云,还需要安装这个包,这个包将给出形状的图片表示为一个大型矩阵
jieba---词云生成的词默认是英文,因我们爬取的祝福语是中文,需要用这个库能识别中文,防止中文乱码
以上有兴趣,可以自行这些库加深了解。编程学习资料点击免费领取
思路
(1)我爬取百度,搜索到关于春节祝福语,然后把这些祝福语存放到一个文件中。详细如下:
这里用到了selenium的webdriver, 使用的浏览器是firefox, 创建了一个firefox浏览器对象,然后firefox打开百度,定位到百度输入框,输入搜索词--新春祝福2022,浏览器页面显示如下
在这个页面,我模拟人工点击这第一个搜索出来的结果,跳到其他网址页面,如图
把这个页面的所有祝福语获取到,存到wishes.txt文件中
(2)然后用生成词云的相关库,来解析这个文件,生成词云 这里注意一点的是,生成词云使用的中文字体, font_path使用的是windows的字体库,这里你可以换成其他的字体
word_cloud = WordCloud(mask=mask, font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)复制代码
windows 字体库
源代码
注
可以修改背景颜色和字题颜色,例如
word_cloud = WordCloud(mask=mask, background_color='white', contour_color='red', colormap='brg',max_words=600,font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)
重新运行之后,如图
支持的colormap字体颜色集,可参考以下链接 matplotlib.org/2.0.2/examp…
python爬取春节祝福语,并生成心形词云相关推荐
- python爬取圣诞祝福语
眼看平安夜,圣诞节,元旦就要来了,刚学了点python就想着用它来爬取一点祝福语短信来练练手.我选择爬取的网站是个性学习网里面的祝福语短信(http://www.hengexing.com/z/808 ...
- python 东哥 with open_向娱乐圈看齐,Python爬取微博评论并制作酷炫的词云!
2019年伊始,祝愿各位多吃不胖,身体倍儿棒! image 回顾刚刚过去的2018,还有哪些新闻在你心底留有印象? image 怎奈年纪增长,记忆减退,逝去的爆炸新闻也逐渐褪色变得索然无味,毕竟一直以 ...
- Python爬取你好李焕英豆瓣短评生成词云
爬取过程: 你好,李焕英 短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&st ...
- Python爬取最近上映的电影评论并生成词云——误杀
前期准备 准备一张白底图片作为词云底板 说明:本代码爬取的是最近上映的电影,不同的日期运行此段代码可能会得到不同的结果 实现效果 代码实现 import warnings warnings.filte ...
- Python 爬取B站视频信息 弹幕信息 生成词云统计
本文介绍功能:实现爬取B站视频信息(用户输入关键词).爬取弹幕信息(支持自定义天数).生成词云图 完整代码地址:https://github.com/736755244/py_bilibili 一.数 ...
- python爬取《三国演义》小说统计词频生成词云图
python爬取<三国演义>小说&统计词频&生成词云图 注意点: 爬取小说正文时用的正则表达式涉及到多行匹配.需要开启多行模式(?s) book_content_re = ...
- Python单线程爬取QQ空间说说存入MySQL并生成词云(超详细讲解,踩坑经历)
利用python爬取好友说说并分析 看了网上的许多博客,基本上都是一个样,基本的知识也没详细解释,我这次也想跟大家仔细分析一下,自己还是要有一定爬虫基础,本人技术有限,如果本文哪有错误或不够准确的地方 ...
- python写圣诞祝福语_python爬取圣诞祝福语,省事好多,再也不用担心笔下无墨
又是一年一度的圣诞节了,在此祝大家圣诞节快乐! 首先要配置bs4,BeautifulSoup库和requests,代码如下,不同网站可能编码方式不同要调整,不然会导致中文出现乱码,这里以http:// ...
- python爬取豆瓣影评生成词云的课程设计报告_简单爬取《小丑》电影豆瓣短评生成词云...
导语 在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给 ...
最新文章
- 从产品的适用性以及费用方面考虑
- 批量修改文件名称(Python)
- 记录一下vlfeat视觉库配置
- 是否可以在其范围之外访问局部变量的内存?
- python flask 返回值 状态码 设置
- 【Java 虚拟机原理】Class 字节码二进制文件分析 七 ( 局部变量表分析 )
- allegro差分信号走线_浅谈硬件设计中的一些思路和方法(5)—信号系统,又学到了...
- MobileIMSDK怎样修改服务端核心jar包的源码并替换掉Java服务端的jar包
- 移动APP接口安全性设计
- 字符串的获取相关方法
- C# 强大的新特性 Source Generator
- CF 1638 E. Colorful Operations set 区间平推
- 【语义分割】论文代码资料汇总
- FX DocuCentre S2011 打印机设置双面打印
- 开发工具篇——常用开发工具分享
- learning bamboo flute
- jupyter notebook修改黑色背景和字体大小
- google浏览器安装视频插件的方法
- 什么是软件 驱动软件 什么是程序
- 文法俱乐部 第三章 动词时态