前言

最近刚好在看爬虫,就爬取一下春节祝福语,生成个词云玩一玩,大家有兴趣可以试试,会奉上源代码,很简单。效果图如下:

环境

  1. 环境:windows,

  2. 语言:python,python版本是3.7

  3. 所依赖的第三方包:

    selenium----爬取网站,收集祝福语,这个库做UI自动化测试的估计会比较常见,我这里没采用使用requests库去爬取,用这个库的好处是爬取的过程中页面是实时可见的

    wordcloud---用来生成词云

    PIL---使词云生成想要的轮廓, 这里注意python3.7安装的时候应该使用pip install pillow

    numpy---生成那种有轮廓的词云,还需要安装这个包,这个包将给出形状的图片表示为一个大型矩阵

    jieba---词云生成的词默认是英文,因我们爬取的祝福语是中文,需要用这个库能识别中文,防止中文乱码

以上有兴趣,可以自行这些库加深了解。编程学习资料点击免费领取

思路

(1)我爬取百度,搜索到关于春节祝福语,然后把这些祝福语存放到一个文件中。详细如下:

这里用到了selenium的webdriver, 使用的浏览器是firefox, 创建了一个firefox浏览器对象,然后firefox打开百度,定位到百度输入框,输入搜索词--新春祝福2022,浏览器页面显示如下

在这个页面,我模拟人工点击这第一个搜索出来的结果,跳到其他网址页面,如图

把这个页面的所有祝福语获取到,存到wishes.txt文件中

(2)然后用生成词云的相关库,来解析这个文件,生成词云 这里注意一点的是,生成词云使用的中文字体, font_path使用的是windows的字体库,这里你可以换成其他的字体

word_cloud = WordCloud(mask=mask, font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)复制代码

windows 字体库

源代码

可以修改背景颜色和字题颜色,例如


word_cloud = WordCloud(mask=mask, background_color='white',  contour_color='red', colormap='brg',max_words=600,font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)

重新运行之后,如图

支持的colormap字体颜色集,可参考以下链接 matplotlib.org/2.0.2/examp…

python爬取春节祝福语,并生成心形词云相关推荐

  1. python爬取圣诞祝福语

    眼看平安夜,圣诞节,元旦就要来了,刚学了点python就想着用它来爬取一点祝福语短信来练练手.我选择爬取的网站是个性学习网里面的祝福语短信(http://www.hengexing.com/z/808 ...

  2. python 东哥 with open_向娱乐圈看齐,Python爬取微博评论并制作酷炫的词云!

    2019年伊始,祝愿各位多吃不胖,身体倍儿棒! image 回顾刚刚过去的2018,还有哪些新闻在你心底留有印象? image 怎奈年纪增长,记忆减退,逝去的爆炸新闻也逐渐褪色变得索然无味,毕竟一直以 ...

  3. Python爬取你好李焕英豆瓣短评生成词云

    爬取过程: 你好,李焕英 短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&st ...

  4. Python爬取最近上映的电影评论并生成词云——误杀

    前期准备 准备一张白底图片作为词云底板 说明:本代码爬取的是最近上映的电影,不同的日期运行此段代码可能会得到不同的结果 实现效果 代码实现 import warnings warnings.filte ...

  5. Python 爬取B站视频信息 弹幕信息 生成词云统计

    本文介绍功能:实现爬取B站视频信息(用户输入关键词).爬取弹幕信息(支持自定义天数).生成词云图 完整代码地址:https://github.com/736755244/py_bilibili 一.数 ...

  6. python爬取《三国演义》小说统计词频生成词云图

    python爬取<三国演义>小说&统计词频&生成词云图 注意点: 爬取小说正文时用的正则表达式涉及到多行匹配.需要开启多行模式(?s) book_content_re = ...

  7. Python单线程爬取QQ空间说说存入MySQL并生成词云(超详细讲解,踩坑经历)

    利用python爬取好友说说并分析 看了网上的许多博客,基本上都是一个样,基本的知识也没详细解释,我这次也想跟大家仔细分析一下,自己还是要有一定爬虫基础,本人技术有限,如果本文哪有错误或不够准确的地方 ...

  8. python写圣诞祝福语_python爬取圣诞祝福语,省事好多,再也不用担心笔下无墨

    又是一年一度的圣诞节了,在此祝大家圣诞节快乐! 首先要配置bs4,BeautifulSoup库和requests,代码如下,不同网站可能编码方式不同要调整,不然会导致中文出现乱码,这里以http:// ...

  9. python爬取豆瓣影评生成词云的课程设计报告_简单爬取《小丑》电影豆瓣短评生成词云...

    导语 在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给 ...

最新文章

  1. 从产品的适用性以及费用方面考虑
  2. 批量修改文件名称(Python)
  3. 记录一下vlfeat视觉库配置
  4. 是否可以在其范围之外访问局部变量的内存?
  5. python flask 返回值 状态码 设置
  6. 【Java 虚拟机原理】Class 字节码二进制文件分析 七 ( 局部变量表分析 )
  7. allegro差分信号走线_浅谈硬件设计中的一些思路和方法(5)—信号系统,又学到了...
  8. MobileIMSDK怎样修改服务端核心jar包的源码并替换掉Java服务端的jar包
  9. 移动APP接口安全性设计
  10. 字符串的获取相关方法
  11. C# 强大的新特性 Source Generator
  12. CF 1638 E. Colorful Operations set 区间平推
  13. 【语义分割】论文代码资料汇总
  14. FX DocuCentre S2011 打印机设置双面打印
  15. 开发工具篇——常用开发工具分享
  16. learning bamboo flute
  17. jupyter notebook修改黑色背景和字体大小
  18. google浏览器安装视频插件的方法
  19. 什么是软件 驱动软件 什么是程序
  20. 文法俱乐部 第三章 动词时态

热门文章

  1. Java【常见问题】List如何实现排序?
  2. 屡禁不止:一个敢于将自己注入到杀毒软件中的斗士
  3. 上海推进大数据研究与发展三年行动计划(2013-2015年)
  4. vs2017装gmp大数库写的RSA实现以及用中国剩余定理加速
  5. php iterator,PHP遍历接口Iterator详解
  6. 提示语默认显示标签:placeholder
  7. 图像指数、对数增强、直方图均衡化
  8. 未能移除您的icloud_如何为您的iCloud电子邮件地址创建别名
  9. D. DZY Loves Modification
  10. 小老板创业10大禁忌