最近,有点兴趣爬下自己在CSDN 的博客,并做出词云图来看下自己究竟写了什么

说起,就开干,下面是博客主页:https://blog.csdn.net/weixin_44510615

环境

  • 操作系统:Windows

  • Python版本:3.7.2

模块

本文涉及到的Python第三方模块,共计五个:分词模块jieba,文字云模块wordcloud,画图模块matplotlib,用来处理背景图片的模块cv2,访问的模块requests,解析的模块bs4
这些模块均可通过pip方式进行安装。

实现思路

先获得每个文章的前言,用集合来存储,这样可以达到去重,在拼接成字符串。再通过jieba模块对字符串进行分词处理,然后对处理后的材料使用wordcloud文字云模块生成相应的词云图片即可。

先判断是否访问成功

titles = set()
def html(url):if url:r = request

十二、爬了CSDN,我发现了这些相关推荐

  1. 《深入理解 Spring Cloud 与微服务构建》第十二章 服务注册和发现 Consul

    <深入理解 Spring Cloud 与微服务构建>第十二章 服务注册和发现 Consul 文章目录 <深入理解 Spring Cloud 与微服务构建>第十二章 服务注册和发 ...

  2. 数据与广告系列二十二:智能化投放中扩量场景的技术实现策略

    作者·黄崇远 公众号 『数据虫巢』 全文8968字 题图ssyer.com " 人不够,系统给你凑." 这个系列上一篇<数据与广告系列二十一:关于品牌广告,奔涌吧后浪> ...

  3. 四十二、Scrapy爬取csdn的博客标题和网址

    @Author:Runsen 每天一爬虫,健康生活每一天. 今天使用Scrapy爬下CSDN的文章的url 目标:爬取CSDN的各类文章的url,简单使用scrapy 来爬取 创建的Scrapy项目如 ...

  4. 我用java爬了一下CSDN,发现了这些秘密。。。

    大家好,我是大尧. 今天我们使用Java语言写一个爬虫,用来爬取csdn首页推荐博客的博主,看看这些博主有多少人在写微信公众号. 一.爬虫原理 爬虫就是去请求某个url,然后将响应的页面进行解析,将解 ...

  5. Docker最全教程之Python爬网实战(二十二)

    Python目前是流行度增长最快的主流编程语言,也是第二大最受开发者喜爱的语言(参考Stack Overflow 2019开发者调查报告发布).笔者建议.NET.Java开发人员可以将Python发展 ...

  6. 第十二章——SQLServer统计信息(3)——发现过期统计信息并处理

    第十二章--SQLServer统计信息(3)--发现过期统计信息并处理 原文: 第十二章--SQLServer统计信息(3)--发现过期统计信息并处理 前言: 统计信息是关于谓词中的数据分布的主要信息 ...

  7. CSDN日报19035——流浪地球 春节十二响程序开源代码

    游戏开发 | [流浪地球]春节十二响程序开源代码 作者:刺客五六柒 前几天看完流浪地球,被李长条的春节十二响惊到了,这几天看了下别的博主写的开源伪代码(借鉴了框架),试着用CMD实现了模拟的行星发动机 ...

  8. 第十二章:Ozzie调度系统高级实战-CSDN就业班-专题视频课程

    第十二章:Ozzie调度系统高级实战-26人已学习 课程介绍         1.Oozie核心原理与概念 2.Oozie安装与部署 3.Oozie调度MapReduce与Hive Job 4.Ooz ...

  9. 二十周年,敬 CSDN

    二十周年,敬 CSDN 邂逅你,在一个春回大地的二月: 我像小兔乱撞,一不小心地就闯进了你的心房: 我在这里探索,在这里寻找希望: 你像一个和蔼可亲的母亲,提供给我丰富的技术营养. 熟悉你,在一个牡丹 ...

  10. [Python从零到壹] 十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

最新文章

  1. Java反射机制分析指南
  2. httpd(一)--基础、认证
  3. shell 去掉字符串中的字母
  4. 传统企业建模原理及建模体系介绍
  5. BugKuCTF 加密 简单加密
  6. Facebook 360度音频编码与渲染
  7. webService学习8:wsdl文档解释
  8. Multi_thread--Linux下多线程编程中信号量介绍及简单使用
  9. LeetCode-144:二叉树的前序遍历
  10. Centos/linux开放端口
  11. 导航卫星系统行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  12. UICollectionViewCell 所遇到的问题
  13. t14m4t:一款功能强大的自动化暴力破解工具
  14. SAP动态下载数据库表数据至EXCEL
  15. gaussian窗口函数_常用窗函数的特点
  16. 大数据清洗、转换工具——ETL工具概述
  17. C UDR 的内存分配
  18. CentOS 7.3安装详解
  19. 荒岛求生html5小游戏在线玩,荒岛求生
  20. vscode下git的常见操作

热门文章

  1. php extract 变量覆盖,extract变量覆盖
  2. c语言ad采样程序思路,单片机AD采样程序及其寄存器讲解
  3. MTK 修改默认Text-to-speech Patch
  4. java简易计算器考察什么_练习:用java写一个简易计算器
  5. phpcms mysql 事务_phpcms某站点MySQL报错注入
  6. python history没有定义_python AttributeError:'Tensor'对象没有属性'_keras_history'_python_酷徒编程知识库...
  7. in_array foreach array_search的性能比较
  8. 利用WINDOWS活动目录提供LDAP的方案
  9. 【BZOJ-4522】密钥破解 数论 + 模拟 ( Pollard_Rho分解 + Exgcd求逆元 + 快速幂 + 快速乘)...
  10. 总结 · 二分图匹配