十二、爬了CSDN,我发现了这些
最近,有点兴趣爬下自己在CSDN 的博客,并做出词云图来看下自己究竟写了什么
说起,就开干,下面是博客主页:https://blog.csdn.net/weixin_44510615
环境
操作系统:Windows
Python版本:3.7.2
模块
本文涉及到的Python第三方模块,共计五个:分词模块jieba,文字云模块wordcloud,画图模块matplotlib,用来处理背景图片的模块cv2,访问的模块requests,解析的模块bs4
这些模块均可通过pip方式进行安装。
实现思路
先获得每个文章的前言,用集合来存储,这样可以达到去重,在拼接成字符串。再通过jieba模块对字符串进行分词处理,然后对处理后的材料使用wordcloud文字云模块生成相应的词云图片即可。
先判断是否访问成功
titles = set()
def html(url):if url:r = request
十二、爬了CSDN,我发现了这些相关推荐
- 《深入理解 Spring Cloud 与微服务构建》第十二章 服务注册和发现 Consul
<深入理解 Spring Cloud 与微服务构建>第十二章 服务注册和发现 Consul 文章目录 <深入理解 Spring Cloud 与微服务构建>第十二章 服务注册和发 ...
- 数据与广告系列二十二:智能化投放中扩量场景的技术实现策略
作者·黄崇远 公众号 『数据虫巢』 全文8968字 题图ssyer.com " 人不够,系统给你凑." 这个系列上一篇<数据与广告系列二十一:关于品牌广告,奔涌吧后浪> ...
- 四十二、Scrapy爬取csdn的博客标题和网址
@Author:Runsen 每天一爬虫,健康生活每一天. 今天使用Scrapy爬下CSDN的文章的url 目标:爬取CSDN的各类文章的url,简单使用scrapy 来爬取 创建的Scrapy项目如 ...
- 我用java爬了一下CSDN,发现了这些秘密。。。
大家好,我是大尧. 今天我们使用Java语言写一个爬虫,用来爬取csdn首页推荐博客的博主,看看这些博主有多少人在写微信公众号. 一.爬虫原理 爬虫就是去请求某个url,然后将响应的页面进行解析,将解 ...
- Docker最全教程之Python爬网实战(二十二)
Python目前是流行度增长最快的主流编程语言,也是第二大最受开发者喜爱的语言(参考Stack Overflow 2019开发者调查报告发布).笔者建议.NET.Java开发人员可以将Python发展 ...
- 第十二章——SQLServer统计信息(3)——发现过期统计信息并处理
第十二章--SQLServer统计信息(3)--发现过期统计信息并处理 原文: 第十二章--SQLServer统计信息(3)--发现过期统计信息并处理 前言: 统计信息是关于谓词中的数据分布的主要信息 ...
- CSDN日报19035——流浪地球 春节十二响程序开源代码
游戏开发 | [流浪地球]春节十二响程序开源代码 作者:刺客五六柒 前几天看完流浪地球,被李长条的春节十二响惊到了,这几天看了下别的博主写的开源伪代码(借鉴了框架),试着用CMD实现了模拟的行星发动机 ...
- 第十二章:Ozzie调度系统高级实战-CSDN就业班-专题视频课程
第十二章:Ozzie调度系统高级实战-26人已学习 课程介绍 1.Oozie核心原理与概念 2.Oozie安装与部署 3.Oozie调度MapReduce与Hive Job 4.Ooz ...
- 二十周年,敬 CSDN
二十周年,敬 CSDN 邂逅你,在一个春回大地的二月: 我像小兔乱撞,一不小心地就闯进了你的心房: 我在这里探索,在这里寻找希望: 你像一个和蔼可亲的母亲,提供给我丰富的技术营养. 熟悉你,在一个牡丹 ...
- [Python从零到壹] 十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
最新文章
- Java反射机制分析指南
- httpd(一)--基础、认证
- shell 去掉字符串中的字母
- 传统企业建模原理及建模体系介绍
- BugKuCTF 加密 简单加密
- Facebook 360度音频编码与渲染
- webService学习8:wsdl文档解释
- Multi_thread--Linux下多线程编程中信号量介绍及简单使用
- LeetCode-144:二叉树的前序遍历
- Centos/linux开放端口
- 导航卫星系统行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
- UICollectionViewCell 所遇到的问题
- t14m4t:一款功能强大的自动化暴力破解工具
- SAP动态下载数据库表数据至EXCEL
- gaussian窗口函数_常用窗函数的特点
- 大数据清洗、转换工具——ETL工具概述
- C UDR 的内存分配
- CentOS 7.3安装详解
- 荒岛求生html5小游戏在线玩,荒岛求生
- vscode下git的常见操作
热门文章
- php extract 变量覆盖,extract变量覆盖
- c语言ad采样程序思路,单片机AD采样程序及其寄存器讲解
- MTK 修改默认Text-to-speech Patch
- java简易计算器考察什么_练习:用java写一个简易计算器
- phpcms mysql 事务_phpcms某站点MySQL报错注入
- python history没有定义_python AttributeError:'Tensor'对象没有属性'_keras_history'_python_酷徒编程知识库...
- in_array foreach array_search的性能比较
- 利用WINDOWS活动目录提供LDAP的方案
- 【BZOJ-4522】密钥破解 数论 + 模拟 ( Pollard_Rho分解 + Exgcd求逆元 + 快速幂 + 快速乘)...
- 总结 · 二分图匹配