今天一时兴起,想用python爬爬自己的博客,通过数据聚合,制作高逼格的云图(对词汇出现频率视觉上的展示),看看最近我到底写了啥文章。

一、直接上几张我的博客数据的云图

1.1 爬取文章的标题的聚合

1.2 爬取文章的摘要的聚合

1.3 爬取文章的标题+摘要的聚合

我最近写了SpringCloud系列教程,还有一些微服务架构方面,从云图上看,基本吻合。你若不信,可以进我的博客看看,数据还是非常准确的

二、技术栈

开发工具: pycharm

爬虫技术:bs64、requsts、jieba

分析工具:wordArt

三、爬虫构架设计

整个爬虫架构非常简单:

获取数据

将数据用“结巴”库,分词。

将得到的数据在在artword上制作云图。

将制作出来的云图展示给用户。

四、具体实现

先根据博客地址爬去数据:

url = 'http://blog.csdn.net/forezp'

titles=set()

def download(url):

if url is None:

return None

try:

response = requests.get(url, headers={

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',

})

if (response.status_code == 200):

return response.content

return None

except:

return None

解析标题

def parse_title(html):

if html is None:

return None

soup = BeautifulSoup(html, "html.parser")

links = soup.find_all('a', href=re.compile(r'/forezp/article/details'))

for link in links:

titles.add(link.get_text())

解析摘要:

def parse_descrtion(html):

if html is None:

return None

soup=BeautifulSoup(html, "html.parser")

disciptions=soup.find_all('div',attrs={'class': 'article_description'})

for link in disciptions:

titles.add(link.get_text())

def jiebaSet():

strs=''

if titles.__len__()==0:

return

for item in titles:

strs=strs+item;

tags = jieba.analyse.extract_tags(strs, topK=100, withWeight=True)

for item in tags:

print(item[0] + '\t' + str(int(item[1] * 1000)))

因为数据比较少,所以我直接打印在控制台,并把它复制下来,更好的方法是存在mongodb中。

制作云图:

用 artword在线工具,地址:https://wordart.com

首先:

导入从控制台复制过来的数据:

令人尴尬的是,这个网站在绘制图的时候不支持中文,需要你从c:/windows/fonts下选择一个支持中文的字体,mac 用户从windows拷下文件夹也可以,或者在网上下。

然后点击Visulize就可以生成高逼格的云图了。讲解完毕,有什么需要改进的请大家留言。

五、文章参考

优秀文章推荐:

扫码关注公众号有惊喜

(转载本站文章请注明作者和出处 方志朋的博客)

python云图制作壮观天体照_Python爬虫,看看我最近博客都写了啥,带你制作高逼格的数据聚合云图...相关推荐

  1. python云图制作壮观天体照_Python爬取个人博客,带你制作高逼格的数据聚合云图...

    点击上方"中兴开发者社区",关注我们 每天读一篇一线开发者原创好文 本文出自方志朋的博客 链接:http://blog.csdn.net/forezp/article/detail ...

  2. python爬虫搜特定内容的论文_Python 爬虫爬取指定博客的所有文章

    自上一篇文章 Z Story : Using Django with GAE Python 后台抓取多个网站的页面全文 后,大体的进度如下: 1.增加了Cron: 用来告诉程序每隔30分钟 让一个ta ...

  3. 推荐一部python教程_Python爬虫入门教程:博客园首页推荐博客排行的秘密

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

  4. python爬虫源码附注解_Python爬虫遇到验证码的几种处理方式,文章末尾有源码

    最近事情其实挺多了,打了一下蓝桥杯的比赛, 还在准备着一些证书的考试, 关于爬虫之类的博客都搁着了一段时间了, 关于我自己确实有点退步了, 实属不该, 其实我自己也是在想, 大三了,到底我是要去考研, ...

  5. python爬虫爬取csdn博客专家所有博客内容

    python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...

  6. CSDN爬虫(四)——博客专家(所有)爬取+数据分析

    CSDN爬虫(四)--博客专家(所有)爬取+数据分析 说明 开发环境:jdk1.7+myeclipse10.7+win74bit+mysql5.5+webmagic0.5.2+jsoup1.7.2 爬 ...

  7. java 使用webmagic 爬虫框架爬取博客园数据

    java 使用webmagic 爬虫框架爬取博客园数据存入数据库 学习记录   webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. ht ...

  8. dev里timeedit控件如何赋值_如何制作高逼格的数据地图(二)

    上一期介绍的是如何通过Power Map制作数据地图.但如果Excel在没有安装该组件,应该怎么办?如果希望实现更加个性化的设置,又有什么方法? 那么,通过VBA代码也可以实现数据地图的制作. 相比之 ...

  9. 从单片机开发转向Linux开发系列博客五:Nand Flash根文件系统制作

    版本 作者 参与者 日期 备注 V1.0 wuya(微信号:wangwenxue1989) 2019/05/17 创建 1.引言 之前系列的文章介绍了如何编译Uboot.Kernel以及使用默认的ra ...

最新文章

  1. 第三章| 3.1文件处理
  2. 扫描全能王文件上传不了服务器,扫描全能王如何备份JPG 文件备份JPG办法
  3. python 代码-Python Insider
  4. 一阶电路暂态响应的结果分析。_反激式DCDC变换器的分析、计算与仿真精讲
  5. 关于捕获键盘信息的processDialogkey方法2--具体应用
  6. Java数据持久层框架 MyBatis之API学习六(Mapper XML 文件详解)
  7. 计算机控制技术数据存储器有,计算机控制技术复习资料.doc
  8. 驱动开发入门 - 之一:Win7 SP1 x64 驱动开发环境搭建
  9. python拼接sql语句字符串 无效字符,Python拼接SQL字符串的方法
  10. 国标高数教材搞乱了微积分学界
  11. 您知道这是什么的,对吧!
  12. Falsy Bouncer(算法)
  13. 基础优化 标题优化 上下架注意事项 流量少 转换率低 加购收藏 店铺层级 动销率 动态评分 当你弄清楚这些,自然流量的起来的重要因素
  14. 给软件工程师的自学建议
  15. 2.SQL的CRUD操作
  16. 物联网专业本科毕业论文选题
  17. airpods pro是按压还是触摸_使用AirPods Pro一个月后,我是这么看待它的
  18. 计算机报税流程,河南地税电子税务局电脑版纳税申报操作流程(图文)
  19. 中鑫吉鼎|家庭成长期如何进行理财规划
  20. day61——自我检讨

热门文章

  1. xp打印服务器win10的系统连接不上,win10连上xp共享的打印机无法打印为什么
  2. selenium如何控制已打开浏览器
  3. 教你在微信拼接长图片
  4. 华为占据折叠手机市场半数份额,证明它在高端市场的地位无可替代
  5. 空格键 还是 Tab键?
  6. 输入圆的半径,求面积
  7. 网易严选风控实践(上)-打造现代化的风控体系
  8. 我的C++回调函数的理解
  9. 个人积累linux 日常命令
  10. 为什么现在的年轻人动不动就离职