原标题:利用简书首页文章标题数据生成词云

感谢关注天善智能,走好数据之路↑↑↑

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

1.词云图

词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。

先看几个词云图

简书签约作者标签词云

2.推荐几个不错的词云图工具

Tagul

Tagul云可以自定义字体、词云的形状(有爱心、BUS、雪人、人像、UFO等),颜色等,做出来的词云图很酷炫,为网站访问者提供良好的用户体验。用户可以在网站做好词云图,然后印在衣服、杯子、鼠标垫等地方,自己设计身边的物件,感觉很有成就感,很实用的网站。

图悦

这款国内的在线词频分析工具,在长文本自动分词并制作词云方面还是很出众的,而且也容易上手,还可以自定义定制图形模板:标准、微信、地图等,切换自如,用起来体验很不错。

BDP个人版

这是一款数据可视化工具,除了词云,还有很多其他酷炫的图表,如GIS地图、漏斗图、瀑布图、桑基图等,来了解它们的词云。工具很容易上手,直接把词语这个数据拉到维度栏,再选择词云就瞬间呈现词云图表,BDP会自动算好词频,你可以设置颜色,快速实现词云可视化,特别简单。

Python的扩展包wordcloud也可构建词云。安装命令

#安装词云pip install wordcloud

#安装jieba分词pip install jieba

1、引入模块

from wordcloud import WordCloud

import matplotlib.pyplot as plt

2、实例化一个词云

wc = WordCloud()

3、导入文本

text = open(r"222.txt",encoding='utf-8').read()

4、生成词云

wc.generate(text)

5、显示词云

plt.imshow(wc)

#导入python画图的库,词云生成库和jieba的分词库

import matplotlib.pyplot as plt

from wordcloud import WordCloud

import jieba

#读取txt格式的文本内容text_from_file_with_apath = open('JsIndex.txt').read()

#使用jieba进行分词,并对分词的结果以空格隔开wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)

wl_space_split = " ".join(wordlist_after_jieba)

#对分词后的文本生成词云my_wordcloud = WordCloud().generate(wl_space_split)

#用pyplot展示词云图。

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

入门可以参考博客python词云 wordcloud 入门,安装的时候建议使用依赖包安装,我用命令安装了几次一直超时失败。

3.爬取数据,制作词云图

1.爬取简书首页推荐文章标题

分析网页结构通过Xpath筛选我们想要的数据有两种方法

通过谷歌商店的Xpath工具分析结构得到我们想要的数据

直接复制title的xpath,不过我们只能得到这一条数据,所以还要修改

编写代码

得到我们的数据

2.制作词云图

工具 我使用的是TAGUL 一款在线词云制作工具,简单易上手,缺点只能分词英文,需要导入中文字体。

操作:Import words , 可以直接粘贴导入文本数据,或者以web url的方式导入。文本数据包括关键词和size。选择形状shapes -- 也可自定义形状图片TAGUL提供了一些模板图形,左边是分类主题。分词技术推荐两个分词工具,一个是在线分词工具 基于深度学习的中文在线抽词-PullWord,另一个是结巴分词(jieba)。

本文作者:天善智能社区_知几

后续更多交流,联系小编:tstoutiao

天善学院svip正限时特惠火爆报名中!包含业务知识一站通、Excel BI商业智能、七周成为数据分析师、对话大数据系列技术、R语言15案例、Python3网络爬虫实战案例、Python机器学习、Python数据科学家精华实战课程、深度学习模型和实战课程、数据分析报告共10套课程,其他课程只需五折即可,欢迎大家关注报名。https://www.hellobi.com/svip返回搜狐,查看更多

责任编辑:

python生成文章标题_利用简书首页文章标题数据生成词云相关推荐

  1. 基于python爬虫的论文标题_Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】...

    本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法.分享给大家供大家参考,具体如下: from urllib import request from bs4 import Beaut ...

  2. Node爬取简书首页文章

    Node爬取简书首页文章 博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章 流程分析 使用superagent发送http请求到服务端,获取HTML文本 用cheerio解析获得的 ...

  3. python爬虫抓取分页_Python爬虫—简书首页数据抓取

    简书 本该昨天完成的文章,拖了一天.可能是没休息好吧,昨天的在思路以及代码处理上存在很多问题,废话不多说,我们一起来看一下简书首页数据的抓取. 抓取的信息 2.2)简书首页文章信息 http://ww ...

  4. 简书首页标题配图bug,偶发,未能重现(可以重现2017-12)

    现象1:首页不显示配图(之前在移动网络下查看一次7日热门,然后简书首页的标题配图异常消失) 图片发自简书App 无论设置移动网络下加载图片还是不加载图片,移动4G网络首页均无法显示标题配图. &quo ...

  5. python关键词 打标签详解_Python学习日记13|利用python制作简书首页热门文章关键词标签云...

    今天是6.16号. 昨天去面越秀金融风险控制部计算机实习生,去面了才知道主要也就是做数据抓取这一块.面试过程中有问到分词,然后自己心虚的说了有接触过分词这一块,面试结果就不去想了,过不过都其实不重要了 ...

  6. python 简书_python爬取简书网文章的方法

    python爬取简书网文章的方法 发布时间:2020-06-30 14:37:08 来源:亿速云 阅读:100 作者:清晨 这篇文章主要介绍python爬取简书网文章的方法,文中示例代码介绍的非常详细 ...

  7. 爬虫36计 之 1.2 爬取文章-简书首页推荐文章

    文章目录 爬取文章-简书首页推荐文章 页面分析 页面源码分析 代码编写 获取第一页的内容 解析第一页面的方法:_parse_li() 获取下一页的方法:_handle_next_page() 实例运行 ...

  8. 简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

    一.前言 最近写得两篇关于简书的数据可视化文章:<简书推荐作者风云榜(爬取简书app数据)>.<我的简书一月记:数据可视化>反响都还不错,因而将继续针对简书进行数据分析和可视化 ...

  9. 如何写好标题,才能轻松上简书首页?

    "标题在大部分的广告中,都是最重要的元素,能够决定读者到底会不会看这则广告.一般来说,读标题的人比读内文的人多4倍,你所写的标题的价值僵尸整个广告预算的80%."  -大卫·奥格威 ...

最新文章

  1. WebGIS中基于AGS的画圆查询简析以及通过Polygon来构造圆的算法
  2. 对于一个人工智能项目如何把模型调整为最好
  3. 互斥信号量的原理与创建
  4. 用indesign怎么更换名牌姓名_颚式破碎机如何拆卸?耐磨件怎么更换,可以用多久?答案都在这里...
  5. Docker框架使用系列教程(六)创建镜像
  6. 工控随笔_04_西门子_解决Step 7软件因授权问题不能打开的方式和方法
  7. vue 设置proxyTable - pathRewrite无效
  8. HbuilderX、Hbuilder编辑器如何使用手机调试app
  9. NOIP2014 写后感
  10. 编程简单的计算机,计算机简单编程示例
  11. element-ui上传图片的使用upload
  12. 计算机应用教程 卢湘鸿答案,计算机应用教程(Windows 2000环境)习题解答与实验指导...
  13. word文档解除编辑受限(忘记密码)
  14. Day51:HEIL AI
  15. Java学习--多线程案例--模拟火车票销售(线程安全问题)
  16. html文本如何逐渐淡入,CSS如何实现文字淡入效果
  17. 传说之下计算机音乐大全,传说之下同人音乐
  18. android 内部sdcard出错处理errors=remount-ro改为errors=continue
  19. 解决Mac下窗口无法最大化的问题 - 只有最小化和全屏怎么够
  20. 建立自己的iOS开发体系

热门文章

  1. Ubuntu下mingw和aarch64交叉编译x264/x265/openssl/freetype2的ffmpeg
  2. 软件测试前景怎么样?大概要学什么?
  3. Redis中的布隆过滤器与布谷鸟过滤器,你了解多少?
  4. linux运行blast,linux blast
  5. 专利缴费后如何获取发票
  6. php音频对比技术,HIFIDIY论坛-三种音频功放的音质特点比较 供参考 - Powered by Discuz!...
  7. Golang学习日志 ━━ gin-vue-admin实现多数据库db-list
  8. 北京大学可视化发展前沿研究生暑期学校Day3
  9. 搭建传奇游戏,都需要准备什么东西。
  10. 【编程题】【Scratch二级】2021.03 寻找宝石