词频分析是对文章中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。

前一阵子有一篇热文,小学生用大数据分析苏轼,说的就是清华附小的学生用词频分析方法对苏轼的作品进行了分析,很多网友解嘲说感觉智商遭到了暴击,其实只要有合适的工具谁都可以进行词频分析,下面介绍一个超强的词频分析网站:糖果云网站 www.tgyun.cc

糖果云面向个人及团体提供大数据存储,大数据分析以及大数据交易市场服务。

​糖果云的总体目标是建设一个分类的知识库与数据库,方便全人类的查阅和检索,提高用户对知识获取的速度,提高了工作效率,和学习的进度,为推动人类知识进步做出贡献。

下面我们看看糖果网站提供的词频统计功能,下图是糖果云网站对红楼梦做出的词频统计:

http://www.tgyun.cc/lib/bigtang_红楼梦

从上图可以看到,红楼梦中哪个人物的篇幅最多?哪个人物曹雪芹更注重?这个统计就一清二楚了,我不是红学专家,这个统计里应该还有很多内容可以解说。

说到小学生,就再来看看小学生所做的研究,用大数据来分析苏轼:

下图是糖果云网站对苏轼诗词作品做出的词频统计: http://www.tgyun.cc/lib/user_苏轼诗词全集

词频统计技术涉及到分词技术,分词技术一般有两种做法:

一种是维护一个大词库,文章与词库匹配进行分词,这种方法有个缺点,就是需要不停的加入新词,否则新词统计不到,小学生的分析文章也提到,子由是一个新词,现代汉语没有叫做子由这个词的,那么苏轼的诗词中为什么这么多子由呢?原来子由是苏轼的弟弟!苏轼弟弟苏辙字子由, 苏东波字子瞻。

另一种叫做统计分词,糖果云采用的技术即为统计分词,可以看到子由是个新词,照样被糖果云统计到。这种技术无需担心新词,新词只要有使用量,就可以被统计出来。

糖果云的词频统计超级强大,无论是一篇文章还是几个G的文本,均可轻松统计。
那么怎么对你的文本资料进行词频统计呢?

操作方法:
1 把文章文本资料另存为txt文件;
2 把txt文件压缩成zip文件;
3 把zip文件上传到糖果云,之后,就可以在糖果云库中查找到该文章及词频统计数据了。

超强大在线词频统计功能,从一篇文章到一个G的文本均可轻松统计相关推荐

  1. 【统计学习】一篇文章理解什么是组间差异检验

    理解什么是组间差异检验 参数检验与非参数检验 抽样分布 展示差异的常用图表 箱线图(boxplot) 散点图(Scatter plot) 热图(heatmap) 树状图 如何寻找差异? 基于类别标签的 ...

  2. 解决Redis大key问题,看这一篇文章就够了

    作者 | 个推数据库工程师  嘉木 个推作为国内第三方推送市场的早期进入者,专注于为开发者提供高效稳定的推送服务,经过9年的积累和发展,服务了包括新浪.滴滴在内的数十万APP.由于我们推送业务对并发量 ...

  3. 大忽悠还是万能药?一篇文章看懂大数据真相

    01 这位先生,您好,您听过大数据么? 不不不,不是锯大树的那个锯...是很大的数据,特别大,是今年最流行的,人人都在谈的先进技术--您只要用了我们的大数据分析方案,保证您的企业盈利得到前所未有的增长 ...

  4. 企业大数据战略规划,看这一篇文章就够了!

    ZD至顶网CIO与应用频道 08月03日 北京消息:我们正迎来一个数据爆炸的时代,大数据的理念传播已经如火如荼,然而如何通过大数据应用真正实现商业价值?我们不断听到以下困惑: ·"都在谈大数 ...

  5. office 文档 在线预览功能实现(word,excel,pdf,ppt等多种格式)——使用https://view.xdocin.com/view 提示文档过期——基础积累

    web实现office文档在线预览功能--基础积累 最近遇到一个需求,就是要实现多种文档链接的在线预览,最简单的方式就是通过window.open(url地址)的方式来实现. 但是如果要求是在一个弹窗 ...

  6. 学习笔记-一篇文章带你领悟frida的精髓

    一篇文章带你领悟frida的精髓(基于安卓8.1) frida是啥? frida为什么这么火? frida实操环境 基本能力Ⅰ:hook参数.修改结果 基本能力Ⅱ:参数构造.方法重载.隐藏函数的处理 ...

  7. 参考文献怎么查找,去哪里查找?一篇文章讲明白这些问题

    在我们撰写论文查找参考文献时,往往不知道从哪里入手,本文小编就针对下面这三个方面给大家详细讲解下: 一.查找参考文献方法 二.参考文献资料查找网站 三.参考文献格式规范 一.查找参考文献方法: 1.知 ...

  8. CSDN产品公告第3期:博客数据统计功能上线,OFFER大挑战等你来!

    各位小主,咱们又见面了!在前两期的公告中,CSDN产品组已感受到大家对我们深沉的爱,再此谢谢大家的褒贬.服务好每一位用户,是我们一直不变的初心. 在过去一周,开发在产品的鞭策下,又带来了哪些功能呢? ...

  9. python分词统计词频_-用python找出一篇文章中词频最高的20个单词

    python统计一个大文件中很多小文件里面的词频 #!/usr/bin/env python3.6 from collections import Counter from functools imp ...

最新文章

  1. 2018帮助_字节跳动扶贫获“北京市扶贫协作奖”,一年帮助8万贫困人口增收
  2. SQL2008中Merge的用法
  3. 【酒桌文化】座次、上菜、喝酒的规矩
  4. 10行代码AC——1016 部分A+B (15分)
  5. 解决mysql的乱码问题_完美解决mysql中文乱码的问题
  6. php通过条件来定义const,php用const出错是什么原因
  7. python协成_Python协程技术的演进
  8. 高通平台添加或者移植一个完整的camera
  9. 多线程的那点儿事(之生产者-消费者)
  10. 最近在学习文案,一边看文案书,一边勾画笔记,一边练习
  11. 一扬开源新闻静态生成系统V1.0发布
  12. P问题、NP问题、NPC问题、NP-hard问题详解
  13. idea配置阿里格式化模板+注释模板
  14. 方寸微电子T630 USB3.0超高速接口芯片 可替换赛普拉斯USB接口芯片 CYUSB3014 (应用:工业相机,视频会议, 3D打印, 高清B超,USB3.0视频采集卡, 高拍器、仪器仪表设备等)
  15. 有关ucenter同步的原理(个人总结的一点浅薄见解)
  16. Buu Crypto
  17. 点击率是什么以及怎么提升点击率
  18. mac请在微信客户端连接服务器,微信官方Mac版客户端,这次是真的。
  19. javascript 全栈_什么是JavaScript? 全栈编程语言
  20. 知识丨软件定义汽车的价值

热门文章

  1. Java面试——消息队列
  2. java hypot_Java StrictMath hypot()用法及代码示例
  3. ”35岁没500万存款就是失败?“,35岁职场人真实存款流出!
  4. hpc超级计算机大会,国家超算广州中心主任卢宇彤当选HPC 2019大会程序主席
  5. ubuntu状态栏消失
  6. 【人工智能AI】AI写作:《怎样成为一个优秀的架构师》
  7. 暴雪battle注册账户不转到中国
  8. 三十.什么是vm和vc?
  9. Premiere 抠像与合成
  10. SAP中销售项目开票的初步分析