本节书摘来自华章社区《Clojure数据分析秘笈》一书中的第5章,第2.6节调整词频值的度量,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看

2.6 调整词频值的度量
标准化数值的一种方式是根据组的大小来度量其频率。例如,单词truth在一个文档中出现三次。如果这个文档有30个单词是一种意义,然而如果这个文档有300个单词或者3000个单词就会有不同的意义。如果数据集中的文档长度不一,如何跨文档比较单词的频率?
答案是—调整词频的计量方式。在一些情况下仅需按文档长度调整,或者如果想得到更好的结果,可以利用更复杂的技术如tf-idf(term frequency-inverse document frequency)。维基百科有关于这项技术的介绍,详见http://en.wikipedia.org/wiki/Tf-idf。
本方法中将根据文档的总词数调整单词频率。

2.6.1 准备工作
本方法中不需要太多工具。然而,如果在REPL中有一个较好的输出工具,工作会变得容易些。使用如下命令:


可以立即看到调整后的值更容易进行比较。例如,调整后的频率可以相互比较,然而未经调整的频率却不能(调整后0.53和0.5,调整前92和3)。当然,由于这不是一个真实的数据集,这些频率没有实际意义,但这展示了方法和如何改善数据集。
2.6.3 实现原理
对于每个函数,传入一对键:源键和目的键。第一个函数rescale-by-total将源键对应的值加和,然后将目的键设置成这个值与集合中所有项目中源键对应值的和的比例。
第二个函数rescale-by-group使用另一个键:组键(group key)。它根据组键对所有项目排序分组,并将每个组传给rescale-by-total函数。

《Clojure数据分析秘笈》——2.6节调整词频值的度量相关推荐

  1. 《Clojure数据分析秘笈》——1.6节从JDBC数据库读取数据

    本节书摘来自华章社区<Clojure数据分析秘笈>一书中的第1章,第1.6节从JDBC数据库读取数据,作者(美)Eric Rochester,更多章节内容可以访问云栖社区"华章社 ...

  2. 《黑客秘笈——渗透测试实用指南》—第2章2.4节Web应用程序的扫描

    本节书摘来自异步社区<黑客秘笈--渗透测试实用指南>一书中的第2章2.4节Web应用程序的扫描,作者[美]Peter Kim(彼得 基姆),更多章节内容可以访问云栖社区"异步社区 ...

  3. 《黑客秘笈——渗透测试实用指南》—第2章2.3节 外部或内部的主动式信息收集...

    本节书摘来自异步社区<黑客秘笈--渗透测试实用指南>一书中的第2章2.3节 外部或内部的主动式信息收集,作者[美]Peter Kim(彼得 基姆),更多章节内容可以访问云栖社区" ...

  4. 《黑客秘笈——渗透测试实用指南》—第1章1.1节搭建渗透测试主机

    本节书摘来自异步社区<黑客秘笈--渗透测试实用指南>一书中的第1章1.1节搭建渗透测试主机,作者[美]Peter Kim(彼得 基姆),更多章节内容可以访问云栖社区"异步社区&q ...

  5. 门店经营指标数据分析!(独家秘笈…

    http://www.itongji.cn/article/061JB12015.html 中国统计网国内大数据分析第一门户,数据分析从这里开始! [干货]门店经营指标数据分析!(独家秘笈) hong ...

  6. 《黑客秘笈——渗透测试实用指南(第2版)》—第2章2.7节总结

    本节书摘来自异步社区<黑客秘笈--渗透测试实用指南(第2版)>一书中的第2章2.7节总结,作者[美]Peter Kim(皮特 基姆),更多章节内容可以访问云栖社区"异步社区&qu ...

  7. 《黑客秘笈——渗透测试实用指南(第2版)》目录—导读

    版权 黑客秘笈--渗透测试实用指南(第2版) • 著 [美] Peter Kim 译 孙 勇 责任编辑 傅道坤 • 人民邮电出版社出版发行 北京市丰台区成寿寺路11号 邮编 100164 电子邮件 3 ...

  8. 《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》——1.2 使用窗口函数的解决方案简介...

    本节书摘来自异步社区出版社<T-SQL性能调优秘笈--基于SQL Server 2012 窗口函数>一书中的第1章,第1.2节,作者: [美]Itzik Ben-Gan,更多章节内容可以访 ...

  9. 数据科学竞赛经验分享:你从未见过的究极进化秘笈

    作者: David K(来自知乎) 排版:杰少,kaggle竞赛宝典小编 "听过很多道理,却依然过不好一生:看过很多分享,却依然做不好比赛." 如今,数据科学竞赛(大数据竞赛,机器 ...

最新文章

  1. 人脑动态功能网络连接模式能够鉴别个体并预测其认知功能
  2. 使用juery在iframe内部访问父页面元素
  3. 【Python】一种超简单的二维列表降维方法
  4. 常用docker命令,及一些坑
  5. 命名空间“System.Web”中不存在类型或命名空间名称“Optimization”解决方法
  6. “第八届吴文俊人工智能科学技术奖”揭晓,AI大佬们都说了什么?
  7. 软件测试环境有几种,什么是软件测试环境_软件测试环境有哪几种_做软件测试要用到什么工具...
  8. Win7停服,引发国产操作系统“蝴蝶效应”
  9. 搭建MQTT服务器实现Android客户端与ESP8266之间即时通信
  10. python调用高德接口获取国内行政区经纬度数据
  11. 最新Gxlcms有声小说系统/小说听书系统源码
  12. Invisible Backdoor Attack with Sample-Specific Triggers
  13. 视频数据丢失怎么办 怎样找回丢失的视频数据
  14. 适用于Android手机的汉信码识别SDK
  15. vmware中调整ubuntu的磁盘大小
  16. 分布式架构项目的衡量指标及其目标
  17. JSP网站开发之HTML入门知识及常用标记符 (一)
  18. 碰撞检测中的K_DOPS算法的研究
  19. MySql数据库去除重复的数据
  20. 给大家分享一款由PHP+MYSQL搭建的外卖小程序源码

热门文章

  1. 如何让Table显示滚动条
  2. IT运维包括最基本的三个方面
  3. H.265的NALU
  4. python include_tag_详解Python的Django框架中inclusion_tag的使用
  5. poj2728(最优比率生成树)
  6. LCA 朴素算法+树差分倍增+Tarjan算法 三种算法实现c++代码实现
  7. 线段树分裂与合并 ---- 树上差分 P4556 [Vani有约会]雨天的尾巴 /【模板】线段树合并
  8. php 企业微信指令回调借款_企业微信外部联系人回调事件
  9. luogu P3455 [POI2007]ZAP-Queries (莫比乌斯反演 + 整除分块)
  10. android 打包 混淆配置_android 实际项目中混淆文件的配置(参考做法)