编程与数学,程序语言与数学语言,如此完美地呼应,虽在表达上、在实现上略有差异。

获取一个序列中出现次数最多的元素,也即如果序列的每个位置都比做一个人(或者一个分类器),该位置上的值表示他做出的选择、投出的票(分类器的输出),则返回的是票数最多的结果:

def majCnt(classList):classCnt = {}for label in classList:if label not in classCnt:classCnt[label] = 0classCnt[label] += 1sortedClassCnt = sorted(classCnt.items(), key=lambda x: x[1], reverse=True)return sortedClassCnt[0][0]

其中:

        if label not in classCnt:classCnt[label] = 0

可被:

        classCnt.setdefault(label, 0)# 初始化动作只执行一次

或者直接使用 collections 模块下的 Counter(统计计数类):

from collections import Counter
def majCnt(classList):classCnt = Counter(classList)sortedClassCnt = sorted(classCnt.items(), key=lambda x: x[1], reverse=True)return sortedClassCnt[0][0]

而其对应的数学记号(mathematical notation)为:

G(x)=argmax1≤k≤K∑t=1T1gt(x)=k

G(x)=\underset{1\leq k\leq K}{\arg\max}\;\sum_{t=1}^T1_{g_t(x)=k}

gtg_t 表示分类器,共 TT 个分类器参与”投票”,该数学等式对应的机器学习模型为 uniform blending(voting)。也即编程中的统计一个数出现的次数(count),用的是 ∑1\sum 1(也即 indicator function),获取出现次数最多的元素则是 argmax\arg\max。

机器学习基础(十四)—— 统计计数、majority count 与其数学记号相关推荐

  1. 机器学习笔记十四:随机森林

    在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式.  而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,b ...

  2. asp.net控件开发基础十四

    http://www.cnblogs.com/Clingingboy/archive/2006/09/29/514722.html      上一篇讨论了为服务器控件添加客户端功能,这一篇我们所要讲的 ...

  3. 机器学习(十四)——协同过滤的ALS算法(2)、主成分分析

    http://antkillerfarm.github.io/ Kendall秩相关系数(Kendall rank correlation coefficient) 对于秩变量对(xi,yi),(xj ...

  4. 机器学习基础(四十一)—— KNN

    K 近邻的数学表达 所谓 K 近邻的数学表达,也即统计计数(再进行表决)的数学表达. y=argmaxcj∑xi∈Nk(x)I(yi=cj),i=1,2,-,N;j=1,2,-,K y=\arg\ma ...

  5. 机器学习基础(四):特征选择与稀疏学习

    4.特征选择与稀疏学习 对一个学习任务来说,给定属性集,其中有些属性可能很关键.很有用,另一些则可能没什么用.将属性称为特征feature,则对当前学习任务有用的属性称为相关特征relevant fe ...

  6. 机器学习基础(四十七)—— 统计

    中位数(median)与均值(mean) 中位数并不严格依赖每一个数据的值,例如即便数据集中最大的点变得更大(或最小的点变得更小),中位数都不会改变. 同时,均值对数据中的异常值非常敏感. 分位数(q ...

  7. 机器学习基础(四十九)—— 总结

    度量无序程度 (1)香农熵(Shannon Entropy) (2)基尼不纯度(Gini impurity) 决策树 (1)易于解释,相对神经网络 (2)处理缺失型数据的能力 朴素贝叶斯 (1)朴素贝 ...

  8. 机器学习基础(四十八)—— 概率

    条件概率 P(A|B)=P(A,B)P(B) P(A|B)=\frac{P(A,B)}{P(B)} 以上即为条将概率的计算公式,比如我们要计算"在大孩是男孩"的条件下,两个小孩都是 ...

  9. 机器学习基础(四十六)—— 遗传算法(GA)

    遗传算法(Genetic Algorithms)也是受自然科学的启发.该类算法的运行过程是先随机生成一组解,称之为种群(population).在优化过程中的每一步,算法会计算整个种群的成本函数,从而 ...

最新文章

  1. 公司成立两周年感言_对我的副项目成立一周年的一些反思
  2. win10句柄数比win7多 cpu占用率 高_Win10更新再出问题!CPU使用率高+损坏SSD,修复方法来了...
  3. linux cpp vscode远程调试 的配置
  4. 64位计算机安装32位,64位电脑装32位系统,小编教你64位电脑怎么装32位系统
  5. jQuery获取URL的GET参数值
  6. Go学习笔记—Go并发基础
  7. git常用命令,冲突
  8. 【MySQL:查看自己数据库文件所在的位置】
  9. 新概念下兴起域名商机 云域名是神马浮云
  10. 论坛小程序(含论文ssm后台)
  11. excel合并工作簿
  12. “大数据”查询平台利用抖音导流,存个人信息泄露或倒卖风险
  13. android设置布局背景为空,android 设置背景为空(透明)
  14. 全球及中国增强现实(AR)远程协助软件行业研究及十四五规划分析报告
  15. 2021西湖论剑web部分wp
  16. 学习yigo遇到的问题
  17. SSE Intrinsics各函数介绍
  18. 【IKAnalyzer中文分词器详解-(1)分词逻辑】
  19. 夜神模拟器怎么开脚本?
  20. 怎么在Win7系统中开启Wifi热点

热门文章

  1. CentOs7配置java环境
  2. shell脚本中判断大于、小于、等于、不等于的符号
  3. java.sql.SQLException: Access denied for user ‘root‘@‘hadoop001‘ (using password: YES)
  4. php中什么是时间戳,php中的时间戳转换函数是什么
  5. dll编译为html,如何为MSHTML v9编译.dll。我目前正在获取“MIDL 2035:预期的常量表达式”的100个错误...
  6. batocera整合包_模擬器作業系統RetroPie更新至4.6,支援Raspberry Pi 4、新增NeoGeo CD模擬功能...
  7. 克里金插值c程序_C罗游艇晒太阳,坐下也有六块腹肌,乔治娜骄傲秀无名指上鸽子蛋...
  8. datatables data bind json
  9. 感觉前路任重而道远呀。
  10. 日常开发需要掌握的Maven知识