机器学习基础(十四)—— 统计计数、majority count 与其数学记号
编程与数学,程序语言与数学语言,如此完美地呼应,虽在表达上、在实现上略有差异。
获取一个序列中出现次数最多的元素,也即如果序列的每个位置都比做一个人(或者一个分类器),该位置上的值表示他做出的选择、投出的票(分类器的输出),则返回的是票数最多的结果:
def majCnt(classList):classCnt = {}for label in classList:if label not in classCnt:classCnt[label] = 0classCnt[label] += 1sortedClassCnt = sorted(classCnt.items(), key=lambda x: x[1], reverse=True)return sortedClassCnt[0][0]
其中:
if label not in classCnt:classCnt[label] = 0
可被:
classCnt.setdefault(label, 0)# 初始化动作只执行一次
或者直接使用 collections 模块下的 Counter(统计计数类):
from collections import Counter
def majCnt(classList):classCnt = Counter(classList)sortedClassCnt = sorted(classCnt.items(), key=lambda x: x[1], reverse=True)return sortedClassCnt[0][0]
而其对应的数学记号(mathematical notation)为:
G(x)=\underset{1\leq k\leq K}{\arg\max}\;\sum_{t=1}^T1_{g_t(x)=k}
gtg_t 表示分类器,共 TT 个分类器参与”投票”,该数学等式对应的机器学习模型为 uniform blending(voting)。也即编程中的统计一个数出现的次数(count),用的是 ∑1\sum 1(也即 indicator function),获取出现次数最多的元素则是 argmax\arg\max。
机器学习基础(十四)—— 统计计数、majority count 与其数学记号相关推荐
- 机器学习笔记十四:随机森林
在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式. 而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,b ...
- asp.net控件开发基础十四
http://www.cnblogs.com/Clingingboy/archive/2006/09/29/514722.html 上一篇讨论了为服务器控件添加客户端功能,这一篇我们所要讲的 ...
- 机器学习(十四)——协同过滤的ALS算法(2)、主成分分析
http://antkillerfarm.github.io/ Kendall秩相关系数(Kendall rank correlation coefficient) 对于秩变量对(xi,yi),(xj ...
- 机器学习基础(四十一)—— KNN
K 近邻的数学表达 所谓 K 近邻的数学表达,也即统计计数(再进行表决)的数学表达. y=argmaxcj∑xi∈Nk(x)I(yi=cj),i=1,2,-,N;j=1,2,-,K y=\arg\ma ...
- 机器学习基础(四):特征选择与稀疏学习
4.特征选择与稀疏学习 对一个学习任务来说,给定属性集,其中有些属性可能很关键.很有用,另一些则可能没什么用.将属性称为特征feature,则对当前学习任务有用的属性称为相关特征relevant fe ...
- 机器学习基础(四十七)—— 统计
中位数(median)与均值(mean) 中位数并不严格依赖每一个数据的值,例如即便数据集中最大的点变得更大(或最小的点变得更小),中位数都不会改变. 同时,均值对数据中的异常值非常敏感. 分位数(q ...
- 机器学习基础(四十九)—— 总结
度量无序程度 (1)香农熵(Shannon Entropy) (2)基尼不纯度(Gini impurity) 决策树 (1)易于解释,相对神经网络 (2)处理缺失型数据的能力 朴素贝叶斯 (1)朴素贝 ...
- 机器学习基础(四十八)—— 概率
条件概率 P(A|B)=P(A,B)P(B) P(A|B)=\frac{P(A,B)}{P(B)} 以上即为条将概率的计算公式,比如我们要计算"在大孩是男孩"的条件下,两个小孩都是 ...
- 机器学习基础(四十六)—— 遗传算法(GA)
遗传算法(Genetic Algorithms)也是受自然科学的启发.该类算法的运行过程是先随机生成一组解,称之为种群(population).在优化过程中的每一步,算法会计算整个种群的成本函数,从而 ...
最新文章
- 公司成立两周年感言_对我的副项目成立一周年的一些反思
- win10句柄数比win7多 cpu占用率 高_Win10更新再出问题!CPU使用率高+损坏SSD,修复方法来了...
- linux cpp vscode远程调试 的配置
- 64位计算机安装32位,64位电脑装32位系统,小编教你64位电脑怎么装32位系统
- jQuery获取URL的GET参数值
- Go学习笔记—Go并发基础
- git常用命令,冲突
- 【MySQL:查看自己数据库文件所在的位置】
- 新概念下兴起域名商机 云域名是神马浮云
- 论坛小程序(含论文ssm后台)
- excel合并工作簿
- “大数据”查询平台利用抖音导流,存个人信息泄露或倒卖风险
- android设置布局背景为空,android 设置背景为空(透明)
- 全球及中国增强现实(AR)远程协助软件行业研究及十四五规划分析报告
- 2021西湖论剑web部分wp
- 学习yigo遇到的问题
- SSE Intrinsics各函数介绍
- 【IKAnalyzer中文分词器详解-(1)分词逻辑】
- 夜神模拟器怎么开脚本?
- 怎么在Win7系统中开启Wifi热点
热门文章
- CentOs7配置java环境
- shell脚本中判断大于、小于、等于、不等于的符号
- java.sql.SQLException: Access denied for user ‘root‘@‘hadoop001‘ (using password: YES)
- php中什么是时间戳,php中的时间戳转换函数是什么
- dll编译为html,如何为MSHTML v9编译.dll。我目前正在获取“MIDL 2035:预期的常量表达式”的100个错误...
- batocera整合包_模擬器作業系統RetroPie更新至4.6,支援Raspberry Pi 4、新增NeoGeo CD模擬功能...
- 克里金插值c程序_C罗游艇晒太阳,坐下也有六块腹肌,乔治娜骄傲秀无名指上鸽子蛋...
- datatables data bind json
- 感觉前路任重而道远呀。
- 日常开发需要掌握的Maven知识