大数据定律与中心极限定理

数据科学 (Data Science)

The Central Limit Theorem is at the center of statistical inference what each data scientist/data analyst does every day.

中心极限定理是每个数据科学家/数据分析师每天所做的统计推断的中心。

Central Limit Theorem performs a significant part in statistical inference. It depicts precisely how much an increase in sample size diminishes sampling error, which tells us about the precision or margin of error for estimates of statistics, for example, percentages, from samples.

中心极限定理在统计推断中起着重要作用。 它精确地描述了样本数量的增加在多大程度上减少了抽样误差,从而告诉我们关于统计估计值(例如,样本中的百分比)的精度或误差范围。

Statistical inference depends on the possibility that it is conceivable to take a broad view results from a sample to the population. How might we guarantee that relations seen in an example are not just because of the possibility?

统计推断取决于是否有可能对样本进行总体评估。 我们如何保证在示例中看到的关系不仅仅是因为可能性?

Significance tests are intended to offer a target measure to inform decisions about the validity of the broad view. For instance, one can locate a negative relationship in a sample between education and income. However, added information is essential to show that the outcome isn’t just because of possibility, yet that it is statistically significant.

重要性测试旨在提供一种目标度量,以告知有关广泛视野有效性的决策。 例如,可以在样本中发现教育与收入之间的负相关关系。 但是,添加信息对于显示结果不仅是因为可能,而且在统计上也很重要至关重要。

The Central Limit Theorem (CLT) is a mainstay of statistics and probability. The theorem expresses that as the size of the sample expands, the distribution of the mean among multiple samples will be like a Gaussian distribution.

中心极限定理 (CLT)是统计和概率的中流tay柱。 该定理表示,随着样本大小的扩展,多个样本之间的均值分布将类似于高斯分布

We can think of doing a trial and getting an outcome or an observation. We can rehash the test again and get another independent observation. Accumulated, numerous observations represent a sample of observations.

我们可以考虑进行试验并获得结果或观察结果。 我们可以再次重新测试,并获得另一个独立的观察结果。 累积的大量观察值代表观察值样本。

On the off chance that we calculate the mean of a sample, it will approximate the mean of the population distribution. In any case, like any estimate, it will not be right and will contain some mistakes. On the off chance that we draw numerous independent samples, and compute their means, the distribution of those means will shape a Gaussian distribution.

在计算样本均值的偶然机会上,它将近似于总体分布的均值。 无论如何,像任何估计一样,这都是不正确的,并且会包含一些错误。 在偶然的机会下,我们将抽取大量独立样本并计算其均值,这些均值的分布将形成高斯分布。

It is significant that every trial that outcomes in an observation be autonomous and acted similarly. This is to guarantee that the sample is drawing from the equivalent fundamental population distribution. More officially, this desire is alluded to as autonomous and indistinguishably distributed or set of comparative statements.

重要的是,观察结果中的每项试验都应具有自主性并采取类似的行动。 这是为了确保样本来自等效的基本人口分布。 更正式地说,这种愿望被指为自主的,无差别的分布或一组比较表述。

As far as possible, the central limit theorem is regularly mistaken for the law of large numbers (LLN) by beginners. They are non -identical, and the key differentiation between them is that the LLN relies upon the size of a single sample, though the CLT relies upon the number of samples.

初学者经常将中心极限定理经常误认为是大数定律 (LLN)。 它们是不同的,它们之间的主要区别在于LLN依赖于单个样本的大小,而CLT则依赖于样本的数量。

LLN expresses that the sample means of independent and indistinguishably distributed observations perceptions joins to a certain value as far as possible CLT portrays the distribution of the distinction between the sample means and the value.

LLN表示,独立且无差别分布的观测知觉的样本均值将加入一个特定值,而CLT则描绘了样本均值与值之间的区别的分布。

Since as far as possible, the central limit theorem gives us a certain distribution over our estimations. We can utilize this to pose an inquiry about the probability of an estimate that we make. For example, assume we are attempting to think about how an election will turn out.

由于尽可能地,中心极限定理给了我们估计值的一定分布。 我们可以利用它来提出关于我们做出估计的概率的询问。 例如,假设我们试图考虑选举的结果。

We take a survey and discover that in our sample, 30% of individual would decide in favor of candidate A over candidate B. Obviously, we have just seen a small sample of the total population, so we had preferred to know whether our outcome can be said to hold for the whole population, and if it can’t, we’d like to understand how substantial the error may be.

我们进行了一项调查,发现在我们的样本中,有30%的人会选择候选人A胜过候选人B。显然,我们只看到了总人口中的一小部分,因此我们更想知道我们的结果是否可以据说可以容纳整个人口,如果不能,我们想了解这个错误可能有多大。

As far as possible, the central limit theorem discloses to us that on the off chance that we ran the survey over and again, the subsequent theories would be normally distributed across the real population value.

中心极限定理尽可能地向我们揭示,如果我们不需一次又一次地进行调查,那么随后的理论将在实际人口价值上呈正态分布。

The CLT works from the center out. That implies on the off chance that you are presuming close to the center, for example, that around two-thirds of future totals will fall inside one standard deviation of the mean, you can be secure even with little samples.

CLT从中央开始工作。 这意味着您很有可能会假设自己靠近中心,例如,大约三分之二的未来总量将落在均值的一个标准差之内,即使样本量很少,您也可以放心。

However, if you talk about the tails, for example, presuming that whole in excess of five standard deviations from the mean is almost unthinkable, you can be mortified, even with sizable samples.

但是,如果您谈论的是尾巴,例如,假设与平均值相比超出5个标准差的整数几乎是不可想象的,那么即使有相当大的样本,您也可能会被贬低。

The CLT disappoints when a distribution has a non-limited variance. These cases are rare yet might be significant in certain fields.

当分布具有无限制的方差时,CLT会令人失望。 这些情况很少见,但在某些领域可能很重要。

CLT asserts the prominence of the Gaussian distribution as a natural restricting distribution. It legitimizes numerous theories associated to statistics, for example, the normality of the error terms in linear regression is the independent totality of numerous random variables with limited variance or undetectable errors, we can normally expect it is normally distributed.

CLT断言, 高斯分布的突出之处是自然的限制性分布。 它使与统计有关的众多理论合法化,例如,线性回归中误差项的正态性是方差有限或无法检测到的众多随机变量的独立总数,我们通常可以期望其呈正态分布。

Solidly, when you don’t have a clue about the distribution of certain data, at that point, you can utilize the CLT to presume about their normality.

当然,当您对某些数据的分布一无所知时,可以使用CLT推测其正常性。

In any case, the drawback of the CLT is that it is frequently utilized without checking the suspicions, which has been the situation in finance domain for quite a while, assuming returns were normal, though they have a fat-tailed distribution, which characteristically carries a greater number of dangers than the normal distribution.

无论如何,CLT的缺点是经常使用它而没有检查怀疑,这在金融领域已经存在了相当长的一段时间,假设收益是正常的,尽管它们具有肥大的分布 ,通常具有危险性比正常分布更大。

CLT doesn’t have any significant bearing when you are managing with sums of dependent random variables or sums of non- indistinguishably distributed random variables or sums of random variables that breach both the autonomy condition and the indistinguishably distributed condition.

当您处理因变量随机和的总和,不可区分分布的随机变量的总和或违反自治条件和不可区分分布的条件的随机变量的总和时,CLT没有任何重要意义。

There are additional central limit theorems that loosen up the autonomy or indistinguishably distributed conditions. For example, there is the Lindberg-Feller theorem, which despite everything, necessitates that the random variables be independent, yet it loosens up the indistinguishably distributed condition.

还有其他的中心极限定理,可以放宽自治性或难以区分的分布条件。 例如,有一个Lindberg-Feller定理,尽管有所有这些定理,但它要求随机变量是独立的,但它却松开了难以区分的分布条件。

In conclusion, the advantage of the CLT is that it is powerful, meaning implying that regardless of whether the data originates from an assortment of distributions if their mean and variance are the equivalent, the theorem can even now be utilized.

总之,CLT的优势在于功能强大,这意味着无论数据的均值和方差是否相等,无论数据是否源自各种分布,该定理现在都可以使用。

翻译自: https://medium.com/towards-artificial-intelligence/why-is-central-limit-theorem-important-to-data-scientist-49a40f4f0b4f

大数据定律与中心极限定理


http://www.taodudu.cc/news/show-7142478.html

相关文章:

  • 常见面试概率问题
  • 几个概率问题
  • 算法-连胜概率问题-10把连胜3把概率
  • 13概率问题
  • 什么是朴素贝叶斯中零概率问题?
  • 经典概率问题:找回帽子
  • 红白球概率问题 python
  • 山羊与车的概率问题
  • 概率相关实际问题汇总及解析
  • 家乡主题网页设计(小白必看)
  • 设计模式的意图、动机
  • 软件设计模式介绍与入门
  • 设计模式的意图和适用性
  • 分析方法论探讨之设计意图
  • 关于“java中静态内部类的设计意图”的理解
  • 23种设计模式的意图和适用范围总结
  • 内部类和静态内部类设计意图
  • 几种设计模式意图或优势总结
  • 23种设计模式意图汇总
  • Android核心分析 之一--------分析方法论探讨之设计意图
  • 给家长的20条建议
  • 如何做好家庭教育,建议从这6点做起
  • 写给即将踏上工作岗位的人
  • 我不强求你做快乐的孩子——心理咨询师父亲给女儿的公开信
  • 分享一封拒绝老板下班时间安排工作的邮件
  • linux中cd /xxx与cd xxx/ 的区别
  • centos的cd与pwd指令
  • Linux命令集(Linux常用命令集--CD指令篇)
  • 华为应用认领
  • 腾讯应用宝联运接入YSDK的坑(Nginx的CA证书配置,回调地址)

大数据定律与中心极限定理_为什么中心极限定理对数据科学家很重要?相关推荐

  1. 大数据技术 学习之旅_为什么聚焦是您数据科学之旅的关键

    大数据技术 学习之旅 David Robinson, a data scientist, has said the following quotes: 数据科学家David Robinson曾说过以下 ...

  2. 机器学习数据倾斜的解决方法_机器学习并不总是解决数据问题的方法

    机器学习数据倾斜的解决方法 总览 (Overview) I was given a large dataset of files, what some would like to call big d ...

  3. 基于python的数据爬取与分析_基于Python的网站数据爬取与分析的技术实现策略

    欧阳元东 摘要:Python为网页数据爬取和数据分析提供了很多工具包.基于Python的BeautifulSoup可以快速高效地爬取网站数据,Pandas工具能方便灵活地清洗分析数据,调用Python ...

  4. mysql清空数据库所有表的命令_mysql清空表数据命令是什么?_数据库,mysql,清空表数据...

    mysql服务无法启动怎么解决_数据库 mysql服务无法启动的解决方法是:1.配置环境变量:2.在mysql安装目录下,新建my.ini文件,设置默认字符集.端口.存储引擎等:3.执行[mysqld ...

  5. 假设mysql数据表t1有字段_使用ROMA Connect集成数据

    概述 ROMA Connect支持接入多种类型的数据源,并通过数据集成任务实现源端到目标端的数据集成转换.ROMA Connect支持相同结构数据之间进行集成转换,也支持异构数据之间进行集成转换. 本 ...

  6. pb 修改数据窗口种指定字段位置_在PB中控制 数据窗口 列修改属性.doc

    芬宅皿泽雇松畜站柬莲喀追痢弘翁藐粹顶它旷研擒阵愁檬酥噬镰赔宋全搓昨吉挑衫劣霍侣街允伎削粹海凝剪讳理伞泣簇辛惮对拾精漂详拽汹厌据痹拐幂炭柞戒氖稀配韭炔辑折炎耕瞪拱甲邑并楼蹿学涸混铂饥别公沈协搐絮昧荡碟柿 ...

  7. 大数据技术 学习之旅_如何开始您的数据科学之旅?

    大数据技术 学习之旅 Machine Learning seems to be fascinating to a lot of beginners but they often get lost in ...

  8. 双字节数据 先低后高_马云回应双11数据造假;字节上市要再等一等;阿里香港IPO首日获40亿保证金认购;Siri未来或能解读情绪 | Tech周报...

       互联网科技与新商业一周大事,尽在Tech周报. Tech星球(微信ID:tech618)文 |  倪乐航头图 | IC Photo移动新方向1.联想宣布摩托罗拉推出折叠手机Razr 11月14- ...

  9. python中数据用折线图表示_用python处理文本数据

    用python处理文本数据 Q:这篇文章主要讲什么? A:这篇文章主要讨论如何用python来做一些简单的文本处理--文本相似度比较. 谈起python的自然语言处理,肯定会让人想起NLTK.不过上面 ...

最新文章

  1. [转]ASP.NET中使用UpdatePanel实现局部异步刷新方法和攻略
  2. HighNewTech:2021阿里云开发者大会-大咖来了(更新中)
  3. lisp求面与面的差集_AcGeVector3d是点阵的集合,通过等分点的差集得到。 新的点可以通过点与点阵相差得......
  4. [react-router] 请你说说react的路由的优缺点?
  5. python操作sqlite数据库_Python操作Sqlite正确实现方法解析
  6. LINUX编译OPENJDK:unsupported cpu xxx
  7. 【转】MongoDB:C#应用
  8. DirectX中文手册
  9. python从邻接矩阵计算可达矩阵,复制即用
  10. 智能语言处理之依存树计算句子结构相似度计算
  11. 常用回归评价指标:均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、平均百分比误差(MAPE)、绝对系数R2
  12. ios常用第三方总结
  13. Codeforces Round #766 (Div. 2)C. Not Assigning
  14. 企业快速寄件打单教程
  15. 分布式计算原理之分布式协调与同步(1)——分布式事务
  16. java 使用HttpC'lient 解析webService
  17. Mos结电容Cgd、Cgs、Cds与分布参数Ciss、Crss、Coss
  18. CNC系统G代码M代码大全
  19. 循环神经网络中的LSTM和GRU
  20. citymaker 8 sketchup和3dsmax直接导出fdb

热门文章

  1. 2018_10_5 模拟赛
  2. 通用高校排课算法研究
  3. SDK模拟器安装及配置
  4. 产品开发管理方法论之 IPD ——读《新产品开发管理,就用IPD》
  5. 线性反馈移位寄存器(LFSR)实现
  6. 电视墙服务器显示效果,什么是电视墙服务器
  7. 云上的米开朗基罗:在不确定时代,寻找建筑般的确定性
  8. Matlab:Matlab编程语言应用之数学计算(求极限/渐近线求导数常微分方程求解求微分方程组的解求临界阻尼系数的解)的简介、案例实现之详细攻略
  9. C++ 那些被遗漏的细节4 std::piecewise_construct_t
  10. 中国特色的免费游戏:下流下贱下作!