统计信息在数据库中的作用

数据科学与机器学习 (DATA SCIENCE AND MACHINE LEARNING)

Statistics are everywhere, and most industries rely on statistics and statistical thinking to support their business. The interest to grasp on statistics also required to become a successful data scientist. You need to demonstrate your keen on this field of discipline.

统计数据无处不在,大多数行业都依靠统计数据和统计思想来支持其业务。 掌握统计数据的兴趣也需要成为一名成功的数据科学家。 您需要表现出对这一学科领域的热忱。

What is statistics?

什么是统计数据?

It is the subject that includes all features of learning from data. As a methodology, we speak about the means and methods to allow us to work with data and to understand that data. Statisticians employ and develop data analysis methods and continue exploring to understand their properties.

它是包括从数据中学习的所有功能的主题。 作为一种方法论,我们谈论允许我们处理数据并理解该数据的方式和方法。 统计人员使用和开发数据分析方法,并继续探索以了解其属性。

When will those tools provide insight?When are they possibly misleading?

这些工具何时会提供洞察力?何时可能会产生误导?

Researchers across all various academic fields, workers in many industries, are implementing and reaching the statistical methodology, and they are providing new approaches and techniques for conducting data analysis. A concise terminology is needed upfront, which is the difference between a statistic and the field of statistics.

各个学术领域的研究人员,许多行业的工人,正在实施并达到统计方法论,他们正在提供进行数据分析的新方法和技术。 首先需要一个简洁的术语,这是统计和统计领域之间的区别。

We encounter numerical or graphical reports from a collection of data every day. For instance, the average of total students score on the final exam, the proportion of employed and unemployed workers in some countries, or maybe stocks prices fluctuation in a day. These are statistics.

我们每天都会遇到来自数据收集的数字或图形报告。 例如,在期末考试中学生总数的平均值,某些国家的就业和失业工人比例,或者一天中的股票价格波动。 这些是统计数据。

However, the field of statistics is an academic discipline focusing on research methodology. The essential aspects as statisticians are developing new statistical tools, calculating statistics from data, and collaborating with the specialists to interpret those results in proper ways.

但是,统计学领域是一门专注于研究方法论的学术学科。 统计人员的基本工作是开发新的统计工具,从数据中计算统计数据,并与专家合作以适当的方式解释这些结果。

Statistics is undoubtedly an evolving field and continuously growing. Furthermore, it provides challenges and opportunities.

统计学无疑是一个不断发展的领域,并且在不断增长。 此外,它提供了挑战和机遇。

In data science, numerous statistical methods’ are under continual study to understand how to use it properly. Lots of new application areas are available, and those areas are leading to the necessity to develop innovative analytical methods. For example, an idea of how to measure the data, and new types of methods available leads to new kinds of data that need analysis. Hence, we are often relying on those advances in computing, not only enabling us to do data analysis but also a more sophisticated analysis of the large volume of data collected.

在数据科学中,正在不断研究众多统计方法以了解如何正确使用它。 有许多新的应用领域可用,这些领域导致开发创新的分析方法的必要性。 例如,关于如何测量数据的想法以及可用的新型方法会导致需要分析的新型数据。 因此,我们经常依靠那些在计算上的进步,不仅使我们能够进行数据分析,而且能够对收集到的大量数据进行更复杂的分析。

Statistics is a significant discipline, especially for data scientists and there are numerous schools thought about the field of statistics. It is including brand-new ideas from theory, practical, and relevant fields.

统计学是一门重要的学科,特别是对于数据科学家而言,并且有许多流派思考统计学领域。 它包括来自理论,实践和相关领域的崭新想法。

Numerous viewpoints on the field of statistics are:* The ability of summarizing data* The idea of uncertainty* The idea of decisions* The idea of variation* The art of forecasting* The approach of measurement* The principle of data collection

汇总数据的能力 (The Ability of Summarizing Data)

Data can be terrifying because there is a condition to understand that data, which generally involves reducing and summarizing. The main goal of the data reduction is to make the dataset comprehensible to the human observer. Statisticians have different techniques for summarizing that data, which is required to achieve the goals for the data to be meaningful. Therefore, a statistician is well trained in using appropriate, precise, and effective methods for summarizing data.

数据之所以令人恐惧,是因为有一种条件来理解该数据,这通常涉及精简和汇总。 数据约简的主要目的是使数据集对于人类观察者而言是可理解的。 统计人员使用不同的技术来汇总数据,这是实现数据有意义的目标所必需的。 因此,统计学家在使用适当,精确和有效的方法来汇总数据方面受过良好的培训。

不确定性的想法 (The Idea of Uncertainty)

Data can be misleading. The primary purpose of developing the statistics fields is to get a structure and framework for evaluating data. Generally, insights from data are not 100% accurate, but it’s absurd that we have a way to quantify how far away reported findings may be from the truth. Some evaluation reports return with a margin of error. This margin of error gives an idea of what that possible variance will be between the published and the actual cases of public opinion.

数据可能会产生误导。 开发统计信息字段的主要目的是获得用于评估数据的结构和框架。 通常,来自数据的见解并不是100%准确的,但是我们有一种方法可以量化所报告的发现与事实之间的距离是荒谬的。 一些评估报告以误差幅度返回。 这种误差幅度使人们了解了公开发表的舆论与实际情况之间可能存在的差异。

决策思想 (The Idea of Decisions)

Understanding data is critical, leads to the need to be able to work on what we’ve discovered. There are some domains of statistics where that idea of decision-making is the ultimate goal of any statistical analysis. In the personal and professional journey, we are making decisions in the face of difficulty. We have to compare what are the costs and the benefits of the different approaches.

了解数据至关重要,因此需要能够对我们发现的内容进行处理。 在某些统计领域中,决策思想是任何统计分析的最终目标。 在个人和专业旅程中,我们面对困难时要做出决定。 我们必须比较不同方法的成本和收益。

For example, if a person finds that they might be at higher than average risk for a specific type of cancer, should they undergo a preventative procedure? Statistics can help in the decision-making process.

例如,如果某人发现自己患某种特定癌症的风险可能高于平均风险,那么他们是否应该采取预防措施? 统计可以帮助决策过程。

变化的想法 (The Idea of Variation)

When we summarize data, commonly, our primary focus is on typical or central value. This means we have to place a high emphasis on understanding variation in data from a statistics perspective. For instance, if you know that on average Americans have around $8,000 of credit card bills each month, you have a good idea of that central value for credit card debt distribution. If you are provided that about 10 per cent more, that percentile gives you a bit more information about the variability in credit card debt.

通常,当我们汇总数据时,我们的主要重点是典型值或中心值。 这意味着我们必须高度重视从统计角度来理解数据的变化。 例如,如果您知道美国人平均每个月有大约8,000美元的信用卡账单,那么您应该很好地了解信用卡债务分配的核心价值。 如果提供给您的信息大约多10%,则该百分比为您提供了更多有关信用卡债务可变性的信息。

预测的艺术 (The Art of Forecasting)

The fundamental responsibilities in statistics are forecasting or prediction. You don’t know the future with absolute certainty. Still, if you have effectively used the available data, it sometimes makes reasonably accurate predictions, such as weather predictions, stock market prices forecasting, and predicting the risk of a flood. Furthermore, trying to calculate future requests for the new product distribute to the market or predicting the outcome of an election.

统计的基本职责是预测或预测。 您无法绝对确定未来。 但是,如果您有效地使用了可用数据,它有时仍会做出相当准确的预测,例如天气预报,股市价格预测以及洪水风险。 此外,尝试计算对新产品向市场发布的未来要求或预测选举结果。

测量方法 (The Approach of Measurement)

Let’s say that you are collecting lots of data. Some of those variables are measured, and some of those can be measured with pretty high accuracy. A person’s age or height, and some variables are a little bit more challenging to measure. For instance, blood pressure varies minute to minute, so that’s a little bit more difficult to pin down. Also, there are those constructs such as mood, personality, and political ideology, which are much more difficult to define and quantify. Statistics play a significant role in constructing and evaluating useful approaches for measuring these difficulties in identifying concepts and assessing the quality of the various methods.

假设您正在收集大量数据。 这些变量中的一些是可以测量的,而某些变量可以非常高精度地测量。 一个人的年龄或身高以及一些变量的测量更具挑战性。 例如,血压每分钟变化一次,因此很难确定。 此外,还有诸如情绪,个性和政治意识形态等结构,这些结构很难定义和量化。 统计在构建和评估有用的方法中起着重要作用,这些方法可用来衡量在确定概念和评估各种方法的质量方面的这些困难。

数据收集原理 (The Principle of Data Collection)

Finally, statistics are the basis for principled data collection. Sometimes data can be costly and painful to collect. Resources restrict how much data can be obtained, which means if we have too little data, the findings will not be maximized. However, statistics provide an excellent way to manage this trade-off. You can get more data while knowing and allowing those resource limitations.

最后,统计数据是有原则的数据收集的基础。 有时,数据收集起来可能既昂贵又痛苦。 资源限制了可获取的数据量,这意味着如果我们的数据量太少,结果将不会被最大化。 但是,统计数据提供了一种管理这种折衷的极好方法。 在了解并允许这些资源限制的同时,您可以获取更多数据。

Jeremy Zero on Jeremy Zero的UnsplashUnsplash图片

Back in ancient times, civilizations have been gathering data on harvests and population sizes. Right now, randomness and variation can be more mathematically defined. Modern statistics developed in the 19th century, coming from addressing topics from genetics, econometrics, and statistical theory progress in the 20th century with many new application areas in science and industry. For example, the appearance of the ability to have computers to do the data analysis. Next, the rise of Big Data, massive data, data science, and machine learning.

早在远古时代,文明就一直在收集有关收成和人口规模的数据。 现在,随机性和变异性可以在数学上进行更多定义。 现代统计学是在19世纪发展起来的,它来自于20世纪遗传学,计量经济学和统计理论进展的主题,在科学和工业中有许多新的应用领域。 例如,外观具有让计算机进行数据分析的能力。 接下来,大数据,海量数据,数据科学和机器学习的兴起。

Statistics positively has a lot of intersections with it’s allied fields.

积极地,统计数据与其相关领域有很多交集。

Computer science provides us with the algorithms, the structures for working with data, and the programming languages for manipulating that data. In mathematics, we get the language and the figures for showing some of these statistical concepts more concisely, and the tools to evaluate and interpret the properties of those analytical methods.

计算机科学为我们提供了算法,用于处理数据的结构以及用于处理该数据的编程语言。 在数学中,我们获得了用于更简洁地显示某些统计概念的语言和图形,以及用于评估和解释这些分析方法的属性的工具。

One branch of mathematics is probability theory, a critical part of the foundation of statistics that allows us to reveal the ideas of randomness and uncertainty.

数学的一个分支是概率论,它是统计学基础的关键部分,它使我们能够揭示随机性和不确定性的思想。

Then data science, which gives us the database management and machine learning, which infrastructure able to carry out data analysis.

然后是数据科学,它为我们提供了数据库管理和机器学习,哪些基础架构能够执行数据分析。

结论 (Conclusion)

Statistics have evolved from a small to be a significant allied in research and industry. Numerous different applications include computer vision, self-driving cars, facial recognition, recommender systems for online searching, and online purchasing.

在研究和行业中,统计数据已从很小的演变为重要的联盟。 许多不同的应用程序包括计算机视觉,自动驾驶汽车,面部识别,在线搜索的推荐系统和在线购买。

In the health domain, we have predictive and analytics, precision medicine, fraud detection, risk assessment in environment and infrastructure, social and government services in terms of job training, and behavioural therapy. Statistics and statistical thinking help us to understand that data and that information that surrounds us.

在健康领域,我们提供预测和分析,精准医学,欺诈检测,环境和基础设施中的风险评估,在职业培训方面的社会和政府服务以及行为疗法。 统计和统计思考有助于我们理解周围的数据和信息。

关于作者 (About the Author)

Wie Kiang is a researcher who is responsible for collecting, organizing, and analyzing opinions and data to solve problems, explore issues, and predict trends.

Wie Kiang是一名研究人员,负责收集,组织和分析意见和数据以解决问题,探索问题和预测趋势。

He is working in almost every sector of Machine Learning and Deep Learning. He is carrying out experiments and investigations in a range of areas, including Convolutional Neural Networks, Natural Language Processing, and Recurrent Neural Networks.

他几乎在机器学习和深度学习的每个领域工作。 他正在许多领域进行实验和研究,包括卷积神经网络,自然语言处理和递归神经网络。

翻译自: https://towardsdatascience.com/the-role-of-statistics-in-the-industry-d360f3056e4b

统计信息在数据库中的作用


http://www.taodudu.cc/news/show-997371.html

相关文章:

  • 怎么评价两组数据是否接近_接近组数据(组间)
  • power bi 中计算_Power BI中的期间比较
  • matplotlib布局_Matplotlib多列,行跨度布局
  • 回归分析_回归
  • 线性回归算法数学原理_线性回归算法-非数学家的高级数学
  • Streamlit —使用数据应用程序更好地测试模型
  • lasso回归和岭回归_如何计划新产品和服务机会的回归
  • 贝叶斯 定理_贝叶斯定理实际上是一个直观的分数
  • 文本数据可视化_如何使用TextHero快速预处理和可视化文本数据
  • 真实感人故事_您的数据可以告诉您真实故事吗?
  • k均值算法 二分k均值算法_使用K均值对加勒比珊瑚礁进行分类
  • 衡量试卷难度信度_我们可以通过数字来衡量语言难度吗?
  • 视图可视化 后台_如何在单视图中可视化复杂的多层主题
  • python边玩边学_边听边学数据科学
  • 边缘计算 ai_在边缘探索AI!
  • 如何建立搜索引擎_如何建立搜寻引擎
  • github代码_GitHub启动代码空间
  • 腾讯哈勃_用Python的黑客统计资料重新审视哈勃定律
  • 如何使用Picterra的地理空间平台分析卫星图像
  • hopper_如何利用卫星收集的遥感数据轻松对蚱hopper中的站点进行建模
  • 华为开源构建工具_为什么我构建了用于大数据测试和质量控制的开源工具
  • 数据科学项目_完整的数据科学组合项目
  • uni-app清理缓存数据_数据清理-从哪里开始?
  • bigquery_如何在BigQuery中进行文本相似性搜索和文档聚类
  • vlookup match_INDEX-MATCH — VLOOKUP功能的升级
  • flask redis_在Flask应用程序中将Redis队列用于异步任务
  • 前馈神经网络中的前馈_前馈神经网络在基于趋势的交易中的有效性(1)
  • hadoop将消亡_数据科学家:适应还是消亡!
  • 数据科学领域有哪些技术_领域知识在数据科学中到底有多重要?
  • 初创公司怎么做销售数据分析_为什么您的初创企业需要数据科学来解决这一危机...

统计信息在数据库中的作用_统计在行业中的作用相关推荐

  1. 性能优化——统计信息——SQLServer自动更新和自动创建统计信息选项

    原文: 性能优化--统计信息--SQLServer自动更新和自动创建统计信息选项 原文译自:http://www.mssqltips.com/sqlservertip/2766/sql-server- ...

  2. 范数在机器学习中的作用_设计在机器学习中的作用

    范数在机器学习中的作用 Today, machine learning (ML) is a component of practically all new software products. Fo ...

  3. Java main方法_解释Java中的main方法,及其作用_一个java文件中可包含多个main方法

    public static void main(String[] args) {} 或者 public static void main(String args[]) {} main方法是我们学习Ja ...

  4. python生成器和迭代器作用_浅谈Python中的生成器和迭代器

    迭代器 迭代器协议 对象必须提供一个next方法,执行该方法要么返回迭代中的下一项,要么返回一个异常来终止本次迭代.(只能往前走,不能往后退!) 迭代器对象 遵循了(实现了)迭代器协议的对象.(对象内 ...

  5. 、简述global关键字的作用_在C#编程中global关键字的作用及其用法

    在C#编程中,global 是 C# 2.0 中新增的关键字,理论上说,如果代码写得好的话,根本不需要用到它.今天就为大家展示下global关键字的作用及其用法,希望对大家学习C#编程有所帮助. 假设 ...

  6. 一键seo提交收录_关于SEO行业中的某些信息,你究竟应该相信谁?又或者谁都不要信!...

    「阿北SEO」是阿北最近才创建的网站和微信公众号,但本人并非SEO行业新手,也不敢妄称所谓SEO高手,1998年触网,一直低调,从传统网站到新媒体,从内容编辑.产品经理.COO,再到后来自己创业,如今 ...

  7. 符号在excel中的引用_如何在Excel中添加项目符号

    &符号在excel中的引用 There's no built-in feature for bullets in Excel, like there is in a Word document ...

  8. java 监听器作用_浅谈java监听器的作用

    监听器是JAVA Web开发中很重要的内容,其中涉及到的知识,可以参考下面导图: Web监听器 1 什么是web监听器? web监听器是一种Servlet中的特殊的类,它们能帮助开发者监听web中的特 ...

  9. mysql中groupby用法_详解SQL中GroupBy的用法

    GROUP BY 语句用于结合合计函数,根据一个或多个列对结果集进行分组. 1.概述 "Group By"从字面意义上理解就是根据"By"指定的规则对数据进行分 ...

最新文章

  1. scater分析单细胞转录组数据代码
  2. c语言会出现fullgc,以上述代码为基础,在发生过一次FullGC后,上述代码在He
  3. latex字体_[LaTeX 引擎] XeLaTeX + macOS,通过字体名调用发行版字体
  4. c语言大作业菜单,C语言大作业:编写菜单控制猜商品价格程序
  5. c#中常用集合类和集合接口之集合类系列
  6. C语言以字符串的形式读写文件
  7. antd 设置表头属性_使用表数据自定义React Antd表头
  8. 招了一大群学生的游戏代码
  9. Windows 2012 英文版系统安装中文语言包及时间格式设置
  10. 关于三角函数图像的思考
  11. Windows Server 2012 虚拟化实战:网络(一)
  12. 【2020牛客寒假基础算法训练营】第三场总结
  13. WF学习系列之四:顺序工作流控制台应用程序模板介绍
  14. Python四大神兽(迭代器生成器闭包装饰器)
  15. 山重水复疑无路,最快下降问梯度(深度学习入门系列之七)
  16. 【年终终结】2021年年末总结
  17. 基于SSM的学生信息管理系统的设计
  18. uniapp抽奖组件-动画效果之各类抽奖(跳跃)
  19. 每天一个小技巧———idea恢复误删文件
  20. 心脏流血(Heartbleed )漏洞详解

热门文章

  1. mysql-视图、事物等
  2. 30秒的PHP代码片段-MATH
  3. string 转化 xml,并找到指定节点及节点值
  4. git——学习笔记(三)分支管理
  5. rem 之js代码获取font-size值(适合移动手机端)
  6. Redis源码解析:21sentinel(二)定期发送消息、检测主观下线
  7. Head First summary
  8. NSRange的用法【转】
  9. 使用SDL打造游戏世界之入门篇 - 5
  10. 【深度学习系列】用PaddlePaddle和Tensorflow实现经典CNN网络AlexNet