4.1.2  从信息到数据

1948年香农(好像吐槽输入法)发表的论文《通信的数学理论》(A Mathematical Theory of Communication)其中的话:

if the number of message in the finite then this number or any monotonic function of this number can be regarded as a measure of the information producted when one message is chosen from the set ,all choices being equally likely. As  was pointed out by  Hartley the most natural choice is the logarithmic function. Although  thhis definition must be generalized considerably  when we consider the influence of the statistics of the message and when we have a continuous rang of messages,we will in all cases use an essentially logarithmic measure.

谷歌翻译:

如果有限的消息数量,那么这个数字或这个数字的任何单调函数都可以被看作是当从集合中选择一条消息时产生的信息的度量,所有的选择同样可能。 正如哈特利指出的那样,最自然的选择是对数函数。 虽然在我们考虑信息统计的影响时,当我们有持续的信息传递时,这个定义必须大致概括,但我们在任何情况下都会使用基本上对数的测度。

大致的意思:“信息是用来消除不确定性的东西”

香农信息熵公式

P是消息x产生的概率

数据作为一种承载信息的介质,实际上是一种将信息抽象后的符号表示。所以究其本质,无论是磁带上的语音数据,还是唱片上的音乐数据,磁盘上的文件数据,纸张上的文字数据,都具有如下的特性:

(1)作用:承载信息,消除不确定性

(2)形式:抽象够的符号记录

(3)定义:符号的含义经过约定,不会或至少容易产生二义性。

资源以及其中的句子

香农的信息论究竟牛在哪里? - 知乎

https://www.zhihu.com/question/27068465

(1)一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。

(2)人们曾经以采集食物为生,而如今他们要重新以采集信息为生,尽管这件事看起来很不可思议。

4.1.3 数据科学的本质

书中的定义:是一种研究信息感知,抽象,保存,建模,传输以及数据之间逻辑,数量统计,计算和转换关系的综合科学。

本质就是表达和知道对事物认知的关系量化,把普适性的科学思维方式应用到数据上,使其成为一门窄而深的,精准的,拥有完整体系的学科。

4.3 使命必达

能说出“有问题”是第一个层次----------定性

能说出“问题在哪里”是第二个层次----------定位

能说出“问题的大小或数量”是第三个层次---------定量

4.3.3 目标一致与不一致

使用数据科学求解问题,就需要我们站在同一的视角下,不同的时间是没有办法进行具体的对比的。

从而就需要简化模型-----定义目标,量化目标

所谓损失函数就是用来衡量和比较多种方案的优劣程度的量化工具。-----对于一个问题的多个解的比较过程,只要比较损失函数的值就可以了----这是一个极为理想的方案。

损失函数不仅仅是只存在于机器学习中,,在数据分析以及工程优化等都存在。在机器学习中领域,每一种模型都需要定义Loss函数。

《数据科学家养成手册》--第四章---数据科学的使命相关推荐

  1. 《数据科学家养成手册》第九章信息论

    事先声明: 兴趣使然,阅读书籍的过程中看了一些资料,但并不能看太懂 信息论是围绕数据存储于传输量化等一系列问题所展开的一门专门研究信息的学科. 一句话总结作者:"在某一种设定情况下,最简洁可 ...

  2. 《数据科学家养成手册》--第十一章算法学2---(非监督,监督贝叶斯概率以及损失函数)

    11.8 机器学习-----自动归纳 数据挖掘是随着商务智能发展起来的一种相对比较新的一种算法学科. 只知道自己想学习的是数据挖掘和大数据,但是真的说出个所以然自己真的办不到.现在说是一种算法学科,忽 ...

  3. 《数据科学家养成手册》第十一章------算法学1(穷举,分治,回溯,贪心,迭代)

    1.对于计算机学科的人员,无论是怎么样子的工作都是需要了解算法的-----从而获得解决日常问题的基本的思路 2.计算机底层的数理计算逻辑仍然是"与""或"&qu ...

  4. 《数据科学家养成手册》第十一章----算法学(非线性回归)

    对于非线性回归,通常的思路: (1)把它转化为线性回归模型进行拟合,其余不能转换的则通过经验,观察,多次尝试等法进行拟合,博能够从中找去拟合误差最小的情况. 常用的线性回归模型: (1)双曲线   双 ...

  5. 《数据科学家养成手册》第五章---矛盾的世界笔记

    (1)世界中存在继续多相互矛盾的事物.矛盾通常是指事物相互影响和对立的关系.比如太阳的东升的同时没有办法西落. (2)数学中的虚数是与现实世界的实数相对的.虚数和实数的结合形成复数,通过复数构建的矢量 ...

  6. 《数据科学家养成手册》第十章--混沌论

    <For the want of nail> For the want of a nail, the shoe was lost;for want of a shoe, the horse ...

  7. 《数据科学家养成手册》第八章---统计学

    数理统计的鼻祖------阿道夫.凯特勒 1.凯特勒的"平均人"思想 凯特勒运用概率论的方法进一步的研究了社会道德领域的大量统计资料,发现"在我们对大多数人进行观察的时候 ...

  8. 《数据科学家养成手册》--“什么性质的人才能称得上科学家?” “科学的意思”

    什么性质的人才称为科学家? 有的时候我们会就的科学家就像是明星一样,距离我们很遥远(自己觉的比明星遥远的多)但是,他们都是凡人啊.都和我们是一样的啊.为什么有想法不勇敢的去追求这个目标? 科学 &qu ...

  9. 《数据科学家养成手册》傅里叶变换与反傅里叶变换笔记

    最早的电话使用的模拟信号原理图 (1)声音通过金属振动膜感应声波来影响磁场和电流,并将这种带有金属振动膜振动的"信息"的电流传递给另一端 (2)另一端则进行反向工作,把不断变化的电 ...

最新文章

  1. Cacti性能优化和监控H3C交换机
  2. hibernate中持久化对象的生命周期(三态:自由态,持久态,游离态 之间的转换)
  3. Java 冒泡排序实现及口诀
  4. python外卷(7)--glob
  5. sprintf用法详解
  6. 用redis实现延迟队列
  7. 批评一下 dearbook
  8. Java - System.in.read(byte[] b);
  9. 剑指offer面试题:输入某二叉树的前序遍历和中序遍历,输出后序遍历
  10. 一生只为一个女人奋斗
  11. 一名计算机教师的年度教学总结
  12. Android 对TextView添加删除线,下划线,加粗,斜体等效果
  13. 杂谈——科比球鞋(Nike)全记录
  14. 【优化算法】改进的灰狼优化算法(IGWO)【含Matlab源码 1349期】
  15. 安卓 获取机身内存,可用内存;运行内存,剩余内
  16. 关于解决win10重装后右键单击一直转圈的问题
  17. 微信小程序实现身份证识别功能
  18. oracle如何实现自增?----用序列sequence的方法来实现
  19. 实验三matlab实现,实验三matlab程序设计.docx
  20. gis空间校正没反应_使用ArcGIS进行空间校正的步骤(矢量数据)

热门文章

  1. android studio配置系列 - 收藏集 - 掘金
  2. 《机器学习与数据科学(基于R的统计学习方法)》——2.11 R中的SQL等价表述...
  3. RHEL6 64位系统安装ORACLE 10g 64bit 数据库
  4. Linux下GCC和Makefile实例(从GCC的编译到Makefile的引入) 转
  5. C# Trim 的使用
  6. Hadoop集群搭建(七:MySQL的安装配置)
  7. MySQL宽字节注入漏洞分析_宽字节注入
  8. java 类隔离_微服务架构中zuul的两种隔离机制实验
  9. java里锛是什么意思,java实验总结
  10. java+js上传图片_java+ jsp+js 实现富文本编辑和上传图片功能