一、什么是”数据科学”

在谈论RPy2之前,先来说一下“数据科学”,我要说的是“数据科学”是一个奇怪的词。因为几乎所有的科学都是“数据科学”。“无数据科学”则是完全不同的领域:哲学。“数据科学”是一门通过系统观察,对照实验,贝叶斯推理的开放试验理念的科学学科。

“数据科学”的目标是从数据中得出有效的统计推论。标签“数据”是指数据用于做什么并不重要,但这是错误的:它是难以且不可能做到科学的在没有得到数据的详细信息,得去了解系统的弱点并生产出来,智能、灵敏的应对非理想好数据。

任何有趣的数据集至少有以下一些特性:缺失值,异常值和噪声。缺失值:顾名思义就是缺失的值。异常值:离群怪异的事件,由于某种原因或其他的事件其值远远的超出合理界限。噪声的是,从所测量的值的随机(或非随机的)影响的着结果的分布。 一个良好的测量分布, 异常值和噪声在噪声不同下一般有较容易理解的因素,而异常值通常是很少发生的,我们不能通过分布很好的理解。

对于处理这类事情R,Python和RPY的都是有用的工具。

二、为什么R非常适合数据科学

R语言对有经验的统计分析师来说是非常轻量级. 它由科学家创造,对绝大多数的数据管理任务来说都非常轻松。特别适合以下几种数据管理任务:

1.标记数据

填充遗漏值(译者注:比如10行数据每行固定9列,但是第三行却只有5列数据,可以通过R的函数自动补全另外的5列值)

2.过滤

R语言对标记数据的支持非常友好. R语言的“data frame”概念,使得通过对数据列和数据行头来分割组合数据、标记数据,然后以纯数值的矩阵数据交给算法处理. 而传统的数据科学开发语言,如Python对数据的处理都需要开发者自己完成,需要消耗开发者 大量时间且容易出错.

处理或丢弃遗漏值、离群值(译者注:极值,如最大值、最小值)在数据中是非常基本但重要的任务. 某些情况下,本来是有利的数据,却因为测量误差等原因变成了不利、反对的数据。(译者注:比如越趋近于1才表示越可能是.)你如何处理这些事情可以对你的分析结果产生很大的影响。

R语言提供了丰富的算法来处理长期以来科学实践中出现的各种数据有关问题,虽然这些算法仍然需要自己去尝试和判断选择,以选择最恰当的数据处理算法.

三、RPy2: 架起R语言与Python之间的桥梁

Pandas,Python的数据分析库,目前它已经有很多相同功能,但是RPy2创造了一条很好的从R语言到Python的迁移路线,它让你在学习Python的时候,把R语言作为一个附属部分来学习,对于很多有丰富实验开发经验的分析师会使用R语言,当他们想把算法融入一个Python应用程序,并分发给用户时,他们也可以使用RPy2。

执行这种迁移的能力,而不离开R语言的概念模型是很有价值的,但从另一个角度来说,这也是一个限制,能够使用一个真正的通用编程语言,如:Python,来包装概念模型,并使得这个用户友好的应用程序有多种复杂的附加功能(打印,网络,USB支持,等等)是至关重要的。

举例来说,我已经使用了这种方法来创建读取传感器数据的Python应用,通过RPy2处理,以各种方式显示给客户,我不知道怎么用R语言读取传感器数据,应该是有某种方法的。而Python已经做好了我需要的模块,即使没有也非常容易扩展。

如果你还不知道R语言,我推荐你学习Python并且使用RPy2来访问R语言的函数。你学习一种语言获得了两种能力。一旦你学习过RPy,再转到纯R语言也不是什么大问题,但是,你想要反过来就没那么容易了。

End.

来源:数据分析网

r语言和python-R语言和Python —— 一个相关推荐

  1. python r语言培训_r语言和python学哪个

    先简要介绍下R语言: R语言由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman于1995设计出来(由于两人的名字均以 'R' 字母开头,因此命名为R语言),现在由"R ...

  2. 简单比较python语言和c语言的异同-Python快速入门之与C语言异同

    原标题:Python快速入门之与C语言异同 代码较长,建议使用电脑阅读本文. 10分钟入门Python 本文中使用的是Python3如果你曾经学过C语言,阅读此文,相信你能迅速发现这两种语言的异同,达 ...

  3. go语言和java比_闲话Python, Go, Java

    简要介绍下笔者从业经历,2017年5月加入饿了么(Java),2019年6月加入字节跳动(Python & go),Python & go 还处于入门阶段,所以笔者的见解只能当闲话听听 ...

  4. python julia go_挑战Python的四个语言:Swift、Go、Julia、R

    没什么是永恒的--包括编程语言.很多看起来可能是将来的佼佼者,到头来可能被人们遗忘.无论是因为不可抗拒的原因,还是因为自身发展的原因. Python时下正在"最热门的编程语言榜"上 ...

  5. python和r语言做大数据_R和python大数据

    数据科学界华山论剑:R与Python巅峰对决 如果你是数据分析领域的新兵,那么你一定很难抉择--在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如"我想学习 ...

  6. 北京python r语言培训

    r语言和python的区别是Python与R相比速度要快,R中的数据结构非常的简单. 1.R中的数据结构非常的简单,主要包括向量一维.多维数组二维时为矩阵.列表非结构化数据.数据框结构化数据.而 Py ...

  7. python r语言 数据分析_Python V.S R语言?数据分析与挖掘该选哪一个?

    什么是R语言? R语言,一种自由软件编程语言与操作环境,主要用于统计分析.绘图.数据挖掘.R本来是由来自新西兰奥克兰大学的罗斯·伊哈卡和罗伯特·杰特曼开发(也因此称为R),现在由"R开发核心 ...

  8. r和python数据分析_R和python大数据

    数据科学界华山论剑:R与Python巅峰对决 如果你是数据分析领域的新兵,那么你一定很难抉择--在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如"我想学习 ...

  9. python基础系列教程——python基础语法全解

    点击此处​​​​​​​ python教程全解 了解python 1.  了解Python Python是一种解释型(这意味着开发过程中没有了编译这个环节).面向对象(支持面向对象的风格或代码封装在对象 ...

  10. 【meng_项目】python+flask+html+css制作一个简单的生日祝福语网页

    python+flask+html+css制作一个简单的生日祝福语网页 一个py文件:     test.py 一个html文件:   birthday_index.html 一张图片:       ...

最新文章

  1. linux远程安装本机软件,我的电脑怎样让对方远程装软件?
  2. 如果政府强制开发linux应用,Linux开发环境及应用-中国大学mooc-题库零氪
  3. python webbrowser安装_如何为python webbrows设置BROWSER环境变量
  4. java jbutton 不显示_java – JButton中的图像未显示
  5. js实现kmp算法_搜索算法 与 随机算法 (JS实现)
  6. 两道动态规划的作业题
  7. Java后端技术知识点汇总(思维导图)
  8. 区块链 之 以太坊的那些坑
  9. RabbitMQ的7种典型使用场景
  10. 计算机课件制作,多媒体课件制作photoshop和powerpoint教案
  11. 全国计算机二级等级考试2017,2017年全国计算机二级考试科目及内容
  12. C语言两种方法实现归并排序
  13. chm、html文件转换为PDF文件(已解决)
  14. Effective C++条款39:明智而审慎地使用private继承(Use private inheritance judiciously)
  15. 34-对称矩阵的压缩存储
  16. [转]诺奖得主警告人类不应和外星人说话
  17. 发明专利申请过程及案例下载
  18. CCNA培训课总结笔记--RIPv1负载均衡(六)
  19. 新东方张晓楠:如何提高英语听力水平
  20. 《Effective Modern C++》学习笔记 - Item 28: 理解引用折叠(reference collapsing)

热门文章

  1. 判断单链表是否存在环
  2. 【转】Linux 前后台作业切换及脱机管理
  3. 单击GridView控件,高亮单击所在的记录行
  4. update和saveOrUpdate详解
  5. 用vs2005开发比delphi快多了
  6. django博客项目8:文章详情页
  7. 12)登录验证函数简单编写验证
  8. Git历险记(四)——索引与提交的幕后故事
  9. [公告]我的Live Spaces - 读书空间
  10. canal能监控多个mysql_learning-mysql-canal