ipython notebook 是一个基于浏览器的 python 数据分析工具,使用起来非常方便,具有极强的交互方式和富文本的展示效果。jupyter 是它的升级版,它的安装也非常方便,一般 Anaconda 安装包中会自带。安装好以后直接输入 jupyter notebook 便可以在浏览器中使用。

一、为什么使用 Jupyter

关于为什么使用 jupyter 进行分析,而不是用 python 脚本或仅仅利用 excel,知乎中有两点很赞的回答:

1、基于过程


数据分析和传统的 MVC 软件开发的最大区别在于,数据分析存在一个 data flow, 我们是在不断的做计算,并且画图。这里存在一个大致的 "顺序",比如:

  1. 先对数据进行处理,去掉有问题的数据 (Data Wrangling)。

  2. 从各个角度看一个这个数据各个维度的分布情况 (Data Exploration)。

  3. 根据自己的想法、要求,做具体的分析,计算。

  4. 对计算结果做进一部分的分析。

这有点类似做应用题。而这是传统的 IDE (e.g. PyCharm) 没有办法做到的。假如全部都写脚本+输出,那么你 每张图可能都要保存下来,然后再单独点进去看,很麻烦。而 Notebook 做这个要更方便,结果直接产生在 Cell 下面。

反言之,如果你不需要这种频繁的计算-画图的话,那么 notebook 可能还真没什么大不了。

2、Hackable


和第一点对应,Notebook 的是计算+文档的混合体,而本身又是 web-based,因此非常好 hack, 比如我的 notebook 因为非常长,所以就加了个侧边栏目录:

再比如,在分析电影数据的时候,我觉得用 card 来展示更方便一点,所以可以这样显示数据:

完整知乎回答,参考:

https://www.zhihu.com/question/37490497/answer/212044783


二、Jupyter 安装与使用

正常情况下,Anaconda 安装包中已经自带了 jupyter、jupyter-notebook。对于 miniconda,或者其他只安装了 python 的机器,需要借助 pip 安装:

pip install ipython

pip install jypyter

或者使用 conda 命令安装:

conda install jupyter

更多安装说明,请参考官网:http://jupyter.org/install.html

接下来,我们只需要在命令行输入 jupyter notebook 或者 jupyter-notebook 即可:

# 指定 ip 及端口启动 jupyter notebook

jupyter notebook --ip=0.0.0.0 --port=8080

# 启动 jupyter notebook 时不启动浏览器

jupyter notebook --no-browser

# 启动 jupyter notebook

这时候,jupyter 会自动生成一个用于登陆 jupyter Notebook 的 token,我们在浏览器打开:http://localhost:8888/?token=120a457da88d214270e...22a376d3d4 ,即可进入登陆后的 Jupyter Notebook web:

在 jupyter notebook web 页面,我们可以点击 "New" → "Python2" 创建 python2 笔记。我们可以在这两个笔记中使用 markdown 语法进行编辑,也可以交互执行 python 代码。

jupyter notebook web 登陆后,点击右上角 "Logout" 可退出;通过输入上面的 token 可重新登陆。或者我们可以通过 jupyter notebook password 命令设置密码进行登陆(如果忘记密码也可以通过该命令进行重置)。默认 jupyter notebook passwd 保存在 ~/.jupyter/jupyter_notebook_config.json:

最后,使用 Jupyter notebook,开启属于你自己的数据科学之旅吧!

年末将近,事情也多了起来,码士猿也有一段时间没有更新了,今天我胡汉三又回来啦!在诞节到来之际,本猿在这里祝福大家平平安安,圣诞节快乐!也祝福我的家人永远健康快乐,爱你们!!!

本文分享自微信公众号 - 生信科技爱好者(bioitee)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

数据科学工具 Jupyter Notebook 教程(一)相关推荐

  1. 数据科学工具 Jupyter Notebook 教程(二)

    Jupyter Notebook 是一个把代码.图像.注释.公式和作图集于一处,实现可读性分析的交互式笔记本工具.借助所谓的内核(Kernel)的概念,Jupyter Notebook 可以同时支持包 ...

  2. 给初学者的 Jupyter Notebook 教程

    给初学者的 Jupyter Notebook 教程 Jupyter Notebook 是一个非常强大的工具,常用于交互式地开发和展示数据科学项目.它将代码和它的输出集成到一个文档中,并且结合了可视的叙 ...

  3. 独家 | 从全方位为你比较3种数据科学工具的比较:Python、R和SAS(附链接)

    翻译:张玲 校对:吴金笛 本文约3000字,建议阅读5分钟. 关于三种数据科学工具Python.R和SAS,本文从8个角度进行比较分析并在文末提供记分卡,以便你随时调整权重,快速做出选择. 简介 我们 ...

  4. sas和python哪个好学_从全方位为你比较3种数据科学工具的比较:Python、R和SAS(附链接)...

    原标题:从全方位为你比较3种数据科学工具的比较:Python.R和SAS(附链接) 本文约3000字,建议阅读5分钟. 关于三种数据科学工具Python.R和SAS,本文从8个角度进行比较分析并在文末 ...

  5. 数据科学工具Weka的学习路径

    在这个R和Python主宰数据科学的时代,我们来看一下另一个叫做Weka的数据科学工具.Weka已经出现了一段时间,是在Waitako大学为了研究的目的而内部发展的.简单的学习曲线使得Weka具有尝试 ...

  6. 技术控,看这里,一款支持断点调试的数据科学工具

    数据科学是一门利用统计学.机器学习.数据挖掘.数据可视化等技术和方法,从数据中提取知识和信息的交叉学科.自上世纪60年代,统计学家John W.Tukey首次提出"数据分析"(Da ...

  7. Jupyter Notebook教程

    一.什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序.其可被应用于全过程计算:开发.文档编写.运行代码和展示结果.--Jupyt ...

  8. 获取会话名称时错误 5_5种可重复的数据科学工具

    使用这些工具开发协作,可信赖和高效的数据科学项目 科学中可重复性的定义是"重复进行实验时获得一致结果的程度". 数据,尤其是数据保存在数据库中的位置,可能会发生变化. 此外,数据科 ...

  9. python教程jupyternotebook_搭建Python Jupyter Notebook教程

    Jupyter原来叫做IPython,后来改名为Jupyter,意思是Julia+Python+R,囊括了三大数据科学语言.Jupyter编程环境具有以下两个特点: 中心化工作环境:Jupyter支持 ...

最新文章

  1. VMware虚拟机相关文件问题
  2. 你应该知道的模型评估的五个方法
  3. Python日志模块的两种用法
  4. 10.29 工作笔记 ndk编译C++,提示找不到头文件(ndk-build error: string: No such file or directory)...
  5. android中的shape资源,Android Drawable资源讲解之shape篇
  6. nemesis什么车_nemesis是什么意思_nemesis的翻译_音标_读音_用法_例句_爱词霸在线词典...
  7. ios 画带有箭头的线_ios纯色箭头与渐变色箭头的实现
  8. 用纯JSP实现按条件查询数据库
  9. 知识也许是先人留给后辈最大的财富
  10. logrotate日志轮转配置文档
  11. 智力与联系能力的关系
  12. Android中图片去色的两种方法
  13. python学习手册(1)
  14. Axure _ 原型图
  15. 计算机网络的应用领域有那些,计算机网络应用领域
  16. java版精简搜狗皮肤
  17. vue3 去除百度地图右上角地图类型展示
  18. 网易Airtest跨平台的UI自动化测试框架
  19. 7-1 计算职工工资c语言,C语言职工工资管理系统
  20. Openwrt 18.06 iPhone XR usb tethering导致内核崩溃问题解决方案

热门文章

  1. 某女程序员吐槽自己被男同事集体排挤!一个人吃饭,一个人敲代码!深深感觉到世界的恶意!...
  2. 360数据处理平台的架构演进及优化实践
  3. 那些消失的互联网中年人
  4. 中国人长期“霸榜”GitHub,国外开发者发文控诉
  5. Java 程序代码优化方法
  6. 浅谈分布式消息技术 Kafka--大数据技术栈05
  7. Hadoop对Spark:正面比拼报告(架构、性能、成本、安全性和机器学习)
  8. 归并排序是稳定的排序
  9. JVM---运行时数据区概述
  10. JVM基本架构及生命周期