学习内容

学习方法

• 重视基础
• 归纳总结,构建自己知识体系
• 推荐使用xmind思维导图
• 三多法则
• 多练习
• 多应用
• 多思考

发展方向

例子:

• 数据分析班级到课人数
• 有8人不来上课,这是数据分析吗?

数据挖掘与数据分析区别

这是现象,不是原因,所以这肯定不是数据分析。
若是班主任的业务能力比较强,他对每个同学的上课情况都十分了解可能有五个同学一直加班,比较忙所以没有来上课,还有两个是因为跟不上了,还有一个在谈对象。这才是原因,然后会有解决方案,比如因为有跟不上的同学,那么老师就会放慢进度,放慢语速,对于加班忙的同学,老师会敦促他们空闲时间是否已经补课,看录播了,当然那个谈对象的同学就没有解决方案 [dog]
所以我们会发现这种业务型的数据分析 需要分析数据找到原因然后提供解决方案 ,这就是完整的闭环。
那么数据挖掘又是什么?
数据挖掘跟数据分析不一样,数据挖掘基本上大量的工作在建模,比如通过大量的数据去训练模型,得到一个最简单的模型,比如y=kx+b 这是一种线性回归。要想确定这条线,首先得确定k 和b 两个参数 那数据挖掘是什么?就好比说我们有一系列的数据,x呢是我们的样本数据,y是我们的预测数据,我们通过大量的数据训练出k和b,也可以说是拟合。那么假如我们得出了k=1,b=2, 那么就有了y=x+2了,就有了一条准线,这条线就是模型,那么当我们有新的样本数据,x=1时,y=3,意思就是我们有了新的样本数据就可以获得预测值。这就是一个最简单得模型。这就是一个机器学习或者数据挖掘的过程。简单来说就是通过大量数据训练出一个模型,这个训练的过程就是求参。求得参数以后就能用新的数据代入这个模型来求得预测结果,当然这个是通俗的来说,如果详细的来讲,会涉及到很多东西,比如哪一个k b误差是最小的。

本课程的设计


数据分析的这三个库是机器学习的基础,没有这三个库的知识储备的话,学习机器学习是比较为难的。

这里注意一下我们的jupyter是直接可以写数据分析报告的,当然很多公司都是用ppt来展示的,jupyter没有那么美观,jupyter是一个编辑器

课程注意事项

• 在课程每小段知识点讲解完毕之后: 会跟大家进行互动,那么希望大家积极的反馈该知识点的学习情况。
• 如有大部分同学反馈有疑问,则会停下来重新解释。但是同一个问题课题上重复讲解不超过2次。
• 关于课程我们会根据课堂内容适当拖堂,但考虑大家次日上班以及学习的效率问题,一般不会超过22:30。
• 关于直播 VS 录播
• 希望大家享受学习的过程,直播可以帮助大家更高效的学习。
• 录播建议
• 若没上直播课程,课后一定要抽时间补上录播,避免后期跟不上。
• 录播学习不建议重复,如有需要建议先看课程笔记,带着疑问跟回放。
• 课堂纪律:不允许迟到早退,有请假的要提前和班主任老师或者我进行说明/ 对于要退出课堂的同学要在公屏说明原因。
• 关于节假日:国家法定节假日都正常休息,大家可以自由安排行程(如有特殊安排,会及时群公告说明)

坚持

只有坚持耐得住寂寞才能有成效

数据分析介绍

数据分析基本概念

• 用适当的统计分析方法对收集来的大量数据进行分析
• 提取有用信息和形成结论
• 对数据加以详细研究和概括总结的过程

我们举一个例子,比如一个公司是销售型的,我们需要分析它的销售线状(线状分析),也就是我们知道该公司一个季度的销售情况,我们要分析它是什么原因产生了这种销售情况(结果),就是原因分析,这个原因分析不仅有不好的一方面,也得有好的一方面。比如第一季度销量50万,第二季度销量只有30万,第三季度销量有40万,那么原因可能就是第一季度双旦节的来临加上过年,这就是一个原因,我们分析完原因后就要调整策略,然后开始做接下来的目标就是预期分析,就是有一个底,你可以冲一冲你的目标这个呢也叫做预期分析啊,所以他会发现你们的领导或者说你们自己本身再做一个KPI的考核的时候,或者说一个目标的时候,你们其实是大概的知道自己,或者整个团队它能够创造出怎样的一个价值的,那所以,其实这也就是你本人对待你的一个现有的一个岗位的一个经验的累积,那除此之外呢,当然老板的话是希望你可以有美好的幻想对吧,有一个大的目标然后往前冲的那种冲劲,这个的话是很正常的,这个也是我们数据分析,那么可以通过数据去取代你这种或者说帮助你辅助你的经验去做出来的一个结果,我们接下来来看一下数据分析的流程。

数据分析的流程


主要的我们首先第1点你要明确目的,这个明确目的并不是那么简单的说我只要知道,我要做这个数据分析要干什么?也就是说我要知道为什么要做数据分析,为什么要做这样一个数据分析,那其实的话不止这一点,因为我们还需要知道我们要通过这个数据分析解决什么样的问题,所以说你的问题是在你最开始就要知道的,你现在有遇到瓶颈了,然后,什么样的一些问题你应该有大概的一个梳理,那除此之外,我们要去看要通过哪些角度进行分析,因为像有内因,比如说有你自身团队的原因,还有外因,比如说行业的原因,比如说10月份来了OK,那这个月它的一个呃业绩的话,肯定就会比较的高,那这个是外因为什么呢?是因为整个行业基本上所有做这一类的对吧,它的业绩都会比较高,那因为是双11嘛,所以,就会有内因,有外因,还有很多其他的细枝末节的因素,那这些的话都叫做角度,那除此之外还有就是采用什么方法进行分析,这些都需要我们在第1个阶段就去归纳好的,然后有了这些准备的话,接下来我们就是需要有数据了,那这个数据的来源也多种多样啊,比如说有的同学说,我要获取数据对不对?那我怎么来获取呢?来大家你们可以从哪获取好现在啊,基本上一想到获取数据了就知道要用什么爬虫吧,那么爬虫,它确实可以从网络上采集数据下来,那么这个的话就是要大家具备爬虫的技能,那除此之外呢,还有一个就是本地的数据,比如说你的Excel当中的数据,其实就是你本地的数据。比如说当一个公司初创的时候,那它的数据可能就直接录入在Excel,那这个Excel当中的数据呢,就是你本地的数据也就是你电脑当中的数据,okay,所以说注意一下这个叫做本地数据,那么除此之外,还有就是我们的第三方平台购买的数据,因为大家看很多做分析的一些平台,比如说我们就是之前我看过什么瑞那个那个平台的,其实它的一个分析报告,一个有效的行业分析报告要卖到5000吧,还有几万的,所以,它的分析报告非常的昂贵一点的话,就是它的数据也非常的宝贵,当然还有一些它提供了很多免费的分析报告,但它的免费的分析报告,基本上就是让你看一下,整个情况,但是呢他的数据也不给力他不告诉你他怎么做的,所以这个就是说数据,它是非常的有价值的,所以说也可以从第三方平台去进行数据的购买,数据的购买,OK,那这个是我们准备数据的一个阶段,那么除此之外,我们接下来有了数据了,我们就要来对这些数据进行解析,为什么要解析呢?因为大家想一下我们上面怎么说的,你的数据非常多,非常多,那现在难道所有的数据都是你想要的吗?来所有的数据都是你想要的吗?并不是吧,里面还有什么可能会有我们的一个大量缺失的数据,比如说你有某一列啊某一列,就是说你这一个这一列的数据,它可能就有大量的一个缺失,再有大量的一个缺失的话,你这一类还能作为我更新的一个依据吗并不能吧,因为你这里面它有大量的缺失值,如果说我对它进行取平均或者说我让一些填充它就是比如我用平均值去填充它,它的一个误差其实是比较大的,所以这一类基本上我们是没有用的,那我还不如把这一类直接给删除掉,那这个也叫做数据清洗,对那除此之外还有可能就是你的数据,给大家举个例子,比如说我们有些同学的吧,就是考试打了80分啊,比如说男性同学考试打了80分好,然后呢我们的这个来我看一下这个这个幂同学考试打了90分,但是你可能单看的话,唉,你会发现,哦,好像我们的蜜同学他的一个结果比这个男同学的结果好对不对,但是我现在告诉你的是,蓝宇同学的满分分值100分密同学的分值150分,这个时候你就怎么来评价这个80分90分哪一个更好呢,所以呢这一块也是我们需要对数据做一个处理的过程,做一个处理的过程,OK,就是说我们怎么将就是一些数据变成一个量纲,一个量纲的数据,所以呢,大家稍微的注意下,那么当然还有我们数据可能是紊乱的话,就可能是比较乱的而且复杂,达到那这个我们也是需要对它去进行整理的,所以说稍微注意一下数据解析呢,我们基本上在做这样一个清洗处理的过程,那么然后当我做完清洗,然后处理完之后,那么基本上是一个有效的数据了,大家觉得这个时候是一个有效的数据了,那么有效的数据难道就全部的对我们有用吗,并也并不是啊,在这里我们还需要去对数据进行分析啊,因为有的列或者说有的特征它是比较有效的,那有的特征呢,它可能影响比较的小,所以呢,这一块也是需要我们去调整调整的,就是说提取重要特征,做相应的分析,重要特征或者说相关性非常强的特征,这些的话是需要我们在核心素质这一块进行处理的去做的一个事情,那然后,我们接下来就是说有了这样一个结果,有了这样一个大概的数据,我们就应该去总结,来分析它的一个相关性等等,然后获得结论,那获得结论呢,我们是不是也说了这个结论啊,你还是一个数据表格,我们可能并不清晰的可以看到它这个结果,那么我们要借助可视化,就是说我要将它以图形展现出来,那么这个图形展现大家注意一下并不是说我只要给老板点钱出来就可以了,其实它还有非常多的作用,比如说它可以帮助我们看异常值,比如说年龄一般的话都是嗯1~100岁的,那现在我们一般情况下出现了一个负值,一旦做图的话就很容易的可以观察出来。所以,这也是我们图形可视化的一个一个需求,那么除此之外它还可以帮助我们建模提供想法,所以说在这里图形可视化是一个非常重要的东西,就是为什么我们这么重视图形可视化这一部分,他可以为我们带来灵感,以更加直观的效果攻击我们的大脑。

为什么要学习数据分析

• 岗位有需求
• 是机器学习的基础
• 数据科学的基础

数据分析工具


spass和stata都是做计量统计的工具,也可以处理一些较大的数据

python中的很多语法函数与matlab中的方法相似

注意 数据分析与数据挖掘的相似之处:

  1. 数据挖掘和数据分析都是对数据进行分析、处理等操作,从而得到有价值的知识
    数据分析与数据挖掘的区别:
  2. 在应用工具上,数据分析更多的是借助现有的分析工具进行;而数据挖掘一般需要通过编程来实现(构建模型获取有价值的信息)。
  3. 在行业知识方面,数据分析要求对所从事的行业有比较深的了解,更多的是将数据与业务紧密结合起来;而数据挖掘不需要有太多的行业知识,更专注与技术层面。

环境部署(写代码的编辑器)

• Pycharm
• jupyter

jupyter安装与使用

Jupyter介绍

Jupyter Notebooks 是什么?
Jupyter Notebooks 是一款开源的网络应用,我们可以将其用于创建和共享代码与文档。
其提供了一个环境,你无需离开这个环境,就可以在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果。因此,这是一款可执行端到端的数据科学工作流程的便捷工具,其中包括数据清理、统计建模、构建和训练机器学习模型、可视化数据等等。 (简而言之就是写代码的编辑器)
Jupyter Notebooks特点
• 基于web的在线编辑器
• 可交互式
• .ipynb文件分享
• 支持markdown
Jupyter安装
如何安装 Jupyter Notebooks?

  1. 首先需要在你的机器上安装 Python。(建议python3.6-3.7都可)
  2. 安装命令:pip install jupyter (直接这样安装会慢所以我们换源安装)

换源安装
pip国内的一些镜像

阿里云 http://mirrors.aliyun.com/pypi/simple/
  中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
  豆瓣(douban) http://pypi.douban.com/simple/
  清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
  中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

修改源方法:

临时使用:
可以在使用pip的时候在后面加上-i参数,指定pip源
eg: pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

出现successfully 就说明安装成功了

出现一下的红色框中的就是说明已经安装了

Jupyter使用

如何运行 Jupyter Notebooks?

1.首先需要建立单独项目文件夹(建议名称不要包含中文)
2.windows+R输入cmd进入windows终端
3.切换到该文件夹路径下
4.打开命令:jupyter notebook
如图所示:

复制网页链接在浏览器中打开,

注意 的是打开了这个命令提示符的窗口就没法再关了,否则网页中的jupyter就没法用的。

当然这个jupyter中的文件夹的文件是我们想要的吗
其实这里的文件是我们在哪个目录下打开这里的文件就是哪的


当我们需要完成一个项目或者程序的时候,需要一个单独目录来进行写代码,所以上面的目录不符合我们的需求
桌面上创建一个test1的文件夹

退出jupyter

在cmd中按ctrl+c退出出现下图红框就说明退出了

然后

然后再输入jupyter notebook执行jupyter

打开笔记本后,你会看到顶部有三个选项卡:Files、Running 和 Clusters。其中,Files 基本上就是列出所有文件,Running 是展示你当前打开的终端和笔记本,Clusters 是由 IPython 并行提供的。
jupyter是空的因为test1文件夹就是空的

running就是运行的终端笔记,因为现在没有运行终端所以是不可用,也没有运行的笔记

因为jupyter其实就是ipython的一个封装

基础使用 Jupyter Notebooks

要打开一个新的 Jupyter 笔记本,点击页面右侧的「New」选项。
• Python3 --> 创建python file
• Text File --> 文本编辑器
• Folder --> 创建文件夹
• Teminal --> 终端(类似于Windows上的cmd)

上传代码upload 新建代码点new

text file 文本编辑器 你可以让它的扩展名为excel text doc等 folder就是文件夹 目录
还有一个终端Terminals
点击python3

这个文件不是py文件,他的扩展名是.ipynb

而且他的名字默认是Untitled

save as 另存为
rename 重命名
改为demo


jupyter与ipython一模一样 是一个交互环境 jupyter的运行快捷键是shift+enter回车


写完代码后要及时按住CTRL+s保存

创建python file

在代码上面的菜单中,你有一些操作各个单元的选项:添加、编辑、剪切、向上和向下移动单元、运行单元内的代码、停止代码、保存工作以及重启 kernel。

shift+鼠标左键点击左多选代码行 也可以命令模式下shift+上下
• Code --> 代码
• Markdown --> 标记(在运行一段代码后添加你的结论、添加注释等。)
• Raw NBConvert --> 原生类型单元格,内容会原样显示。在使用NBConvert转换后才会显示成特殊的格式。(raw nbconvert可以用来显示不运行的代码。因为markdown不能保存代码原来的样子,比如换行什么的就没有了. 就比如说 你在jupyter 新建了一个 json文件 这个时候你要在里面写一些数据 然后你的数据可能不是json的代码规范 那用这个就可以格式化一下)
• Heading --> 标题(也是Markdown语法)



原生 NBConvert就是把代码格式转成其他的格式 比如html格式

快捷键使用

• 运行 --> Ctrl+Enter
• Esc --> 命令模式
• Enter --> 编辑模式
进入命令模式之后快捷键:
• A --> 在活跃单元之上插入一个新单元
• B --> 在活跃单元之下插入一个新单元
• 连续按两次 D --> 可以删除一个单元
• Z --> 撤销被删除的单元
• Y 会将当前活跃的单元(蓝色)变成一个代码单元 (例如能让markdown单元变成代码单元 按M就又变回来了)
• 按住 Shift +上或下箭头可选择多个单元。在多选模式时,按住 Shift + M 可合并你的选择。
处于编辑模式时快捷键:
• Ctrl + Home 到达单元起始位置
• Ctrl + S 保存进度
• Ctrl + Enter 会运行整个单元块
• Alt + Enter 不止会运行你的单元块,还会在下面添加一个新单元
实际上,大家不需要去背这些快捷键。可以进入命令模式,摁住H就可以看到快捷键了。

如图所示:

还有一些小技巧

tab建进行补齐(当然我的不能补齐)

说明文档的查看

shift+tab 一次弹出一小块简单说明,两次弹出跟多说明
或者后面加两个英文的问号

【1】学习前言及数据分析的简单介绍jupyter的介绍与安装相关推荐

  1. 新颖的自我介绍_精选简单新颖的自我介绍

    精选简单新颖的自我介绍 简单新颖的自我介绍(一): 大家好!我是xx,今年xx岁,毕业于xx校园,我的爱好xx,很高兴和大家一齐共事,望大家多多指导,如今后在工作有做的不到的地方请大家多多包涵.等等! ...

  2. python实战(一)Python爬取猫眼评分排行前100电影及简单数据分析可视化python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化

    python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化 一.抓取数据 需要的库 request库 响应http请求 json库 将文本保存成json形式 pyquery 类似JQ ...

  3. 【贪玩巴斯】Unity3D初学圣经(一)——学习要求 Unity简单介绍 游戏引擎介绍 课程体系介绍 「1-1 到 1-4 」—— 2021年12月9日

    Unity3D初学圣经 一 --学习要求 & Unity简单介绍 & 游戏引擎介绍 & 课程体系介绍 本文对应视频P1 1-1 到P2 1-4 1.学习要求 2.Unity简单 ...

  4. React学习-event.preventDefault()方法的简单介绍

    React学习-event.preventDefault()方法的简单介绍 react官方文档中有这么一段: 在 React 中另一个不同点是你不能通过返回 false 的方式阻止默认行为.你必须显式 ...

  5. 流形学习(Manifold Learning)简单介绍

    传统的机器学习方法中,数据点和数据点之间的距离和映射函数f都是定义在欧式空间中的,然而在实际情况中,这些数据点可能不是分布在欧式空间中的,因此传统欧式空间的度量难以用于真实世界的非线性数据,从而需要对 ...

  6. 二维码学习笔记(二) | 数据分析与数据编码

    唠唠闲话 二维码笔记系列(原文地址): 『二维码学习笔记(一) | 二维码概述』 『二维码学习笔记(二) | 数据分析与数据编码』 『二维码学习笔记(三) | 纠错编码』 『二维码学习笔记(四) | ...

  7. 《.NET 4.0面向对象编程漫谈》前言及配套资源包发布

    <.NET 4.0面向对象编程漫谈>前言及配套资源包发布 注: 今天拿到了出版社快递送来的<.NET 4.0面向对象编程漫谈>(基础篇和应用篇)的24小时样书,相信读者很快就能 ...

  8. 英语语法---前言及索引

    英语语法 前言及索引 文章是由句子组成的,而要了解句子,就要懂得句子是怎么组成的.这就是学习语法的原因. 首先介绍了句子有哪几种类型,然后句子是由哪几种成分组成.最后,成分可以由从句.短语.单词充当, ...

  9. python在数据分析的应用_Python运用于数据分析的简单教程

    这篇文章主要介绍了Python运用于数据分析的简单教程,主要介绍了如何运用Python来进行数据导入.变化.统计和假设检验等基本的数据分析,需要的朋友可以参考下 我这里来分享一下如何通过Python来 ...

最新文章

  1. 浅谈软件自动化集成测试的流程
  2. flutter-webview的坑用到第三方插件的
  3. 实验5 编写调试有多个段的程序
  4. java 中 return 的两种常见的用法
  5. JS中typeof的用法
  6. 2011年度最佳代码“不管你们信不信,我反正信了”
  7. 贪心---区间覆盖问题(水题)
  8. SHELL中,如何分割字符串
  9. 求一个序列中,第k个数
  10. Mac端SVN工具CornerStone详解
  11. 解决办法:GLib-ERROR **: Creating pipes for GWakeup: Too many open files
  12. Sql server备份数据库不执行
  13. fiddler——一款莱斯的抓包工具
  14. Loadrunner12实现手机APP压力测试
  15. excel宏实现工作表索引,点击按钮隐藏/显示对应工作表
  16. wordpress最佳架构_动物和宠物的24个最佳WordPress主题
  17. 华东师范大学2020计算机研究生招生简章,2020华东师范大学计算机考研大纲
  18. Python Appium自动化测试框架 综合实践案例(中)
  19. 关于LANDesk我们知道些什么
  20. npm/yarn 安装和命令

热门文章

  1. 湖北科技学院计算机科学院,钱涛 - 湖北科技学院 - 计算机科学与技术学院
  2. 女神节礼物送什么好?女神节送女生的礼物推荐
  3. 名帖57 虞世南 小楷《演连珠》
  4. 为什么SAST和SCA在SDLC中很重要?
  5. Web前端持续集成方案(四)
  6. 微信公众平台测试帐号-配置
  7. java中的控制器_SpringMVC基础(一)_控制器
  8. SQL语句中将字符串转换为时间格式
  9. HAL库-us级延时函数实现
  10. php中mysqli_fetch_assoc( )与mysqli_fetch_row( )的区别