数据分析介绍

什么是数据分析:

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的目的有多种,概括起来有三种:现状分析、原因分析、预测分析。现状分析简单来说就是告诉你过去发生了什么。原因分析简单来说就是告诉你某一现状为什么发生。预测分析简单来说就是预测未来会发生什么。

数据分析步骤:

数据分析主要有六个过程:

  1. 需求明确:明确做数据分析的目标。为后面的分析过程做好铺垫。
  2. 数据收集:通过爬虫、商务合作的方式,获取想要的数据。
  3. 数据处理:对获取来的数据进行处理和清洗,把不需要的剔除掉,把需要的加工成我们想要的。方便后面的分析。
  4. 数据分析:根据自己的目的,以及现有的数据确定好分析的方法。
  5. 数据展现:将数据按照确定好的分析方法进行展示出来。
  6. 撰写报告:将分析的结果通过图表和文字的方式形成报告文档。 数据分析的误区:
    分析目的不明确,为分析而分析:一定要找准自己分析数据的目标而去分析,比如是要了解现状,还是找出原因,还是预测未来发展等,千万不要为了分析而分析,这样就偏离主题了。
    缺乏业务知识,分析结果偏离实际:分析数据的时候,一定要和公司的业务结合起来。如果脱离业务,即使数据分析方法再牛逼,图标再优美,也无济于事。
  7. 数据分析的方法和工具: 数据分析可以通过工具,也可以通过代码来实现。以下分别列出这些常用的:
    工具:Excel、Tableau、SPSS、百度图说等。
    编程:Python语言、R语言、数据库的SQL语言、Excel的VBA语言等。

环境搭建

本课程用到的Python版本都是3.0。要有一定的Python基础,知道列表、字符串、函数等的用法。

Anaconda:

Anaconda(水蟒)是一个捆绑了Python、conda、其他相关依赖包的一个软件。包含了180多个可学计算包及其依赖。Anaconda3是集成了Python3的环境,Anaconda2是集成了Python2的环境。Anaconda默认集成的包,是属于内置的Python的包。并且支持绝大部分操作系统(比如:Windows、Mac、Linux等)。下载地址如下:https://www.anaconda.com/distribution/(如果官网下载太慢,可以在清华大学开源软件站中下载:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/)。根据自己的操作系统,下载相应的版本,
因为Anaconda内置了许多的包,所以安装过程需要耗费相当长的时间,大家在安装的时候需要耐心等待。在安装完成后,会有以下几个模块:Anaconda prompt、Anaconda Navigator、Spyder、jupyter notebook,以下分别做一些介绍。

Anaconda prompt:

Anaconda prompt是专门用来操作anaconda的终端。如果你安装完Anaconda后没有在环境变量的PATH中添加相关的环境变量,那么以后你想在终端使用anaconda相关的命令,则必须要在Anaconda prompt中完成。

Anaconda Navigator:

这个相当于是一个导航面板,上面组织了Anaconda相关的软件。

Spyder:

一个专门开发Python的软件,熟悉MATLAB的同学会比较有亲切感,但在后期的学习过程中,我们将不会使用这个工具写代码,因为还有更好的可替代的工具。

jupyter notebook:

一个Python编辑环境,可以实时的查看代码的运行效果。
使用jupyter notebook的姿势:先打开Anaconda Prompt,然后进入到项目所在的目录。输入命令jupyter notebook打开jupyter notebook浏览器。

conda基本使用:

conda伴随着Anaconda安装而自动安装的。conda可以跟virtualenv一样管理不同的环境,也可以跟pip一样管理某个环境下的包。以下来看看两个功能的用法。

环境管理:

conda能跟virtualenv一样管理不同的Python环境,不同的环境之间是互相隔离,互不影响的。为什么需要创建不同的环境呢?原因是有时候项目比较多,但是项目依赖的包不一样,比如A项目用的是Python2开发的,而B项目用的是Python3开发的,那么我们在同一台电脑上就需要两套不同的环境来支撑他们运行了。创建环境的基本命令如下:
conda create --name [环境名称] 比如以下:
conda create --name da-env
这样将创建一个叫做da-env的环境,这个环境的python解释器根据anaconda来,如果anaconda为3.7,那么将默认使用3.7的环境,如果anaconda内置的是2.7,那么将默认使用2.7的环境。然后你就可以使用conda install numpy的方式来安装包了,并且这样安装进来的包,只会安装在当前环境中。有的同学可能有想问,如果想要装一个Python2.7的环境,anaconda中没有内置Python2.7,那么该怎么实现呢?。实际上,我们只需要在安装的时候指定python的版本,如果这个版本现在不存在,那么anaconda会自动的给我们下载。所以安装Python2.7的环境,使用以下代码即可实现:
conda create --name xxx python=2.7
以下再列出conda管理环境的其他命令:
1. 创建的时候指定需要安装的包:
conda create --name xxx numpy pandas
2. 创建的时候既需要指定包,也需要指定python环境:
conda create --name xxx python=3.7 numpy pandas
3. 进入到某个环境
windows: activate xxx
mac/linux: source activate xxx

4. 退出环境:
deactivate
5. 列出当前所有的环境:
conda env list
6. 移除某个环境:
conda remove --name xxx --all
7. 环境下的包导出和导入:
导出:conda env export > environment.yml。
导入:conda env create --name xxx -f environment.yml。

包管理:

conda也可以用来管理包。比如我们创建完一个新的环境后,想要在这个环境中安装包(比如numpy),那么可以通过以下代码来实现:

activate xxx
conda install numpy

以下再介绍一些包管理常用的命令:

  1. 在不进入某个环境下直接给这个环境安装包:
    conda install [包名] -n [环境名]
  2. 列出该环境下所有的包:
    conda list
  3. 卸载某个包:
    conda remove [包名]
  4. 设置安装包的源:
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
    conda config --set show_channel_urls yes

数据分析-1.数据分析介绍相关推荐

  1. 【读书笔记->数据分析】BDA教材《数据分析》书籍介绍

    BDA教材<数据分析>书籍介绍 BDA BDA数据分析职业技能等级. 旨在培养基于数据分析理论.计算机技术以及行业案例应用"三维一体"的大数据分析人才. 培养数据管理. ...

  2. 【数据分析】走进数据分析 5 指标介绍

    [数据分析]走进数据分析 5 指标介绍 概述 基础指标 DUA 留存 渗透 页面浏览指标 PV UV Depth of Visit 商业化指标 CTR ARPU CPM CPC ROI 概述 数据分析 ...

  3. 视频教程-实用数据分析:数据分析师从小白到精通-大数据

    实用数据分析:数据分析师从小白到精通 多年数据分析.数据产品设计经验.先后供职于世界500强汽车.互联网企业,从0到1的负责大数据平台设计,数据决策平台设计和数据风控平台设计.在数据的分析和使用上经验 ...

  4. 谁学菜鸟不会数据分析之一——数据分析概念及作用

    数据分析概念作用 收拾心情开始我的数据分析学习之路,希望自己能够坚持下去,尽量抽取时间学习吧,还要尽量的研究数据挖掘的算吧,至于算法的实现还是在选择具体的软件呢,还不知道用什么软件来实现呢,现在所做的 ...

  5. 数据分析_SQL数据分析--旅游数据分析可视化实操

    SQL数据分析--旅游数据分析可视化实操.根据现有数据分析,具体操作情况如下: ①用户个人信息,数据共有4列,userid:用户ID: gender性别:province省份:age年龄段 测试集,1 ...

  6. 数据分析大数据分析如何应用于电商行业?

    这几年想做电商和进入电商行业的人越来越多了,不管是自己开的淘宝店还是微店,你会发现自己朋友圈里面,总会有那么几个已经在做电商的.电商这么火,那对于做电商而言什么是最重要的呢?答案毫无疑问是数据·大数据 ...

  7. 如何做数据分析,数据分析流程是什么?

    前言 如何做数据分析,数据分析流程是什么?数据分析是基于商业目的,有目的地进行收集.整理.加工和分析数据,提炼出有价值的信息的一个过程.整个过程大致可分为五个阶段,具体如下图所示. 关于图中流程的相关 ...

  8. 大数据分析与数据分析的根本区别在哪里

    大数据分析与数据分析这几年一直都是个高频词,很多人都开始纷纷转行到这个领域,也有不少人开始跃跃欲试,想找准时机进到大数据或数据分析领域.如今大数据分析和数据分析火爆,要说时机,可谓处处都是时机,关键要 ...

  9. 2021最新spass数据分析教程 论文spass数据分析教程 数据分析怎么做spass教程

    在问卷调研中,SPSS分析被应用于统计分析的过程,能使研究者以客观的态度,通过对受众的系统提问,收集并分析有关研究数据,以描述.解释或预测问卷调查内容的现象及其各相关因素之间的关系. 2021最新sp ...

最新文章

  1. P1852 [国家集训队]跳跳棋
  2. 【原】Unity3D 窗口裁剪
  3. 祝贺王远当选为中国区第二位 Teams MVP
  4. js键盘相关知识总结
  5. 单片机的单个IO口可以发送数据吗_5分钟了解单片机数据、地址、控制总线结构...
  6. iOS GPS定位减小精度误差的几种处理方法
  7. 【建行】龙支付新老用户赚200元详细教程
  8. 世界一流学科排名计算机科学,2021软科世界一流学科排名:计算机科学与工程...
  9. 给SAP初学者的建议!
  10. PHP字符串函数strtolower(将字符串转化为小写)
  11. FM模型及其在推荐系统中的应用
  12. 记录12306项目抢票成功的经历:CentOS7环境
  13. 请你帮我一起转到全中国
  14. C2: 随机事件与样本空间/关系运算
  15. 服务器raid卡安装在什么位置,安装raid卡
  16. 鸿蒙电视投屏软件,鸿蒙打造 未来电视就这样!荣耀智慧屏 PRO 深度评测
  17. 2021年上半年软件设计师上午真题及答案解析(三)
  18. 深入理解C与C++ (0.1)
  19. 基于人脸识别的人脸考勤机实现(训练、测试、部署)
  20. 薛逸凡计算机生物学,生命科学与技术学院

热门文章

  1. [日推荐]『口红IN』女票生气了怎么哄?这里有妙招!
  2. CSDN文章如何迁移至微信公众号
  3. win10一按右键就闪屏_六种方法教你如何解决win10笔记本屏幕闪烁问题?
  4. 计算机键盘分为哪5个区,计算机键盘分区之功能键区
  5. 二.java-jak和jre安装与配置
  6. Android下拉刷新的实现(一) - SwipeRefreshLayout篇
  7. 航芯技术分享 | 一文读懂什么是量子密码
  8. 队列练习之Example005-Q 是一个队列,S 是一个空栈,实现将队列中的元素逆置的算法
  9. 工资倒挂,IT 行业薪资潜规则如何规避?
  10. ubuntu 安装小企鹅拼音输入法