文章目录

  • 一.前言
    • 1.数据价值
    • 2.数据分析之路
  • 二.数据分析的概念
  • 三.数据分析的应用
  • 四.数据分析方法
    • 1.概念
    • 2.详解
  • 五.数据分析工具
  • 六.数据分析的基本流程
  • 七.Python数据分析常用模块
    • 1.数值计算模块NumPy
    • 2.数据处理模块Pandas
    • 3.数据可视化模块matplotlib
    • 4.机器学习模块scikit-learn
    • 5.深度学习模块tensorflow

一.前言

1.数据价值

(1)传统的web项目
  在中国一一提到IT,人们首先联想到程序员。IT(Information Technology)信息技术,当中的信息就是数据中提炼的一部分
(2)日常Excel的作用
  Excel在各个领域都有所使用,它在干什么?大部分人使用Excel做数据的记录加上排个名次,能用上加减乘除也就不错了。这也是数据分析
(3)难搞的统计学也来搞一下
  统计学,分为描述统计学和推断统计学,我们一般会使用描述统计学来查看某个事件的状态。使用推断统计学可以预测很多以后事件的发生状态。

2.数据分析之路

什么是数据
  对于当今社会来说,凡是能电子化记录的,都是数据。例如:摩拜把自行车数据化了,阿里把人和商品都数据化了,车联网把车也数据花了,甚至很多的生物公司把基因和病毒都数据化了。可能现在一些数据没有技术能处理他们,但是一有技术变革,那数据的能量是巨大的。
  数据是有商业价值的。企业靠收入活着,企业为了获得收入需要去支出,包括人力、物理、时间、空间等。收入减去支出等于利润。企业想要获得更大的利润需要合理的开支并且需要规避风险。而着一些,数据可以帮助他们建立运营系统、财务系统和风控系统。
  当然,现在有很多的数据企业是入不敷出的,但是评估的价值还是非常高的,未来可能才是他们发挥的时候。

二.数据分析的概念

数据分析就是利用数学、统计学理论相结合科学统计分析方法对数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据进行分析,从中提取有价值的信息形成结论并进行展示的过程。
数据分析的目的在于将隐藏在一大堆看似杂乱无章的数据背后,将有用的信息提取出来,总结出数据的内在规律,以帮助在实际工作中的管理者做出决策和判断。
例如:以QQ聊天为例,经过分析后得到如下信息:
1.大家都在聊什么,聊天的主要内容(词云图)
2.哪个时间段聊天的人多(群活跃度)
3.大家以聊天为主还是以斗图为主,各占多少
4.这一年群聊天的情况
图片展示:
QQ群聊天内容分析 词云图

QQ群用户活跃度分析

QQ群聊天次数与发图次数占比分析

2019年群聊天情况分析

三.数据分析的应用

1.互联网行业
通过数据分析可以根据客户意向进行商品推荐以及针对性广告等。例如,我们熟悉的淘宝

2.医学方面
智能医疗、健康指数评估以及DNA对比等,例如,我们熟悉的手环、体脂称

3.网络安全方面
通过数据分析建立一个潜在攻击性的分析模型,监测大量的网络访问数据与访问行为,可以快速识别出可疑网络的访问,起到有效的防御作用
4. 交通方面
根据交通状况数据与GPS定位系统有效的预测交通实时路况信息。

5.通信方面
数据分析可以统计骚扰电话进行骚扰电话的拦截与黑名单的设置。
6.个人生活
数据分析可以对个人喜好、生活习惯等进行分类,为其提供更加周到的个性化服务。

四.数据分析方法

1.概念

数据分析是从数据中提取有价值信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分析方法,才能起到事半功倍的效果。
数据分析:描述性数据分析、探索性数据分析、 验证性数据分析
按类别来分
(1)统计分析类:对比分析法、同比分析、环比分析、定比分析、差异分析、结构分析、因素分析、80/20分析
(2)高级分析类:回归分析法、聚类分析法、相关分析法、矩阵分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列分析。
(3)数据挖掘类:机器学习、数据仓库等复合技术为主

2.详解

(1)对比分析
对比分析法是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。

(2)同比分析
同比分析就是按照时间 如年度、季度、月份、日期等进行扩展,用本期实际发生数与同期历史发生数相比,产生动态相对指标,用以揭示发展水平以及增长速度。
同比分析主要是为了消除季节变动的影响,用以说明本期水平与去年同期水平对比而达到的相对值。

公式:同比增长速度=(本期-同期)/同期×100%
(3)环比分析
环比分析是报告期水平与前一时期水平之比,表明现象逐期的变化趋势。如果计算一年内各月与前一个月对比,即1月比去年12月,2月比1月,3月比2月,4月比3月,5月比4月,6月比5月,说明逐月的变化程度,如图1所示,环比增长趋势如图2所示。

公式:环比增长速度=(本期-上期)/上期×100%
(4)80/20分析
80/20分析,又称二八法则、帕累托法则、帕累托定律、最省力法则或不平衡原则。该法则是由意大利经济学家帕累托提出的。二八法则认为:原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。

(5)回归分析
回归分析多用于统计分析和预测。它是研究变量之间相关关系以及相互影响程度,通过建立自变量和因变量的方程,研究某个因素受其他因素影响的程度 或用来预测。回归分析包括:线性和非线性回归、一元和多元回归。常用的回归是一元线性回归和多元线性回归。

(6)聚类分析
聚类分析多用于人群分类,客户分类。所谓聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。

(7)时间序列分析
时间序列分析多用于统计和预测。它是按照时间的顺序把随机事件变化发展的过程记录下来,就构成了一个时间序列。时间序列分析就是对时间序列进行观察、研究、找出它的变化和发展规律,预测将来的走势。

五.数据分析工具

据某招聘网的数据显示,关键词“数据分析”前20页职位描述中,数据分析师要求前3的主要技能是:SQL、Python、Excel

  Excel是常用的数据分析工具,可以实现基本的数据分析工作,但在数据量较大,公式嵌套很多的情况下,Excel处理起来会很麻烦而且处理速度也会变慢。此时,Python可作为首选,因为Python提供了大量的第三方扩展库,如Numpy、Scipy、Matplotlib、Pandas、Scikit-Learn、Keras和Gensim等,这些库不仅可以对数据进行处理、挖掘、可视化展示,其自带的分析方法模型也使得数据分析变得简单高效,只需编写少量的代码就可以得到分析结果。
  另外,Python简单易学,在科学领域占据着越来越重要的地位,将成为科学领域的主流编程语言。

六.数据分析的基本流程


1.明确目的
  “如果给我1个小时解答一道决定我生死的问题,我会花55分钟来弄清楚这道题到底是在问什么。一旦清楚了它到底在问什么,剩下的5分钟足够回答这个问题”——爱因斯坦

2.获取数据
  能够找到合适的数据训练是一件非常重要的事情。获取数据的方式有很多种,如公开的数据集、爬虫、数据采集工具、付费API等等
3.数据处理
  数据处理是从大量的、杂乱无章、难以理解的、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据。

4.数据分析
  数据分析过程中,选择适合的分析方法和工具很重要,所选择的分析方法应兼具准确性、可操作性、可理解性和可应用性。而对于业务人员(如产品经理或运营)来说,数据分析最重要的是数据分析思维。
5.验证结果
  通过工具和方法分析出来的结果只是数据的某个结果的体现,有些时候不一定准确,所以必须要进行验证。
  例如,一家淘宝电商销售业绩下滑,分析结果是(1)价格平平,客户不喜欢;(2)产品质量不佳,和同期竞争对手比没有优势。但这只是现象,不是因素。具体为什么客户不喜欢,是宣传不到位不吸引眼球?还是产品质量不佳?这才是真正的分析结果。
  所以,只有将数据分析与业务思维相结合,才能找到真正的落地的东西。
6.数据展示
  数据展现即数据可视化的部分,把数据分析结果展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定,其中以图表方式展现更清晰、更直观。

7.数据应用
  数据应用是指将数据分析结果应用到实际业务当中,是数据产生实际价值的直接体现,这个过程需要具有数据沟通能力、业务推动能力和项目工作能力。

七.Python数据分析常用模块

1.数值计算模块NumPy

NumPy模块是一个用于实现科学计算的库,尤其是在实现数据分析时,该模块是一个必不可少的基础库。NumPy模块不仅支持大量的维度数组与矩阵运算,还针对数组运算提供大量的数学函数库。NumPy是一个运行速度非常快的数学库,实现的科学计算包括:
(1)一个强大的N维数组对象ndarray
(2)比较成熟的函数库
(3)整合 C/C++/Fortran 代码的工具
(4)实用的线性代数、傅里叶变换和随机数生成函数等功能

2.数据处理模块Pandas

Pandas是一个开源库,主要为Python提供高性能、易于使用的数据结构和数据分析工具。Pandas的数据结构中有两大核心,分别是Series与DataFrame。其中Series是一维数组和Numpy中的一维数组类似。这两种一维数组与Python中基本数据结构List相近,Series可以保存多种数据类型的数据,如布尔值、字符串、数字类型等。DataFrame是一种以表格形式的数据结构类似于Excel表格一样,是一种二维的表格型数据结构。

3.数据可视化模块matplotlib

Matplotlib是一个Python绘图库,它不仅可以绘制2D图表,还可以绘制3D图表。中间的“plot”表示绘图,而结尾的“lib”表示它是一个集合。
Matplotlib在实现绘制图表时非常的简单,只需几行代码即可实现绘制条形图、折线图、散点图和饼图等。matplotlib.pyplot子模块提供了类似于MATLAB的界面,尤其是与IPython结合使用时,其中的每个函数都可以对图形进行更改,例如,创建图形、在图形中创建绘图区域、绘制线条样式、字体属性、轴属性等。

4.机器学习模块scikit-learn

scikit-learn模块是一个简单有效的数据挖掘和数据分析工具,可以让用户在各种环境下重复使用,scikit-learn模块是基于numpy、scipy基础上的模块。
该模块将很多机器学习算法进行了封装,即可对算法不是很熟悉的用户也可以通过调用函数的方式轻松建模。sklearn模块可以实现数据的预处理、分类、回归、PCA降维、模型选择等工作。它是实现数据分析时必不可少的一个模块库。

5.深度学习模块tensorflow

Tensorflow是广泛使用的实现机器学习以及其它涉及大量数学运算的算法库之一。Tensorflow由Google开发,是GitHub上最受欢迎的机器学习库之一。Google几乎在所有应用程序中都使用Tensorflow来实现机器学习。 例如,如果您使用到了Google照片或Google语音搜索,那么您就间接使用了Tensorflow模型。它们在大型Google硬件集群上工作,在感知任务方面功能强大。

数据分析的基础:前言、概念、应用、分析方法、分析工具、基本流程、Python数据分析常用模块相关推荐

  1. python数据分析从入门到精通电子工业出版社_荐书丨Python数据分析从入门到精通...

    点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事 采用Python 3.6版本,兼容Python 3.X等众多版本 一本书搞定IPy ...

  2. 数据采集与清洗基础习题(二)Python爬虫常用模块,头歌参考答案

    数据采集习题参考答案,会持续更新,点个关注防丢失.为了方便查找,已按照头歌重新排版,朋友们按照头歌所属门类查找实训哦,该篇为Python爬虫常用模块. 创作不易,一键三连给博主一个支持呗. 文章目录 ...

  3. python数据分析方法五种_加速Python数据分析的10个简单技巧(上)

    总有一些小贴士和技巧在编程领域是非常有用的.有时,一个小技巧可以节省时间甚至可以挽救生命.一个小的快捷方式或附加组件有时会被证明是天赐之物,并能真正提高生产力.因此,我总结了一些我最喜欢的一些贴士和技 ...

  4. 如何分析案件的性质_如何运用请求权分析方法分析民事案例?

    导读:请求权分析法是分析民事案件的一种基本分析方法,也是当今流行最广的案例分析方法,是法律职业者解决法律问题的一种重要方法.请求权分析法是指通过寻求请求权基础,将小前提归入大前提,从而确定请求权是否能 ...

  5. 文献计量分析方法与工具

    当要研究某个领域时,需先对现有的相关研究进行调研.一般采用文献计量分析方法并进行可视化. 文献计量分析的主要思路有: 1.发表数量:文献年度发表数量.累计数量: 2.作者:作者发文数量.作者分布.作者 ...

  6. Android APP性能分析方法及工具

    近期读到<Speed up your app>一文.这是一篇关于Android APP性能分析.优化的文章.在这篇文章中,作者介绍他的APP分析优化规则.使用的工具和方法.我觉得值得大家借 ...

  7. python数据分析的主要流程-python 数据分析概述

    一.数据分析概念: 广义的数据分析包括狭义数据分析和数据挖掘. ①狭义的数据分析是指根据分析目的,采用对比分析.分组分析.交叉分析和回归分析等分析方法,对收集的数据进行处理与分析,提取有价值的信息,发 ...

  8. python数据分析的主要流程-Python数据分析全流程实操指南

    内容全面:借助5大Python工具库,实现数据分析从获取到建模全流程覆盖: 贴合实际:不空讲Python语法,清晰简明地介绍如何用Python来处理.分析数据: 热点案例:覆盖6大热点应用领域,可直接 ...

  9. python全套数据分析课程_B 站疯传,堪称最强,一整套Python数据分析课程,学完月薪30K+!...

    2020魔幻之年,疫情下就业大受影响,很多岗位缩招,而数据分析相关工作岗位恋习Python(如数据分析师.数据挖掘师等岗位)却在增加.非专业数据分析岗位(如运营.市场.销售等岗位)也要求"数 ...

  10. Python之常用模块及安装方法

    adodb:我们领导推荐的数据库连接组件 bsddb3:BerkeleyDB的连接组件 Cheetah-1.0:我比较喜欢这个版本的cheetah cherrypy:一个WEB framework c ...

最新文章

  1. mysql中change用法,mysql 中alter的用法以及一些步骤
  2. HALCON查找圆心C++实现
  3. PHP复杂度,php 算法复杂度 时间复杂度 空间复杂度
  4. HDFS多用户管理ACL机制other权限访问控制的理解
  5. 学习python第十天
  6. 面试必备Linux基础知识
  7. C++解析-外传篇(1):异常处理深度解析
  8. tensorflow tfrecoder read write
  9. 这个网站收集了很多杂志的审稿周期和收稿、拒稿意见,值得看看
  10. ann2snn的代码分析
  11. 华为路由器ospf路由表解读_网络-路由交换-路由基础-华为-OSPF的工作原理
  12. 51 -leetcode 38 -字符串
  13. 在乌镇拼命“洗白”的拼多多
  14. A1 A2 B1 B2 英语分级单词 汇总
  15. 一只小野鸭的超能量(超有启发性)
  16. 手机扫描计数器有哪些?实用扫描计数软件分享给你
  17. 微信小程序扫描二维码或者条码
  18. 欧拉角和四元数之间转换公式推导
  19. Flux脚本语言基础使用-函数定义(InFluxDB 查询语言)
  20. unity 解决乱码_unity3d 中文乱码解决方法——cs代码文件格式批量转化UTF8

热门文章

  1. Django3.0+Python3.8+MySQL8.0 个人博客搭建六|数据库结构设计
  2. php查看CPU信息,Linux_Linux中如何查看CPU的信息,top命令是Linux下常用的性能分 - phpStudy...
  3. 三星nandflash K9K8G08U0D升级K9K8G08U0E问题总结
  4. win10局域网计算机无法访问,Win10局域网访问不了什么原因_Win10局域网访问不了的解决方法...
  5. Qt :圆圈加载进度条(转圈圈)
  6. 期货交易心得 Round 5
  7. 消费金融的核心是什么?
  8. Tina理财笔记(三)——房住不炒时代背景下的真实房产收益
  9. 数据库优化的措施有哪些
  10. 零基础DIY四轴飞行器超级详细保姆级教程(STM32F407ZGT6主控、WIFI图传、陀螺仪平衡、气压计/超声波定高、手机蓝牙控制等功能)