数据分析目标与侧重

之前在数据分析的发展与技能中浅谈了一些个人对数据分析师行业与数据分析师技能的理解。
就字面意思来解析的话,数据分析就是根据企业的生产、销售数据进行整理提炼,以数据分析策略为基础,数据分析报表为展示,分析结论为结果。为企业的运营、销售提供真实的数据策略支持,从而优化企业的生产工过程,从而为企业实现盈利。

数据分析这个词比较笼统和抽象,实际工作中数据分析师的主要的工作主要是:根据公司业务指定分析策略;收集整理所分析业务模块的数据;制作分析报表、绘制分析图表;生成结论。而这四个过程的权重呈梯度下降。其中最重要的是根据公司业务指定分析策略。其次是收集整理数据。而收集整理数据的工具,是本章要浅析对比的。

数据分析主要工具

一、数据存储工具

根据公司生产、销售的数据量多少决定相应的存储工具。数据量小于pb级别,mysql分库分表,基本可以解决。大于pb级别则使用分布式数据库或(如互联网公司的埋点数据一般都使用分布式存储),分布式数据库hive,hbase等 或者基于分布式数据库搭建的数据分析平台如神策数据,clickhouse等

二、数据提取

根据所分析数据来源不同,分为公司运营数据和网页数据。公司运用数据从公司的数据库(mysql,hive)使用sql提取。如果需要获取网页数据使用Python(request,selenium,beautifulsoup)提取网页数据

三、数据筛选与数据清洗

sql可以实现基本的数据筛选和简单的数据清洗如字符串替换,字符串截取,简单的数据分类。但如果有复杂的报表操作,需要使用python辅助。
sql与Python的对比
有点
SQL 语句主要具备查询与筛选的优势,主要对列和所有行进行操作。如

示例1
select * from student where name='张三'
示例2
select if(score>60,"及格","不及格") as panduan from student where name='张三'

示例1 sql主要是对列进行筛选操作,示例2 sql主要对姓名等于张三的所有行进行分数判断操作
缺点
灵活性不高,对复杂操作,sql语句复杂且,随着数据量的增长,执行时间增加。
部分数据操作无法实现,如数据透视表的生成。sql难以实现(不排除部分数据库新版本支持数据透视函数,或未来支持数据透视函数)
Python做为数据处理的一个延伸可以是复杂的数据需求脚本化。python 数据分析库numpy,pandas,sklearn等
下章开始,将主要介绍python pandas 库的使用及数据分析场景应用

四、数据报表展示

数据报表最后的展示可以是报表或者图表。简单展示可以使用excel ,如果需要展示给客户,也可以使用线上展示平台如finebi,也可使用python的matplotlib、pyechars、seaborn 等。

总结

数据分析的工具很多,不需要全部掌握精通。每个工具各有优势,没有万能的工具,根据公司实际的业务选择合适的工具才能发挥最大作用。

数据分析工具比较浅析相关推荐

  1. Python中常用的数据分析工具(模块)有哪些?

    本期Python培训分享:Python中常用的数据分析工具(模块)有哪些?Python本身的数据分析功能并不强,需要安装一些第三方的扩展库来增强它的能力.我们课程用到的库包括NumPy.Pandas. ...

  2. 数据分析工具Pandas(7):数据清洗、合并、转化和重构

    数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 数据分析工具Pandas(3):Pandas的对齐运算 数据分析工具Pandas(4): ...

  3. 数据分析工具Pandas(6):Pandas统计计算和描述

    数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 数据分析工具Pandas(3):Pandas的对齐运算 数据分析工具Pandas(4): ...

  4. 数据分析工具Pandas(4):Pandas的函数应用

    数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 数据分析工具Pandas(3):Pandas的对齐运算 数据分析工具Pandas(4): ...

  5. 数据分析工具Pandas(3):Pandas的对齐运算

    数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 数据分析工具Pandas(3):Pandas的对齐运算 Pandas的对齐运算 是数据清 ...

  6. 数据分析工具Pandas(2):Pandas的索引操作

    数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 Pandas的索引操作 索引对象Index 1. Series和DataFrame中的索 ...

  7. git 可视化工具_最值得推荐的8个git/github项目数据分析工具

    何重要的决定都应基于数据,对于信息项目和软件开发亦是如此.如果你不仔细查看描述项目演进的数据就无法了解项目的健康状况,并给出合理的改进措施.为了分析和挖掘这些信息,我们可以从Git存储库和项目所在的代 ...

  8. [原创]微软网络协议数据分析工具 Microsoft Network Monitor 介绍

    [原创]微软网络协议数据分析工具 Microsoft Network Monitor 介绍 一 官方网站: Microsoft Network Monitor 官方网站地址:http://www.mi ...

  9. HttpWatch是强大的网页数据分析工具

    HttpWatch是强大的网页数据分析工具.集成在Internet Explorer工具栏.包括网页摘要.Cookies管理.缓存管理.消息头发送/接受.字符查询.POST 数据和目录管理功能.报告输 ...

最新文章

  1. Taylor Swift - Red
  2. java邮件发送api文件,JavaMail API 发送一个HTML电子邮件
  3. winrar x64 3.93如何破解
  4. Python 3.6+Django开发入门小案例(自动变化的问候)完整步骤
  5. 如何更新Word文档的附图或附表序号
  6. Bailian4129 变换的迷宫【BFS】
  7. Uncaught RangeError: Maximum call stack size exceeded 超出最大调用值(个人解释)
  8. 基于python flask的网上商城源码 mysql数据库
  9. 感性电路电流计算_电流、电压、电阻的关系和单位换算表
  10. OracleJDK 17真的香?
  11. SSD1315驱动的OLED
  12. 安装Tomcat 9
  13. 加载PNG图片的处理方式
  14. java将前端传给后端的文字写入到word中
  15. Oacle锁表,ORA-00054
  16. 软件测试真的也干不到35岁吗?我还处在水深火热的测试岗...
  17. nvchad添加插件
  18. 应届生简历怎么写?应届生制作简历注意事项有哪些?
  19. 你真的会写Java吗?
  20. 24考研规划复习指导

热门文章

  1. 新媒体管理师招生简章
  2. 基于微信小程序停车场自助停取车设计与实现(论文+程序设计源码+数据库文件)
  3. 商城系统是如何定制开发的
  4. Matlab在线性代数中的应用(一):向量组的线性相关性
  5. pdf操作之根据关键词签章
  6. iOS审核被拒Guideline 2.3.1 - Performance解决
  7. mhdd中文说明完整版
  8. H3C交换机、路由器常用配置命令大全
  9. sybase基本命令
  10. 妙法突破资料分析系列之速算技巧[综合速算法]