一般可以安装“数据获取-->数据存储与提取-->数据预处理-->数据建模与分析-->数据可视化”这样的步骤来实施一个数据分析项目。该流程需要掌握的知识点如下:

1)数据获取:

1.1.了解公开数据集的渠道

1.2.用爬虫爬取网站数据

2)数据存储、提前:

2.1.SQL实现数据存储、查询、提前

2.2.数据库的分组、聚合

2.3.SQL建立多表联系

3)数据预处理:

3.1.用python进行数据预处理

4)数据建模与分析:

4.1.统计学基础知识

4.2.统计量的描述与展示

4.3.假设检验

4.4.常用的回归分析

4.5.基本的分类、聚类算法

4.6.提升分析进度--特征工程

5)数据可视化:

5.1.用python进行可视化分析

5.2.分析结果展示、数据报告撰写

一、数据获取:公开数据、python爬虫

1.获取外部的公开数据:
UCI:加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用。
http://archive.ics.uci.edu/ml/datasets.html

国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。
http://data.stats.gov.cn/

CEIC:超过128个国家的经济数据,能精确查找GDP、进出口零售,销售等深度数据。
http://www.ceicdata.com/zh-hans

中国统计信息网:国家统计局官方网站,汇集了国民经济和社会发展统计信息。
http://www.tjcn.org/

优易数据:由国家信息中心发起,国内领先的数据交易平台,很多免费数据。
http://www.youedata.com/

2.python爬虫:

1)了解python的基础知识:元素(列表、字典、元组等)、变量、循环、函数...

2)python库(BeautifulSoup、requests、scrapy)

3)高级技巧:正则表达式、使用cookie信息、模拟用户登陆、抓包分析、搭建代理池

二、数据储存:SQL

1.提取特定情况下的数据

2.数据库的删、增、查、改

3.数据的分组聚合、如何建立多个表之间的联系

三、数据预处理:python(pandas)

1.选择:数据访问(标签、特定值、布尔索引等)

2.缺失值处理:对缺失数据行进行删除或填充

3.重复值处理:重复值的判断与删除

4.异常值处理:消除不必要的空格和极端、异常数据

5.相关操作:描述性统计、Apply、直方图等

6.合并:符合各种逻辑关系的合并操作

7.分组:数据划分、分别执行函数、数据重组

8.Reshaping:快速生成数据透视表

四、概率论及统计学知识:

1.基本统计量:均值、中位数、众数、百分位数、极值等;

2.其他描述性统计:偏度、方差、标准差、显著性等;

3.其他统计知识:总体和样本、参数和统计量、ErrarBar;

4.概率分布与假设检验:各种分布、假设检验流程;

5.其他概率论知识:条件概率、贝叶斯等;

五、python数据分析:

1.回归分析:线性回归、逻辑回归

2.基本的分类算法:决策树、随机森林

3.基本的聚类算法:k-means

4.特征工程基础:如何用特征选择优化模型

5.调参方法:如何调节参数优化模型

6.python数据分析包:scipy、numpy、sctiti-learn等

在数据分析这个阶段,重点了解回归分析的方法,利用描述性的统计分析和回归分析。更高级的算法:分类、聚类。一个好的分析师,应该也是一个初级的数据挖掘工程师。

六、系统实战与数据思维

python数据分析流程相关推荐

  1. python数据分析的主要流程-Python数据分析流程

    一.数据分析的步骤: 1.查看数据并提出问题 2.数据清洗 3.代码编写,提取出结果数据,并分析是否有异常数据,修改代码 4.根据数据选择合适的图表进行展示 5.根据图表小组讨论交流获得最终的结果 二 ...

  2. 请简述python数据分析流程_简单案例讲解Python数据分析的基本步骤

    上篇文章我们初步认识了numpy包和pandas包的基本用法,这篇文章就来讲一下如何利用Python做数据分析. 一.数据分析的基本步骤 1. 明确问题,理解数据 (1)先把问题了解清楚,明确分析背景 ...

  3. 基于python的数据分析系统,python数据分析经典案例

    大家好,本文将围绕利用python进行数据分析案例展开说明,基于python的数据分析系统是一个很多人都想弄明白的事情,想搞清楚基于python的数据分析题目需要先了解以下几个事情. 1.如何利用py ...

  4. 三大招式熟练Python数据分析

    Illustrations by  Vitaly Cherkasov 文/罗攀 前言 天下武功中,哪个是最简单,最实用的了?那当然是程咬金的三板斧.传说中,程咬金晚上睡觉,梦见一老神仙,教了他三十六式 ...

  5. Python数据分析,“入门之路”三步曲

    前言 Python是一种面向对象.直译式计算机程序设计语言,由于他简单.易学.免费开源.可移植性.可扩展性等特点,Python又被称之为胶水语言.下图为主要程序语言近年来的流行趋势,Python受欢迎 ...

  6. python数据分析的主要流程-KNIME + Python = 数据分析+报表全流程

    Python 数据分析环境 数据分析领域有很多可选方案,例如SPSS傻瓜式分析工具,SAS专业性商业分析工具,R和python这类需要代码编程类的工具.个人选择是python这类,包括pandas,n ...

  7. python数据分析的主要流程-python 数据分析概述

    一.数据分析概念: 广义的数据分析包括狭义数据分析和数据挖掘. ①狭义的数据分析是指根据分析目的,采用对比分析.分组分析.交叉分析和回归分析等分析方法,对收集的数据进行处理与分析,提取有价值的信息,发 ...

  8. python数据分析的主要流程-Python数据分析全流程实操指南

    内容全面:借助5大Python工具库,实现数据分析从获取到建模全流程覆盖: 贴合实际:不空讲Python语法,清晰简明地介绍如何用Python来处理.分析数据: 热点案例:覆盖6大热点应用领域,可直接 ...

  9. python部分引入total值的问题_Python数据分析基础与过程综述,关键数据预处理异常点的发现与处理,python,及,流程,回顾,重点,之,值...

    一. python数据分析基础库的导入 基本是固定搭配 import numpy as np #科学计算基础库,多维数组对象ndarray import pandas as pd #数据处理库,Dat ...

最新文章

  1. 学python需要安装什么软件-学武汉Python培训课程需要安装什么软件?分享这10款...
  2. Lead time 在ERP 中怎么填
  3. eslint 无法格式化ts_VS Code Prettier + ESlint 格式化Vue代码及遇到问题
  4. mysql my.cnf key_buffer_size_mysql5.6之key_buffer_size优化设置-阿里云开发者社区
  5. 【PAT甲级 sc.nextInt()的使用】1008 Elevator (20 分) Java版 9/9通过
  6. linux之用wget下sublime简单使用总结
  7. java删除javaee_JavaEE--集合--删除List中指定元素
  8. js的简单介绍及基本用法
  9. 分布式系统关联查询_一文详解分布式系统 | 留言送书
  10. 2020统计局的行政划分表_湖州市有几个区和县?湖州市2020年县级以上区划名单...
  11. html tab键自动填充,HTML tabindex — TAB按键操作
  12. VirtualBox硬盘扩容
  13. .Net Frame安装心得
  14. C语言队列解决舞伴匹配问题
  15. iMeta | 南农沈其荣团队发布微生物网络分析和可视化R包ggClusterNet
  16. 蓝桥杯赛后总结与反思
  17. 【LeetCode】马三来刷题之 Reverse Vowels of a Stringm
  18. 计算在1901年1月1日至2000年12月31日间共有多少个星期天落在每月的第一天上
  19. python里面的平方怎么打出来_python平方符号
  20. 最全选型考量 + 剖析经典AOP开源库实践

热门文章

  1. python数据可视化神器,我就服它
  2. matlab 读取ENVI中*.img格式图片代码
  3. FX5U Socket通信
  4. 算法实践——数独的基本解法
  5. iOS 设备的屏幕尺寸、分辨率及其屏幕边长比例详细情况
  6. 2020年如何写一个现代的JavaScript库
  7. 前端点击图片将跳出显示框显示图片
  8. 卡内基·梅隆大学计算机科学系主任周以真的父母是中国人吗,清华大学计算机科学与技术系...
  9. 利用OpenCV实现欧拉数的计算
  10. c#程序设计实训报告心得体会_c#学习心得体会范文