课程介绍
•Python语言基础及Python3.x新特性
•使用NumPy和SciPy进行科学计算
•数据分析建模理论基础
•实战案例:科技工作者心理健康数据分析

什么是数据分析?
Analysis of data is a process of inspecting, cleansing, transforming, and modelingdata with the goal of discovering useful information, suggesting conclusions, and supporting decision-making.

Jupyter notebook

  1. Anaconda自带,无需单独安装
  2. 记录思考过程,实时查看运行过程
  3. 基于web的在线编辑器(本地)
  4. .ipynb文件分享
  5. 可交互式
  6. 记录历史运行结果
  7. 支持Markdown, Latex

使用NumPy和SciPy进行科学计算:

NumPy
•高性能科学计算和数据分析的基础包
•ndarray,多维数组(矩阵),具有矢量运算能力,快速、节省空间
•矩阵运算,无需循环,可完成类似Matlab中的矢量运算
•线性代数、随机数生成
•import numpyas np

SciPy
•在NumPy库的基础上增加了众多的数学、科学及工程常用的库函数
•线性代数、常微分方程求解、信号处理、图像处理、稀疏矩阵等
•import scipyas sp

生成多维数组:

1> data=np.arange(12).reshape(3,4)2> data1=np.random.rand(3,3)3> data=np.random.randn(3,3)4> #list嵌套序列转换为ndarrayl2=[range(10),range(10)]data2=np.array(l2)5> data3=np.array([[1,2,3],[4,5,6]])

数据分析建模理论基础

建模基础

分类与回归
•应用:信用卡申请人风险评估、预测公司业务增长量、预测房价等

•原理:
分类,将数据映射到预先定义的群组或类。算法要求基于数据属性值(特征值)来定义类别,把具有某些特征的数据项映射到给定的某个类别上。
回归,用属性的历史数据预测未来趋势。算法首先假设一些已知类型的函数可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。

•区别:分类模型采用离散预测值,回归模型采用连续的预测值。

聚类
•应用:根据症状归纳特定疾病、发现信用卡高级用户、根据上网行为对客户分群从而进行精确营销等
•原理:在没有给定划分类的情况下,根据信息相似度进行信息聚类。
聚类的输入是一组未被标记的数据,根据样本特征的距离或相似度进行划分。划分原则是保持最大的组内相似性和最小的组间相似性。

时序模型
•应用:
下个季度的商品销量或库存量是多少?明天用电量是多少?
•原理:
描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。
与回归一样,用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。重点考察数据之间在时间维度上的关联性。

•实战案例:科技工作者心理健康数据分析
项目任务:
统计各国家男性、女性心理健康数据分布

# -*- coding: utf-8 -*-
"""项目名称:科技工作者心理健康数据分析 (Mental Health in Tech Survey)项目任务:统计各国家男性、女性心理健康数据分布
"""
import csv# 数据集路径
data_path = './survey.csv'def run_main():"""主函数"""male_set = {'male', 'm'}  # “男性”可能的取值female_set = {'female', 'f'}  # “女性”可能的取值# 构造统计结果的数据结构 result_dict# 其中每个元素是键值对,“键”是国家名称,“值”是列表结构,# 列表的第一个数为该国家女性统计数据,第二个数为该国家男性统计数据# 如 {'United States': [20, 50], 'Canada': [30, 40]}# 思考:这里的“值”为什么用列表(list)而不用元组(tuple)result_dict = {}with open(data_path, 'r', newline='') as csvfile:# 加载数据rows = csv.reader(csvfile)for i, row in enumerate(rows):         #enumerate可以拿到循环的次数,返回一个元组(i,data)if i == 0:# 跳过第一行表头数据continueif i % 50 == 0:print('正在处理第{}行数据...'.format(i))# 性别,国家数据gender_val = row[2]country_val = row[3]# 去掉可能存在的空格gender_val = gender_val.replace(' ', '')# 转换为小写gender_val = gender_val.lower()# 判断“国家”是否已经存在if country_val not in result_dict:# 如果不存在,初始化数据result_dict[country_val] = [0, 0]   #往字典里加入新的键值对# 判断性别if gender_val in female_set:# 女性result_dict[country_val][0] += 1    #字典操作elif gender_val in male_set:# 男性result_dict[country_val][1] += 1else:# 噪声数据,不做处理pass# 将结果写入文件with open('gender_country.csv', 'w', newline='', encoding='utf-8') as csvfile:csvwriter = csv.writer(csvfile, delimiter=',')     #自定义分隔符# 写入表头csvwriter.writerow(['国家', '男性', '女性'])# 写入统计结果for k, v in list(result_dict.items()):csvwriter.writerow([k, v[0], v[1]])if __name__ == '__main__':run_main()

01工作环境准备及数据分析建模理论基础相关推荐

  1. Python学习笔记——数据分析之工作环境准备及数据分析建模理论基础

    目录 <Linkedln:2016年中国互联网最热职位人才库报告> Python3.x 常用的新特性 字符串编码格式回顾: DIKW 体系 数据建模基础 <Linkedln:2016 ...

  2. 数据挖掘(Data Mining)| 数据分析建模理论基础

    大数据分析场景和模型应用 数据分析建模需要先明确业务需求,然后选择是 描述型分析 还是 预测型分析. 如果分析的目的是描述目标行为模式,就采用描述型数据分析,描述型分析就考虑 关联规则. 序列规则 . ...

  3. 大数据分析建模步骤有哪些

    企业开展大数据分析,首先应开展业务调研和数据调研工作,明确分析需求,其次应开展数据准备工作,即选择数据源.进行数据抽样选择.数据类型选择.缺失值处理.异常值检测和处理.数据标准化.数据簇分类.变量选择 ...

  4. 3D建模师的工作环境到底是怎么样的?10年建模师:没有艺术天分,建模是我最好的选择

    十年建模狮,去过几家一线大厂,如今算是安稳下来,年纪大了,就想记录一下以前的事情,大家有兴趣可以看看,3D建模师的工作环境到底是怎么样的. 你的工位就是你的全部 虽然我很努力的回忆,但这份工作和其他的 ...

  5. 数据分析 第一讲 Python语言及工作环境准备、本地数据的采集与操作

    文章目录 第一讲 Python语言及工作环境准备 一.数据分析 1 数据分析的基本概念 2 数据分析的流程 3 为什么要学习数据分析 4 环境部署 4.1 pip install jupyter 4. ...

  6. 环境土壤物理模型HYDRUS建模方法

    查看原文>>>系统学习环境土壤物理模型HYDRUS建模方法与多案例应用 目录 一.HYDRUS模型概述 二.土壤和地下水流问题基础知识 三. 溶质运移问题模拟 四.热量传输问题模拟 ...

  7. 《SolidWorks 2014中文版完全自学手册》——1.4 SolidWorks工作环境设置

    本节书摘来自异步社区<SolidWorks 2014中文版完全自学手册>一书中的第1章,第1.4节,作者:槐创锋 , 黄志刚著,更多章节内容可以访问云栖社区"异步社区" ...

  8. 一览生信分析的各种工作环境—Linux子系统、双系统、虚拟机和Docker

    " 本文围绕计算机操作系统,概述了当下各种生信分析的工作环境." 一文掌握Conda软件安装:虚拟环境.软件通道.加速solving.跨服务器迁移 01 - Linux子系统 Wi ...

  9. 《UG NX10中文版完全自学手册》——1.2 工作环境

    本节书摘来自异步社区<UG NX10中文版完全自学手册>一书中的第1章,第1.2节,作者: 槐创峰 , 贾雪艳 更多章节内容可以访问云栖社区"异步社区"公众号查看. 1 ...

最新文章

  1. ARM CPU神经网络自动调度
  2. windows cmd命令行中 查看 修改 删除与添加环境变量
  3. Codeforces 755B. PolandBall and Game 贪心
  4. 如何让自己时刻冷静的方法_如何锻炼自己的口才及沟通技巧?这5个方法让你受用一辈子...
  5. pythonfor循环案例教程_python开发之for循环操作实例详解,pythonfor实例详解
  6. .Net Core小技巧 - 使用Swagger上传文件
  7. python手机安装模块_python如何安装模块 模块安装操作教程
  8. layui表格checkbox选择全选样式及功能
  9. springboot 事务统一配置_Spring Boot实现分布式微服务开发实战系列(五)
  10. Kafka消费者组内各消费者分区分配
  11. 自己写cache server之网络框架处理——Oracle、Mysql都不靠谱儿(中)
  12. 查看linux系统版本命令
  13. CC1101接口库在STM32上的移植
  14. 国产高清卫星影像时代来了,打造中国版“谷歌地球”!
  15. 服务器系统数据完全备份,服务器数据几种备份方案
  16. ios修改apn的插件_iPhone手机APN修改方案
  17. 肖臻公开课(八)——比特币中的挖矿
  18. 大数据之hive:hive分桶表
  19. 程序验证(四):一阶理论
  20. 金融学专业考计算机二级,考计算机二级选哪个科目好 哪个科目简单

热门文章

  1. 19篇顶会论文探索多模态情感识别
  2. 2020年中国汽车试验场行业市场现状分析,新技术、新模式发展带动行业深刻变革「图」
  3. Python爬虫实现抓取腾讯视频所有电影-源码【实战必学】
  4. 他年薪100万以上,愿意手把手带你进入人工智能领域,今天就可以免费领取他的视频教程。
  5. Oracle 真的有参数可以 1s 统计完 200G用户下的所有对象么?
  6. 路由交换中流量来回路径不一致会造成什么危害?
  7. 应广单片机开发案例应广单片机11bitPWM配置
  8. 高一计算机计算器,上了高一 赶紧扔了计算器吧!
  9. 【项目】员工管理系统
  10. 贪吃蛇源码注释过程(未完成)