目录

  • 1. 二十四个数据科学案例
  • 2. 全面的面试题目总结:数据科学与统计问题
    • 机器学习问题
    • 深度学习问题
    • 案例学习
    • 智力题与猜估
    • 特定的工具与语言问题
    • 新手提示与诀窍
    • 励志的故事
  • 面试

如何找一份数据分析的工作?如何规划数据科学家之路?
再次偶然看到猴子的一系列文章,有所思。

认识数据(就像认识基本数字0-9一样)
|
分析数据(使用Excel、Python、SQL等工具)
|
理解数据(通过算法模型等得出结论)

之前一直关注编程工具,但是一直忽略两个重点:一是要认识甚至是记住一些具体案例中的数据,就像记得0-9这几个数字一样熟悉;而是业务理解,这一点很能够看出个人的综合能力。总而言之,练习熟练具体的案例十分重要!

下面,将以这个链接Analytics Vidhya为主,开始学习。

优秀连接
1、24个数据科学案例

2、全面的面试题目总结:数据科学与统计问题

1. 二十四个数据科学案例

目录:

    1. Beginner Level

    Iris Data
    Loan Prediction Data
    Bigmart Sales Data
    Boston Housing Data
    Time Series Analysis Data
    Wine Quality Data
    Turkiye Student Evaluation Data
    Heights and Weights Data

    1. Intermediate Level

    Black Friday Data
    Human Activity Recognition Data
    Siam Competition Data
    Trip History Data
    Million Song Data
    Census Income Data
    Movie Lens Data
    Twitter Classification Data

    1. Advanced Level

    Identify your Digits
    Urban Sound Classification
    Vox Celebrity Data
    ImageNet Data
    Chicago Crime Data
    Age Detection of Indian Actors Data
    Recommendation Engine Data
    VisualQA Data

2. 全面的面试题目总结:数据科学与统计问题

目录:

 数据科学与统计问题机器学习问题深度学习问题案例学习智力题与猜估特定的工具与语言问题新手提示与诀窍励志的故事

机器学习问题

  • 40 个创业公司在机器学习与数据科学方面常见的问题

Q1. You are given a train data set having 1000 columns and 1 million rows. The data set is based on a classification problem. Your manager has asked you to reduce the dimension of this data so that model computation time can be reduced. Your machine has memory constraints. What would you do? (You are free to make practical assumptions.)

答:
1.关闭其他应用程序,腾出内存;
2.随机采样;
3.去除相关变量:数值型变量使用相关系数,分类变量使用卡方检验;
4.使用PCA降维;
5.也可以使用在线的算法,比如Vowpal Wabbit;
6.构建使用随机梯度下降的线性模型;

Q2. Is rotation necessary in PCA? If yes, Why? What will happen if you don’t rotate the components?

(暂略)

Q3. You are given a data set. The data set has missing values which spread along 1 standard deviation from the median. What percentage of data would remain unaffected? Why?

答:32% (统计学的68–95–99.7原则

Q4. You are given a data set on cancer detection. You’ve build a classification model and achieved an accuracy of 96%. Why shouldn’t you be happy with your model performance? What can you do about it?

答:

首先,癌症预测结果是一个不平衡的数据集,所以不应该使用准确率作为评价指标,而是应该是用灵敏度/Sensitivity (True Positive Rate)、特异度/Specificity (True Negative Rate)、F score等评价指标。详见。

如果数量少的标签类别的表现很差,那可以采取以下措施:

  1. 可以采取降采样、过采样或者SMOTE的方法让数据变得均衡
  2. 可以使用ROC曲线来找到一个合适的阈值
  3. 给数据量较少的类别样本更高的权重
  4. 使用功异常检测

Q5. Why is naive Bayes so ‘naive’ ?

答:
(以后待续…)

深度学习问题

案例学习

(1) 通过动态规划方式以 10 倍的速度解答面试中的案例
(2)数据分析能力面试的案例 —— 出租车调配问题
(3) 分析学面试中的一个案例
(4) 适合新手的案例:呼叫中心优化(难度中)
(5) 为某个线上商家优化产品价格(难度高)

智力题与猜估

特定的工具与语言问题

新手提示与诀窍

励志的故事

面试

数据科学面试仅剩1天?你需要做这6件事

数据分析(1)案例和面试题相关推荐

  1. sql 以a开头的所有记录_#9#猴子聊数据分析之常见的SQL笔试题和面试题(下)

    题目来源 猴子:常见的SQL笔试题和面试题(下)​zhuanlan.zhihu.com 1.SQL语言允许使用通配符进行字符串匹配的操作,其中'%'可以表示:多个字符 2.通过 SQL,如何从 &qu ...

  2. javaee 中文帮助文档_大牛耗时三天整理的:微服务+Nginx+Kubernetes实战文档和面试题...

    前言 十年之前,相信大家掌握了Java EE互联网轻量级框架整合开发 SSM框架SpringMVC+Spring+MyBatis就已经能够轻轻松松找到一份薪资很高的java开发工作了,而如今只会SSM ...

  3. 游戏运营岗位介绍和面试题答案

    目录: 一,游戏运营岗位介绍 1.什么是游戏运营 2.运营部门职责 3.运营工作分类和技能要求 4.游戏运营的工作内容 5.游戏运营的入职门槛和职业发展 6.不同性质游戏公司运营岗位比较 7.游戏代理 ...

  4. 白话Elasticsearch37-深入聚合数据分析之案例实战Date Histogram Aggregation:统计每月电视销量

    文章目录 概述 官方说明 实例: 统计每月电视销量,没有销量的月份也要统计 概述 继续跟中华石杉老师学习ES,第37篇 课程地址: https://www.roncoo.com/view/55 官方说 ...

  5. 白话Elasticsearch34-深入聚合数据分析之案例实战bucket嵌套实现颜色+品牌的多层下钻分析

    文章目录 概述 案例 需求 解决 Step1.对每种颜色进行bucket分组 Step2.对每种颜色进行bucket分组 , 然后对每个分组再次计算平均价格 Step3.对每种颜色进行bucket分组 ...

  6. 白话Elasticsearch33-深入聚合数据分析之案例实战bucket + metrics 统计每种颜色电视平均价格

    文章目录 概述 官方说明Avg Aggregation 案例:统计每种颜色电视平均价格 概述 继续跟中华石杉老师学习ES,第33篇 课程地址: https://www.roncoo.com/view/ ...

  7. 高级/专家工程师职位和面试题

    今天分享一些高级别的开发职位和面试题(平均年薪100w+),大家检查一下,自己是否满足要求,面试问题是否可以回答? 高级工程师职位 高级/专家C++开发面试问题是什么? 如果你可以问一个C++ 程序员 ...

  8. 面试官系统精讲Java源码及大厂真题 - 02 String、Long 源码解析和面试题

    02 String.Long 源码解析和面试题 劳动是一切知识的源泉. --陶铸 引导语 String 和 Long 大家都很熟悉,本小节主要结合实际的工作场景,来一起看下 String 和 Long ...

  9. 常见的SQL笔试题和面试题:SQL经典50题

    常见的SQL笔试题和面试题(上):经典50题 已知有如下4张表: 学生表:STUDENT(S#,SNAME,SAGE,SSEX) 课程表:COURSE(C#,CNAME,T#) 成绩表:SC(S#,C ...

  10. 优秀简历模板和面试题分享

    优秀简历模板和面试题分享 简历模板下载地址:提取码5555 面试八股文 下载地址:提取码5555

最新文章

  1. Mask R-CNN用于目标检测和分割代码实现
  2. 人工玻璃体与交联反应调研
  3. No services have been found解决方案
  4. RUNOOB python练习题31 根据已输入的字符判断星期几
  5. python多线程 多进程
  6. angularjs config_AngularJS依赖注入
  7. VC++中多线程学习(MFC多线程)二(线程的相关操作、线程间的通信)
  8. 窥探源码,让我更加优雅的使用Kafka生产者!
  9. 区块链软件公司:你的区块链交易真的是匿名吗?
  10. php 过滤所有空格_php从文本中去除空格、特殊字符的4种情况
  11. 联想 m73 黑苹果 软路由 esxi AIO
  12. python身份证号真假验证_【趣味案例】用python制作全国身份证号验证及查询系统...
  13. 左程云 - 大厂刷题班 - 一种字符在左,另一种字符在右的最少交换次数
  14. linux金山打字通游戏版,金山打字游戏2010电脑版-金山打字游戏(最全大集合安装)下载V8.1.0.1官方版-西西软件下载...
  15. OpenCV Python 图像矩阵的均值和标准差
  16. 输入一个字符串,判断它的所有字符中否全部是大写字母,如不是,统计小写字母个数,并将其转换成大写字母后输出
  17. Android TextView设置跑马灯效果
  18. HDU4565 So Easy! (矩阵)
  19. How to install php evn on ubuntu
  20. php官方微信接口大全(微信支付、微信红包、微信摇一摇、微信小店)

热门文章

  1. java 自定义报表_报表模板实现网格式自定义报表
  2. vue3.0在mian.js中引入全局less
  3. 【GCN-CTR】端到端的GNN-CTR:Dual Graph enhanced Embedding Neural Network for CTR Prediction (KDD‘21)
  4. ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information
  5. 微型计算机主要性能指标是什么,微型计算机的主要性能指标
  6. NTFS - 系统解析
  7. C# winform 魔兽MH全图制作教程(2):创建项目与关键类
  8. 创建型模式大全(Java讲解)
  9. 计算机连接拒绝访问,打印机拒绝访问,教您打印机拒绝访问怎么解决
  10. 卡耐基梅陇大学计算机学院名人,卡内基梅隆大学_美国计算机专业排名前十