python数据分析面试_python数据分析面试
1. 如何利用SciKit包训练一个简单的线性回归模型
利用linear_model.LinearRegression()函数
# Create linear regression object
regr = linear_model.LinearRegression()
# Train the model using the training sets
regr.fit(data_X_train, data_y_train)
2. 例举几个常用的python分析数据包及其作用
数据处理和分析:NumPy, SciPy, Pandas
机器学习:SciKit
可视化: Matplotlib, Seaborn
3. 如何利用Numpy对数列的前n项进行排序
使用argsort()函数:x[x [: n-1].argsort ()]
4. 如何检验一个数据集或者时间序列是随机分布的
画lag plot(Correlogram:相关图),如果图上的点呈散乱分布,则为随机
5. 在python中如何创建包含不同类型数据的dataframe
利用pandas包的DataFrame函数的serias创建列然后用dtype定义类型:
df = pd.DataFrame({'x': pd.Series(['1.0', '2.0', '3.0'], dtype=float), 'y': pd.Series(['1', '2', '3'], dtype=int)})
6. Pandas中使用的标准数据缺失标志是什么
NaN
7. 描述numpy array比python list的优势
a. numpy array比python list更紧凑,存储数据占的空间小,读写速度快。(这是由于python list储存的是指向对象(至少需要16个字节)的指针(至少4个字节);而array中储存的是单一变量(比如单精度浮点数为4个字节,双精度为8))
b. array可以直接使用vector和matrix类型的处理函数,非常方便。
8. 如何检验numpy的array为空
使用size函数, 比如
a = np.array([])
print a.size # 0
9. 如何检验pandas dataframe为空?
使用empty函数
10.如何对list中的item进行随机重排
使用shuffle()函数
10.装饰器的作用
装饰器可用于修饰函数或类。通过装饰器可以包裹函数或类使之执行之前或之后调用装饰器函数,从而达到抽离出大量函数中与函数功能本身无关的雷同代码并继续重用的目的。比较经典的厨力场景有检验权限,追踪参数,日志登陆等
11.以下代码的输出?
def multipliers():
return [lambda x: i * x for i in range(4)]
print [m(2) for m in multipliers()]
输出为[6,6,6,6]。 这个的原因是 Python 的闭包的后期绑定导致的 late binding,这意味着在闭包中的变量是在内部函数被调用的时候被查找。所以结果是,当任何 multipliers() 返回的函数被调用,在那时,i 的值是在它被调用时的周围作用域中查找,到那时,无论哪个返回的函数被调用,for 循环都已经完成了,i 最后的值是 3,因此,每个返回的函数 multiplies 的值都是 3。因此一个等于 2 的值被传递进以上代码,它们将返回一个值 6 (比如: 3 x 2)。
11.如何处理缺失数据?(如果缺失的数据不可得,将采用何种手段收集?)
首先判断缺失数据是否有意义,如果没有意义或者缺失数据的比例超过80%直接去掉。
如果缺失数据有规律,则需根据其变化规律来推测次缺失值;
如果数据没有规律,则用其他值代替:
如果数据符合正态分布,缺失值用期望值代替
如果数据是类型变量,则用默认类型值代替缺失值
python数据分析面试_python数据分析面试相关推荐
- python数据分析软件_Python数据分析工具
Numpy Python没有提供数组功能,虽然列表可以完成基本的数组功能,但他不是真正的数组.Numpy内置函数处理速度是c语言级别,因此尽量使用内置函数,避免出现效率瓶颈的现象. Numpy的安装: ...
- python ppt 绘图_Python数据分析-Matplotlib绘图基础
本文结构: 一.Matplotlib绘图基础及中文乱码解决 二.如何利用pandas绘图? 三.如何利用notebook制作分析报告? 图形在我们日常生活中无处不在.如果没有可视化,就是一些数字罗列, ...
- python统计分析书籍_Python数据分析入门书籍推荐
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
- python 多项式回归 假设检验_Python数据分析入门书籍推荐
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
- python客户价值分析_Python数据分析与应用航空公司客户价值分析.ppt
Python数据分析与应用航空公司客户价值分析.ppt 大数据,成就未来 * 大数据挖掘专家 * 大数据挖掘专家 大数据,成就未来 航空公司客户价值分析 * 目录 分析航空公司现状 1. 行业内竞争 ...
- python数据分析图_Python数据分析:手把手教你用Pandas生成可视化图表的教程
大家都知道,Matplotlib 是众多 Python 可视化包的鼻祖,也是Python最常用的标准可视化库,其功能非常强大,同时也非常复杂,想要搞明白并非易事.但自从Python进入3.0时代以后, ...
- 链表python笔试题目_python经典面试算法题1.4:如何对链表进行重新排序
本题目摘自<Python程序员面试算法宝典>,我会每天做一道这本书上的题目,并分享出来,统一放在我博客内,收集在一个分类中. 1.4 对链表按照如下要求重新排序 [微软笔试题] 难度系数: ...
- python 组合数库函数_Python数据分析之Numpy库(笔记)
2.1 ndarray多维数组 2.1.1 创建ndarray数组 通过NumPy库的array函数,即可轻松地创建ndarray数组.NumPy库能将数据(列表,元组,数组,或其他序列类型)转换为n ...
- python 数据分析班_Python数据分析班
第一课 Python入门 知识点1:Python安装 知识点2:常用数据分析库NumPy.Scipy.Pandas.matplotlib安装 知识点3:常用高级数据分析库scikit-learn.NL ...
最新文章
- 终于!有本书把我从“看完就忘、死记硬背”的学习困境中拯救出来了!
- Letters Removing CodeForces - 899F (线段树维护序列)
- 神经稀疏体素场论文笔记
- php在线语音,PHP在线语音合成
- python学习实例(4)
- 20150103--SQL连接查询+视图-02
- Maven搭建springMvc+myBatis完整项目
- 基于CUDA的三维VTI介质逆时偏移与ADCIGs提取
- Python入门--列表元素的判断及遍历,判断指定元素在列表中是否存在,列表元素的遍历,
- 【WebTerminal】gotty工具
- 如何使用adb连接Android设备?
- 支持向量机(SVM) VS 支持向量回归机(SVR)
- win10下载日文输入法时,无法使用日文键盘的问题解决
- APP视频播放异常,非APP层导致异常基础排查
- 汇编 bne 1b和bne 1f浅析
- IDEA及PyCharm用校园邮箱申请使用及延长方法
- 用Python来表白,把情书写进她的照片里
- Word2016替换文字方法
- 【CV】SwinIR:使用 Swin Transformer 进行图像恢复
- D2C-Net: A Dual-branch, Dual-guidance and Cross-refine Network for Camouflaged Object Detection阅读笔记
热门文章
- Kotlin 中 Activity 跳转问题
- No toolchains found in the NDK toolchains folder for ABI with prefix: mips64el-linux-android
- 完美解决Error:Execution failed for task ':APP:transformClassesWithDexForDebug'...问题
- [JLOI2013]地形生成
- jboss_log4j.xml配置
- 转 spring配置文件
- codeforces 165B(Burning Midnight Oil)
- Codeforces Beta Round #95 (Div. 2) 部分解题报告 (dp,组合数,)
- 用Windows Media Player截图的方法
- JavaScript(转载)