NoteBook of 《Data Analysis with Python》

3.IPython基础

Tab自动补齐

  • 变量名
  • 变量方法
  • 路径

    解释

  • ?解释,
  • ??显示函数源码
  • ?搜索命名空间

%run命令

  • %run 执行所有文件
  • %run -i 访问变量
  • Ctrl-C中断执行
  • %paste可以粘贴剪切板的一切文本
  • 一般使用%cpaste因为可以改

    键盘快捷键

    魔术命令

  • %timeit 检测任意语句的执行时间
  • %magic显示魔术命令的详细文档
  • %xdel v 删除变量,并清除其一切引用
  • 注册超能云(SuperVessel Cloud)(注册网址:http://www.ptopenlab.com)

4.Numpy基础:数组和矢量计算

ndarray:多维数组对象

创建ndarray

  • np.array() #将输入数据转换成ndarray
  • np.asarray() #将输入转换成ndarray
  • np.zeros() zeros_like #全零数组
  • np.ones()ones_like #全一数组
  • np.empty()empty_like #创建数组只分配内存不赋值
  • np.arange() #返回 range版的ndarray
  • eye、identify #N*N单位矩阵

ndarray类型

  • int、uint8 16 32 64
  • float 16 32 64 128
  • complex 64 128 256 浮点数表示的复数
  • bool
  • object python对象类型
  • string_ 固定长度的字符串
  • unicode_ 固定长度的Unicode类型
  • astype可以显示转换成其他类型

数组和标量之间的计算

批量计算

基本的索引和切片

  • 数组切片是原始数据,对切片的任何修改都会直接修改原始数据
  • 若需要复制一个副本就需要显示的复制.copy()
  • 访问单个元素arr[0][2]=arr[0,2]
  • 注意区分1和:1 #前者表示第二行,后者表示到第一行
  • and or 在布尔型数据中无效

    花式索引

  • 花式索引就是将数据复制到新数组中
  • 转置 .T transpose swapaxes

通用函数ufunc:元素级数组函数

  • 一元ufunc

    • abs、fabs
    • sqrt平方根
    • square平方
    • exp指数
    • log、log10、log2、log1p对数
    • sign正负号
    • ceil大于等于该值的最小整数
    • floor小于等于该值的最大整数
    • rint四舍五入到最接近的整数
    • modf小数和整数部分分别返回
    • isnan布尔型数组返回NaN非数字
    • isfinite、isinf布尔型返回有穷和无穷
    • cos、sosh、sin、sinh、tan、tanh双曲线三角函数
    • arc cos、sosh、sin、sinh、tan、tanh反三角
    • logical_not 计算not x的真值
  • 二元ufunc
    • add相加
    • subtract数组一减二
    • multiply相乘
    • divide、floor_divide除法,向下取整
    • power A B 计算A^B
    • maximum、fmax fmax会忽略NaN
    • minimum、fmin
    • mod求模
    • copysign将二数组的值的符号复制给第一个数组的值
    • greater、greater_equal、less、less_equal、equal、not_equal比较运算,产生布尔型,相当于>,>=
    • logical_and,logical_or,logical_xor & | ^

利用数组进行数据处理

  • 用数组表达式代替循环叫矢量化
  • numpy.where=x if condition else y
  • [(x if c else y)for x,y,z in zip(x,y,c)]=np.where(c,x,y)

数学和统计方法

  • 基本数组统计方法

    • sum 对数组中全部元素或某轴向的元素求和
    • mean 算术平均值
    • std、var 标准差和方差
    • min、max最大值和最小值
    • argmin、argmax最大最小元素的索引
    • cumsum所有元素的累计和
    • cumprod所有元素的累计积
  • 用于布尔型数组的方法
    • sum计算true的个数
    • any测试是否存在一个或多个true
    • all 检测数组中是否所有值都是true
  • 排序
    • sort
    • np.sort返回是已排序的副本
  • 数组的结合运算
    • np.unique找出数组中的唯一值并返回已排序的结果
    • intersect1d(x,y)返回有序的公共元素结果
    • union1d(x,y)返回并集的有序结果
    • in1d(x,y)返回x的元素是否包含于y的布尔型数组
    • setdiff1d(x,y)返回集合的差,x中不在y中
    • setxor1d(x,y)异或存在某一但是不同时存在2者

      数组文件的输入和输出

  • 二进制读写
    • np.save
    • np.load
    • np.savez将多个数组保存到一个压缩文件中
  • 读取文本文件
    • np.loadtxt
    • np.genfromtxt
    • np.savetxt

      线性代数

  • 矩阵乘法
    • np.dot(x,y)=x.dot(y)
  • 常用函数
    • diag 返回矩阵的对角线元素,或将一维数组转换成矩阵
    • cot矩阵乘法
    • trace对角线元素和
    • det 矩阵行列式值
    • eig特征值和特征向量
    • inv求逆
    • pinv计算矩阵的伪逆
    • qrQR分解
    • svd奇异值分解
    • solve Ax=b的解
    • lstsq Ax=b的最小二乘解
  • 随机数生成
    • numpy.random
    • seed确定随记生成数的种子
    • permutation返回一个序列的随记排列或一个随记排列的范围
    • shuffle对一个序列直接随记排列
    • rand产生均匀分布的样本值
    • randint从给定的范围内随机选取整数
    • randn产生标准状态分布的随机值
    • binomial产生二项分布的样本值
    • normal产生高斯分布的样本值
    • beta产生B分布的样本值
    • chisquare产生卡方分布的样本值
    • gamma产生gamma分布的样本值
    • uniform产生[0,1)均匀分布的样本值

      5.pandas入门

      pandas数据结构介绍

  • Series (data,index=v)
    • 一组数据和一组索引组成的一维数组
    • 看成是一个定长的有序字典
    • 可以直接通过字典创建
    • 在数值运算中会自动对齐
    • 索引可以通过直接赋值的方式修改
  • DataFrame
    • 表格型的数据结构
    • 直接传入由等长列表或np数组组成的字典
    • 可以指定列序列columns
    • 通过类似字典标记da.date或属性da['date']的方式获取一个列为Series(拥有原来df相同的索引)
    • 为不存在的列赋值时会创建一个新列
    • 嵌套字典的外层键作为列,内层作为行索引
    • 可以穿给DF的数据[二维ndarray、数组元组列表组成的字典、np的结构化数组、Series组成的字典、字典组成的字典、字典或Series组成的列表、列表或元组组成的列表、DF、np的MaskedArray]
    • index对象不可修改
  • index的方法和属性:
    • append链接另外一个index产生新的index
    • diff计算差集得到一个index
    • intersection计算交集
    • union\isin计算是否包含在参数集合中的布尔型数组
    • delete删除索引i出的元素并得到新的index
    • drop、insert、is_monotonic、is_unique、unique

基本功能

  • 重新索引reindex:创建一个适应新索引的新对象
  • reindex的method选项
    • ffill pad前向填充
    • bfill backfill后向填充
  • reindex函数的参数
    • index索引的新序列
    • method插值方式
    • fill_value替代缺失值的
    • limit向前向后的最大填充量
    • level、copy
  • drop删除指定行或列data.drop('two')
  • 索引、选取、过滤
    • 利用标签的索引和普通的索引不同
    • obj[val]选取单列或者多列(布尔型、切片、布尔型df有奇效)
    • obj.ix[val]选取单个行或者一组行
    • obj.ix[:,val]选取单个列或列子集
    • obj.ix[val1,val2] 同时选取行和列
    • xs方法根据标签选取单行或者单列,并返回一个Series
    • icol、irow根据整数位置选取单行或者单列,并返回一个Series
    • get_value、set _value根据标签选取设置单个值
  • 算术运算和数据对齐
    • 不重叠标签NA
    • 算术方法中可以填充值
    • DF和Series可以运算,沿行进行广播
    • apply方法可以将函数运用到列或行形成的一维数组上
    • applymap,Series.map
  • 排序
    • sort_index默认是行索引升序(axis=1)列索引升序ascending=False降序
    • 按值对Series进行排序order,缺失值都在末尾
    • 给sort_index的by传名称即可按照相应的名字排
  • 排名.rank()
    • 与排序对比会增设一个排名值
    • 相同名次以method解决
    • average默认平均化
    • min、max、first
  • 索引也可以是重复的

    汇总和计算描述统计

  • 规约方法
    • axis df行用0,列用1
    • skipna跳过na值,默认是True
    • level层次化索引就根据level分组规约
    • describe返回多个列汇总信息

      count、describe、min、max、argmin、argmax、idxmin、idxmax、quantile、sum、mean、median、mad、var、std、skew、kurt、cumsum、cummin、cummax、cumprod、diff、pct_change

  • 相关系数和协方差
    • 3.x只保留了一个 items() 方法
    • Series中corr用于计算相关系数[重叠、非NA、索引对齐]
    • cov计算协方差
    • df的cov、corr会返回完整的矩阵
    • df的corrwith计算其列或行和另一个Series或df
    • unique.sort()返回一组唯一值有序数组
    • value_counts()返回一个Series各值出现的频率,pd.

处理缺失数据

  • NA处理方法

    • dropna、fillna
    • isnull、notnull
  • 过滤缺失数据
    • dropna返回一仅含非空数据和索引值的Series=data.notnull();对于df会丢弃任何含有na的行,传入how='all'只丢弃全为NA的行;丢弃列则传入axis=1
    • thresh参数
  • 填充缺失数据
    • fillna方法参数

      • value用于填充的值或字典对象
      • method填充方法,默认ffill
      • axis默认0即行,axis=1为列
      • inplace是否产生副本
      • limit填充最大连续数量

        层次化索引

  • 能以低维度形式处理高维度数据
  • 可以通过unstack方法重新排到一个df中[stack逆运算]
  • 还可以为轴标签指定名称
  • 重排分层排序
    • swaplevel可以交换两个层级并返回新的
    • sortlevel
  • df将一个列或多个当做行索引
    • set_index(['c','d'),drop=False)
    • reset_index()

      pandas的其他话题

  • 整数索引
    • Series的iget_value
    • df的irow和icol
  • Panel数据
    • Panel中的每一项都是一个df
    • df有to_ panel方法[逆运算是to_frame]

6.数据加载存储和文件格式

读取文本格式的数据

  • pandas解析函数

    • read_csv从文件、url、文件型对象加载带分隔符的对象,默认分隔符是逗号,
    • read_table同上,默认分隔符是制表符\t;指定分隔符sep=','=read_csv
    • read_fwf读取定宽列格式数据
    • read_clipboard读取剪切板数据
  • read_csv/read_table
    • 可以指定索引和列名,也可传入列名列表做成多层索引
    • 当处理不固定分隔符时使用正则表达式来作为分隔符
    • skiprows跳行
    • na_values接收用于表示缺失值的字符串

      函数参数:path、sep|delimiter、header、index_col、names、skiprows、na_values、comment、parse_dates、keep_date_col、converters、dayfirst、date_parser、nrows、iterator、chunksize、skip_footer、verbose、encoding、squeeze、thousands

  • 逐块读取文本文件
    • nrows指定读取几行
    • chunksize指定逐块读取的大小
  • 将数据写出到文本文件
    • to_csv可以指定分隔符[from_csv]
    • 缺失值默认是空字符串,可以通过na_rep指定标记值
    • 默认会输出行列索引,可以通过index=False,header=False禁用
    • 也可以只输出部分列
  • 手动处理分隔符格式
    • csv
  • JSON 数据
    • json.load加载json数据
    • json.dump转换为json对象
    • pandas.to_json[from_json]
  • XML、HTML
    • findall和XPath
    • py2.x中的urllib2 =py3.x 中的urllib.request
    • The StringIO and cStringIO modules are gone. Instead, import the io module and use io.StringIO or io.BytesIO for text and data respectively.
    • ixml.objectify解析xml

二进制数据格式

  • pandas.save和pandas.load 读写pickle形式数据
  • HDF5格式(hierarchical data format层次数据格式)
    • python中有两个接口PyTables&h5py
    • 处理海量数据要好好研究这两个接口
    • pd.ExcelFile读取Excel文件

      使用HTML和Web API

  • json、request
  • df便于分析

使用数据库

In python 2, zip returned a list. In python 3, it returns an iterable object. But you can make it into a list just by calling list on it.
list(zip(*ngram))[0]=zip(*nagram)[0]

存取MongoDB的数据

7.数据规整化:清洗、转换、合并、重塑

合并数据集

  • pandas内置方法合并

    • pandas.merge根据一个或多个键连接不同的df,实现数据库的连接操作
    • pandas.concat沿一条轴合并多个对象
    • combine_first将重复数据接在一起
  • pd.merge(df1,df2,on='key')
    • 不指定哪个列进行连接,默认是重叠的列名进行连接
    • 两个对象的列名不同可以分别指定
    • 默认情况merge是how='inner'结果中的键是交集,outer是并集,还有left、right
    • 多对多连接产生的是行的笛卡尔积
    • 要对多个键进行合并传入一个键的列表即可
    • merge函数参数
      • left、right、how、on、left_on、right_on
      • left_index、right_index、sort、suffixes、copy
  • 索引上的合并
    • 层次索引必须以列表的形式指明用作合并键的多个列
    • df.join按索引实现合并并且合并多个带有相同或相似的df对象;还可以传入一组df
  • 轴向连接
    • concat默认在axis=0工作,将值和索引连接到一起
    • 如果传入axis=1则结果会变成一个df
    • concat函数参数
      • objs参与连接的pd对象的列表或字典,唯一必须参数
      • axis、join、join_axes、keys、levels
      • names、verify_integrity、ignore_index
  • 合并重叠数据
    • np.where&pd.combine_first

      重塑reshape和轴向旋转pivot

  • 重塑层次化索引
    • stack 列-->行 df-->Series 默认滤除缺失值
    • unstack 行-->列 Series-->df
  • 将长格式转换成宽格式
    • pivot

      数据转换

  • 移除重复数据
    • df.duplicated()返回一个布尔型Series表示是否重复行
    • drop_duplicates返回一个移除了重复行的df;默认是判断全部列,也可以指定列;默认保留第一个值,也可以保留最后一个
  • 利用匿名函数或映射进行数据转换
    • map&lambda
  • 替换值
    • replace
  • 重命名轴索引
    • map直接修改原始数据,rename创建数据集的转换版[可以结合字典实现对部分轴索引的修改],也可inplace=True修改原数据
  • 离散化和面元划分
    • 离散化函数pd.cut&pd.qcut
  • 检测和过滤离群值
    • np.random.permutation
    • df.take
  • 计算指标/哑变量
    • 将分类变量转换为虚拟矩阵或指标矩阵
    • pd.get_dummies(prefix加前缀)结合cut

      字符串操作

  • 字符串对象方法
    • split()结合strip(修剪空白符,换行符)
    • '::'.join()
    • find[找不到返回-1]和index[找不到会引发异常]
    • count返回子字符串出现的次数
    • replace将指定字符替换成指定字符,删除就替换空字符
    • 内置字符串方法
      • count、endswith、startswith、join、index、find、rfind、replace、strip、rstrip、lstrip、split、lower、upper、ljust、rjust
  • 正则表达式
    • 通过re.compile创建regex对象可以节省大量时间如果对许多字符串应用同一个正则表达式
    • findall返回所有匹配项的列表,finditer逐个迭代返回
    • search返回第一个匹配项
    • match从字符串起始位置开始匹配,返回第一个,否则None
    • sub将匹配到的替换成指定字符串,并返回新的字符串subn前n个
    • re.IGNORECASE忽略大小写
    • split将匹配到的拆分成数段
  • pandas中矢量化的字符串函数
    • 获取矢量化的元操作:str.get;str[]
    • 矢量化的字符串方法
      • cat、contains、count、endswith、startswith、findall、get、join、len、lower、upper、match、pad、center、repeat、replace、slice、split、strip、rstrip、lstrip

        8.绘图和可视化

        matplotlib入门

  • matplotlib的实例库和文档是成为绘图高手的最佳资源
  • Figure & Subplot
    • matplotlib的图像都位于Figure对象中
    • pyplot.subplots的参数
      • nrows、ncols、sharex、sharey、subplot_kw、 **fig_wk
      • subplots_adjust调整图像间距
  • 颜色、标记和线型
    • plot(linestyle=、color=)常用颜色有缩写,任意RGB
    • 转折点的标记marker=o;drawstyle插值绘图方式
  • 刻度、标签和图例
    • 设置刻度和刻度标签

      • set_xticks选择要设置刻度的位置
      • ser_xticklables就是设置刻度的标签
      • set_xlable设置轴标签
      • set_title设置标题
    • 添加图例
      • 在添加subplot的时候传入lable
      • ax.legend|plt.legend(loc='best')自动选一个最好的地方
  • 注解或在Subplot上绘图
    • 注解可以通过text、arrow、annotate添加
    • text可以文本绘制在指定坐标
    • 在图表上添加一个图形,需要先创建一个块对象shp然后通过ax.add_oatch(shp)将其添加到subplot中
  • 图片保持Figure.savefig
    • fname、dpi、facecolor、edgecolor、format、bbox_inches
  • matplotlib配置
    • plt.rc函数配置,第一个参数是要配置的对象

pandas中的绘图函数

  • 线形图

    • Series.plot方法默认就是线形图

      • label、ax、style、alpha、kind、logy、use_index、rot、xticks、yticks、xlim、ylim、grid
    • df.plot会在一个subplot中为各列绘制一条线并自动创建图例
      • subplots、sharex、sharey、figsize、title、legend、sort_columns
    • 要更深入需要多学matplotlib API
  • 柱状图
    • kind='bar'垂直|kind='barh'水平
    • Series索引会被用作刻度=df.行索引,列索引会作分组
    • stacked=True堆积柱状图
  • 直方图和密度图
    • hist生成直方图
    • plot kind='kde'生成密度图
    • 二者通常一起使用
  • 散布图
    • plt.scatter观察两个一维数据序列之间的关系
    • pd.scatter_matrix散布图矩阵
    • basemap地图插件
    • 图形库mayavi

9.数据聚合与分组运算

GroupBy分组

  • split-apply-combine
  • 分组键中的缺失值可以使结果包含在NA组了吧
  • 对分组进行迭代
  • 选取一个或一组列
  • 通过字典或Series分组,索引和分组轴要对齐
  • 通过函数进行分组
  • 将函数、数组、列表、字典、Series混合使用进行分组
  • 根据索引级别分组[层次化索引]

数据聚合:从数组产生标量值的数据转换过程

  • 如果要使用自己的聚合函数,传入aggregate和agg方法
  • 非聚合运算的describe方法也可用
  • 优化过的GroupBy方法
    • count、sum、mean、median、std、var、min、max、prod、first、last
  • 面向列的多函数应用
    • 不同的列使用不同的函数或一次应用多个函数
    • 如果传入的是函数或者函数名,相应的列就会以函数名命名
    • 如果传入的是元组(name,function)就会以第一个参数名命名
    • 如果要对不同的列使用不同的函数,那么就向agg传入一个从列名映射到函数的字典
  • as_index=False结果返回是无索引的

    数组运算和转换

  • groupby的transform方法,会将一个函数运用到各个分组
  • apply:一般性的'拆分-应用-合并'
  • group_keys=False禁止分组键
  • 分位数quantile和桶bucket分析

    透视表和交叉表

  • 透视表pivot table根据一个或多个键并根据行、列键将数据分配到各个举行区域里
    • pd.pivot_table|df.pivot_table参数

      • margins=True aggfunc= 、values、index、columns、fill_value
  • 交叉表crosstab:用于计算分组频率的特殊透视表
    • crosstab前两参数可以是数组、Series、数组列表

      关于basemap的种种问题

  • geos始终无法安装好
  • basemap无法直接安装whl也安装不了
  • win10 64 py3.5

时间序列

日期和时间数据类型及工具

  • datetime、time、calendar
  • date.timedelta表示两个datetime对象之间的时间差
  • 字符串和datetime之间的相互转换
    • str和strftime可以将datetime转换成字符串
    • datetime.strptime可以将格式化字符串装换成datetime对象;解析已知格式
    • dateutil包的parser.parse方法解析所有格式;实用但不完美
    • datetime格式定义
      • %Y 四位数年 %y %m %d 两位数
      • %H 24H制 %I 12H制 %M %S
      • %w 星期几[0,6] %U 每年的第几周,星期天为界,%W,星期一为界
      • %z UTC时区偏移量 %F Y-m-d %D m/d/y
    • 特定于当前环境的
      • %a 星期几简称、%A星期全称
      • %b月份简称 %B
      • %c完整日期和时间 %p am,pm
      • %x适合于当前地区的日期格式,%X时间格式

        时间序列基础

  • pd最基本的时间序列就是以时间戳为索引的Series
  • 索引、选取、子集构造
    • 传入可以被解析成日期的字符串
    • 传入年、月即可选取数据切片
    • 可以使用字符串日、datetime、Timestamp
    • 对非唯一时间戳进行聚合使用groupby

      日期的范围、频率、移动

  • resample将时间序列转换成一个具有固定频率的时间序列
  • pd.date_range会生成指定长度的daretimeindex
  • 时间序列的基础频率
    • D日历日 B工作日 H T分 S WOM每月的星期几
  • 移动数据 pd.shift

    时区处理

  • pytz包
  • 本地化和转换
    • tz_localize、tz_convert转换到别的时区
    • Timestamp对象的转换
    • 不同时区之间的运算
  • 时期及其算术运算
    • 时期的频率转换
    • 按季度计算的时期频率
      • to_timestamp
    • 将Timestamp转换成Period[or相反]
      • to_period方法
    • 通过数组创建PeriodIndex

      重采样和频率转换

  • 重采样resample是指将时间序列从一个频率转换到另外一个频率
    • 降采样、升采样,非降非升采样
    • 方法参数
      • freq、how、axis、fill_method、closed、label、loffset、limit、kind、convention
      • OHLC重采样,open、high、low、close
      • 通过groupby进行重采样
    • 升采样和插值
    • 通过时期进行重采样

      时间序列绘图

  • pd时间序列的绘图功能比mt好
  • 移动窗口函数rolling_mean
  • 用户自定义移动窗口函数rolling_apply,能从片段中产生单个值

    性能和内存使用的注意事项

  • pandas对数据对齐和重采样进行了高度优化
  • 规则频率之间的转换优化

    金融和经济数据应用

    数据规整方面

  • 时间序列以及截面对齐
    • pandas可以在算术运算中自动对齐数据
    • 通过一组不同索引的Series构建df
  • 频率不同的时间序列的运算
    • 频率转换resample和重对齐reindex
    • 使用Period索引的两个不同频率的时间序列之间的运算必须进行显示转换
  • 时间和当前数据选取
    • at_time、between_time
    • 将Timestamp传入asof可以得到时间点最近的值(若是na的话)
  • 拼接多个数据源
    • pd.concat
    • df.combine_first

      分组变换和分析

  • 分组因子暴露
    • 因子分析是投资组合定量管理的一种技术
  • 十分位和十分位分析
    • 基于样本分位数的分析

NumPy高级应用

ndarray对象的内部机制

  • numpy数据类型体系

    高级数组操作

  • 向数组的reshape传入一个表示新形状的元组即可
    • 扁平化|散开
  • C[行优先&内存相邻]和Fortran[列优先&内存相邻]顺序
  • order='C' || order='F'
  • 数组的拆分和合并
    • np.concatenate可以指定轴将一个数组序列(元组或列表等)连接到一起
    • 比较方便的是np.vstack|np.hstack
    • np.split将数组沿指定轴拆分为多个数组
    • concatenate、vstack、row_stack、hstack、column_stack、dstack、split、hsplit、vsplit、dsplit
    • r_、c_
  • 元素的重复操作tile&repeat
  • 花式索引的等价函数take&put
    • take可以使用axis put只能按C顺序

      广播

  • 后缘维度的轴长相符,其中一方长度为1
  • 沿其他轴向广播
  • 利用广播机制设置数组的值

ufunc高级应用

  • ufunc实例方法

    • reduce、accumulate、reduceat、outer
  • 自定义ufunc
    • np.frompyfunc接收一数组个函数及参数

      结构化和记录式数组

  • 定义结构化dtype,使用元组列表,字典式访问
  • 嵌套dtype和多维字段

    和排序有关的话题

  • ndarray的sort实例方法是直接排序,原始数据会消失
  • 而np.sort会创建一个已排序的副本,还可以指定排序轴
    • 二者都无法设置为降序
  • 间接排序:argsort、lexsort
  • python对象数组只能用快排排序
  • np.searchsorted在有序数组中查找元素,返回位置坐标
  • Numpy的Matrix类

    高级输入输出

  • 内存映像文件可以处理内存放不下的大文件
  • np.memmap会将大文件分成小段来读写

    性能建议

  • 将python的循环和逻辑转换成数组运算和布尔数组运算
  • 多用广播
  • 多使用数组切片避免复制数据
  • 使用ufunc
  • 考虑Cython
  • 连续内存

转载于:https://www.cnblogs.com/cutd/p/5361782.html

《利用Python进行数据分析: Python for Data Analysis 》学习随笔相关推荐

  1. python 数据分析 百度网盘_[百度网盘]利用Python进行数据分析(Python For Data Analysis中文版).pdf - Jan-My31的博客 - 磁力点点...

    利用Python进行数据分析(Python For Data Analysis中文版).pdf - Jan-My31的博客 2018-5-27 · 链接:https://pan.baidu.com/s ...

  2. R探索新数据分析(Exploratory Data Analysis,EDA)

    R探索新数据分析(Exploratory Data Analysis,EDA) 目录 R探索新数据分析(Exploratory Data Analysis,EDA) str方法进行数据概览及类型查看

  3. 一维数组实验题:计算平均数、中位数和众数 在调查数据分析(Survey data analysis)中经常需要计算平均数、中位数和众数。用函数编程计算40个输入数据(是取值1—10之间的任意整数)的平

    一维数组实验题:计算平均数.中位数和众数 在调查数据分析(Survey data analysis)中经常需要计算平均数.中位数和众数.用函数编程计算40个输入数据(是取值1-10之间的任意整数)的平 ...

  4. 探索性数据分析(Exploratory Data Analysis,EDA)

    探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数 ...

  5. python数据分析是什么意思_利用python进行数据分析,python数据分析是什么

    Q2:有没有人在学python做量化交易的 推荐一些书籍 1 像计算机科学家一样思考Python 2 [Python标准库].Doug.Hellmann.扫描版 3<Python科学计算> ...

  6. 【Python-ML】探索式数据分析EDA(Exploratory Data Analysis)

    # -*- coding: utf-8 -*- ''' Created on 2018年1月24日 @author: Jason.F @summary: 有监督回归学习-探索式数据分析(EDA,Exp ...

  7. python时间序列数据分析,Python数据分析之时间序列

    Python数据分析之时间序列 发布时间:2020-07-10 06:56:27 来源:51CTO 阅读:808 作者:up4ever 1. 时间序列类型 时间戳(timestramp) 即特定的时刻 ...

  8. Python医学数据分析入门,推荐你学习这本书

    医学生学习Python的难点通常在于 没有系统的编程教育,很难短时间内使用编程语言描述问题及其解答过程 相关教程.案例少,想要练习缺少素材 所以这里就给大家推荐一本比较新比较前沿的教医学生学习Pyth ...

  9. python列表乘数值_《利用Python进行数据分析》十一章· 时间序列·学习笔记(一)...

    一.时间序列 时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学.经济学.生态学.神经科学.物理学等.在多个时间点观察或测量到的任何事物都可以形成一段时间序列 ...

  10. Python for Data Analysis 学习心得(二) - pandas介绍

    一.pandas介绍 本篇程序上篇内容,在numpy下面继续介绍pandas,本书的作者是pandas的作者之一.pandas是非常好用的数据预处理工具,pandas下面有两个数据结构,分别为Seri ...

最新文章

  1. 感动!盲人计算机科学家研发语音浏览器,致力科技改善盲人生活
  2. mongoDB 文档操作_改
  3. 极市分享|第32期 张德兵小美:分布式人脸识别及工业级运用经验
  4. Android7.0 Doze模式分析(一)Doze介绍 amp; DeviceIdleController
  5. Linux下设计一个简单的线程池
  6. camera (19)---Android 相机开发的基本流程
  7. 敏捷开发般若敏捷系列之七:重新认识敏捷与CMMI
  8. Spring.NET学习笔记17——事务传播行为(基础篇) Level 200
  9. 设计师学python还是processing_人人都能学会的processing创意编程能实现什么?
  10. Matlab:实现菲涅尔直边衍射仿真
  11. 真实案例,现场的MOS管大面积烧毁,百思不得其姐,求大神们分析原因
  12. 在 Linux中 cp复制文件时,出现略过的提示
  13. 电脑编程从哪里开始学习_我想学习编程,但我不知道从哪里开始
  14. 【开源代码】在criteo数据集用MLP跑出AUC=0.809的结果
  15. 探花交友_第7章-完善消息功能以及个人主页
  16. 场效应管 - MOSFET
  17. 十进制转余三码或余三码转十进制
  18. python 存储bmp格式图片
  19. github上值得关注的前端项目 以及他们的github地址,欢迎关注:GitHub - hawx1993/github-FE-project: A collection about github f
  20. 用wine运行魔兽争霸3

热门文章

  1. 2021最新全球CS专业排名发布,CMU再夺榜首,清华和MIT并列第三!
  2. 博客搭建(基于hexo)
  3. openssl心脏滴血漏洞
  4. 推动前端团队基础设施建设流程方案计划书
  5. Excel如何实现两个工作表数据的对比
  6. 关于开发人员学习的网站【收藏】
  7. excel表计算机实践操作,Excel电子表格计算机实践任务书.ppt
  8. 会员营销中,沉寂会员的三种运营策略
  9. 电商项目day16(购物车实现)
  10. android ogg转mp3,MP3提取转换器