Python语言:简要概括一下Python语言在数据分析、挖掘场景中常用特性:

  1. 列表(可以被修改),元组(不可以被修改)

  2. 字典(结构)

  3. 集合(同数学概念上的集合)

  4. 函数式编程(主要由lambda()、map()、reduce()、filter()构成)

Python数据分析常用库:

Python数据挖掘相关扩展库

NumPy

提供真正的数组,相比Python内置列表来说速度更快,NumPy也是Scipy、Matplotlib、Pandas等库的依赖库,内置函数处理数据速度是C语言级别的,因此使用中应尽量使用内置函数。示例:NumPy基本操作

import numpy as np  # 一般以np为别名a = np.array([2, 0, 1, 5])print(a)print(a[:3])print(a.min())a.sort()  # a被覆盖print(a)b = np.array([[1, 2, 3], [4, 5, 6]])print(b*b)

输出:

[2 0 1 5][2 0 1]0[0 1 2 5][[ 1  4  9] [16 25 36]]

Scipy

NumPy和Scipy让Python有了MATLAB味道。Scipy依赖于NumPy,NumPy提供了多维数组功能,但只是一般的数组并不是矩阵。比如两个数组相乘时,只是对应元素相乘。Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。Scipy包含功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解等常用计算。示例:Scipy求解非线性方程组和数值积分

# 求解方程组from scipy.optimize import fsolvedef f(x):    x1 = x[0]    x2 = x[1]return [2 * x1 - x2 ** 2 - 1, x1 ** 2 - x2 - 2]result = fsolve(f, [1, 1])print(result)# 积分from scipy import integratedef g(x):  # 定义被积函数return (1 - x ** 2) ** 0.5pi_2, err = integrate.quad(g, -1, 1)  # 输出积分结果和误差print(pi_2 * 2, err)

输出:

1.91963957  

Matplotlib

Python中著名的绘图库,主要用于二维绘图,也可以进行简单的三维绘图。示例:Matplotlib绘图基本操作

import matplotlib.pyplot 

输出:

Pandas

Pandas是Python下非常强大的数据分析工具。它建立在NumPy之上,功能很强大,支持类似SQL的增删改查,并具有丰富的数据处理函数,支持时间序列分析功能,支持灵活处理缺失数据等。Pandas基本数据结构是Series和DataFrame。Series就是序列,类似一维数组,DataFrame则相当于一张二维表格,类似二维数组,它每一列都是一个Series。为定位Series中的元素,Pandas提供了Index对象,类似主键。DataFrame本质上是Series的容器。示例:Pandas简单操作

import pandas 

输出:

1

Scikit-Learn

Scikit-Learn依赖NumPy、Scipy和Matplotlib,是Python中强大的机器学习库,提供了诸如数据预处理、分类、回归、聚类、预测和模型分析等功能。示例:创建线性回归模型

from sklearn.linear_model 
  1. 所有模型都提供的接口:

model.fit():训练模型,监督模型是fit(X,y),无监督模型是fit(X)

  1. 监督模型提供的接口:

model.predict(X_new):预测新样本
model.predict_proba(X_new):预测概率,仅对某些模型有用(LR)

  1. 无监督模型提供的接口:

model.ransform():从数据中学到新的“基空间”
model.fit_transform():从数据中学到的新的基,并将这个数据按照这组“基”进行转换

Scikit-Learn本身自带了一些数据集,如花卉和手写图像数据集等,下面以花卉数据集举个栗子,训练集包含4个维度——萼片长度、宽度,花瓣长度和宽度,以及四个亚属分类结果。示例:

from sklearn 

输出:

0 

Keras

Keras是基于Theano的深度学习库,它不仅可以搭建普通神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等,运行速度也很快,简化了搭建各种神经网络模型的步骤,允许普通用户轻松搭建几百个输入节点的深层神经网络,定制度也很高。示例:简单的MLP(多层感知器)

from keras.models 

参考:

  • Keras中文文档

  • 如何计算两个文档的相似度(二)

Genism

Genism主要用来处理语言方面的任务,如文本相似度计算、LDA、Word2Vec等。示例:

import logging

输出:

2017-10-24 19:02:40,785 : INFO : collecting all words and their counts2017-10-24 19:02:40,785 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types2017-10-24 19:02:40,785 : INFO : collected 3 word types from a corpus of 4 raw words and 2 sentences2017-10-24 19:02:40,785 : INFO : Loading a fresh vocabulary2017-10-24 19:02:40,785 : INFO : min_count=1 retains 3 unique words (100% of original 3, drops 0)2017-10-24 19:02:40,785 : INFO : min_count=1 leaves 4 word corpus (100% of original 4, drops 0)2017-10-24 19:02:40,786 : INFO : deleting the raw counts dictionary of 3 items2017-10-24 19:02:40,786 : INFO : sample=0.001 downsamples 3 most-common words2017-10-24 19:02:40,786 : INFO : downsampling leaves estimated 0 word corpus (5.7% of prior 4)2017-10-24 19:02:40,786 : INFO : estimated required memory for 3 words and 100 dimensions: 3900 bytes2017-10-24 19:02:40,786 : INFO : resetting layer weights2017-10-24 19:02:40,786 : INFO : training model with 3 workers on 3 vocabulary and 100 features, using sg=0 hs=0 sample=0.001 negative=5 window=52017-10-24 19:02:40,788 : INFO : worker thread finished; awaiting finish of 2 more threads2017-10-24 19:02:40,788 : INFO : worker thread finished; awaiting finish of 1 more threads2017-10-24 19:02:40,788 : INFO : worker thread finished; awaiting finish of 0 more threads2017-10-24 19:02:40,789 : INFO : training on 20 raw words (0 effective words) took 0.0s, 0 effective words/s2017-10-24 19:02:40,789 : WARNING : under 10 jobs per worker: consider setting a smaller `batch_words' for smoother alpha decay[ -1.54225400e-03  -2.45212857e-03  -2.20486755e-03  -3.64410551e-03  -2.28137174e-03  -1.70348200e-03  -1.05830852e-03  -4.37875278e-03  -4.97106137e-03   3.93485563e-04  -1.97932171e-03  -3.40653211e-03   1.54990738e-03   8.97102174e-04   2.94041773e-03   3.45200230e-03  -4.60584508e-03   3.81468004e-03   3.07120802e-03   2.85422982e-04   7.01598416e-04   2.69670971e-03   4.17246483e-03  -6.48593705e-04   1.11404411e-03   4.02203249e-03  -2.34672683e-03   2.35153269e-03   2.32632101e-05   3.76200466e-03  -3.95653257e-03   3.77303245e-03   8.48884694e-04   1.61545759e-03   2.53374409e-03  -4.25464474e-03  -2.06338940e-03  -6.84972096e-04  -6.92955102e-04  -2.27969326e-03  -2.13766913e-03   3.95324081e-03   3.52649018e-03   1.29243149e-03   4.29229392e-03  -4.34781052e-03   2.42843386e-03   3.12117115e-03  -2.99768522e-03  -1.17538485e-03   6.67148328e-04  -6.86432002e-04  -3.58940102e-03   2.40547652e-03  -4.18888079e-03  -3.12567432e-03  -2.51603196e-03   2.53451476e-03   3.65199335e-03   3.35336081e-03  -2.50071986e-04   4.15537134e-03  -3.89242987e-03   4.88173496e-03  -3.34603712e-03   3.18462006e-03   1.57053335e-04   3.51517834e-03  -1.20337342e-03  -1.81524854e-04   3.57784083e-05  -2.36600707e-03  -3.77405947e-03  -1.70441647e-03  -4.51521482e-03  -9.47134569e-04   4.53894213e-03   1.55767589e-03   8.57840874e-04  -1.12304837e-03  -3.95945460e-03   5.37869288e-04  -2.04461766e-03   5.24829782e-04   3.76719423e-03  -4.38512256e-03   4.81262803e-03  -4.20147832e-03  -3.87057988e-03   1.67581497e-03   1.51928759e-03  -1.31744961e-03   3.28474329e-03  -3.28777428e-03  -9.67226923e-04   4.62622894e-03   1.34165725e-03   3.60148447e-03   4.80416557e-03  -1.98963983e-03]

python pd Series 添加行_Python数据分析与挖掘的常用工具相关推荐

  1. python pd Series 添加行_pd.Series的基本操作

    1. 查看名称, 重命名 .name方法, 查看Series的名称. .rename()方法, 重命名 import 数据类型为字符串, 原Series名称不变 2. 查看Series头部数据, 尾部 ...

  2. Python数据分析与挖掘的常用工具

    Python语言: 简要概括一下Python语言在数据分析.挖掘场景中常用特性: 列表(可以被修改),元组(不可以被修改) 字典(<k,v>结构) 集合(同数学概念上的集合) 函数式编程( ...

  3. python 条形图填充疏密_Python数据分析 4:图表绘制工具Matplotlib

    一.Matplotlib简介及图表窗口 Matplotlib是一个python版的matlab绘图接口,以2D为主,支持python.numpy.pandas基本数据结构,其特点为运营高效且具有丰富的 ...

  4. 数据分析与挖掘中常用Python库的介绍与实践案例

    数据分析与挖掘中常用Python库的介绍与实践案例 一.Python介绍 现在python一词对我们来说并不陌生,尤其是在学术圈,它的影响力远超其它任何一种编程语言, 作为一门简单易学且功能强大的编程 ...

  5. python数据分析与挖掘论文_Python数据分析与挖掘实战 --对应的代码文件以及目录信息...

    CSDN下载: 哔哩哔哩视频:https://www.bilibili.com/vide... 文件夹 PATH 列表 卷序列号为 4E8D-6931 C:. │ .txt │ Python数据分析与 ...

  6. python 可视化分析平台_python 数据分析数据可视化工具matplotlib

    说明: 数据可视化中的数据集下载地址:(数据来源:从零开始学python数据分析和挖掘) 链接:https://pan.baidu.com/s/1zrNpzSNVHd8v1rGFRzKipQ 提取码: ...

  7. python实操案例_Python数据分析基础实操案例

    上游,是勇士劈风破浪的终点,下游,是懦夫一帆风顺的归宿. 本文是Python基础知识点的姊妹篇,以药店销售数据分析为例,带你一起走一遍数据分析5部曲.鲸歌:Python基础知识点​zhuanlan.z ...

  8. python显示数据长度_Python数据分析之初识可视化

    一.数据可视化概述 数据可视化是在整个数据分析非常重要的一个辅助工具,可以清晰的理解数据,从而调整我们的分析方法. - 能将数据进行可视化,更直观的呈现 - 使数据更加客观.更具说服力 例如下面两个图 ...

  9. python 保留顺序去重_Python数据分析入门教程(二):数据预处理

    作者 | CDA数据分析师 从菜市场买来的菜,总有一些不太好的,所以把菜买回来以后要先做一遍预处理,把那些不太好的部分扔掉.现实中大部分的数据都类似于菜市场的菜品,拿到以后都要先做一次预处理. 常见的 ...

最新文章

  1. Html编辑器kindsoft
  2. python 打开网页 并填表单_Windows下使用python3 + selenium.webdriver功能实现自动填写网页表单功能...
  3. 每个人都必须阅读的10篇Java文章
  4. 全局路径规划:图搜索算法介绍3(A stars tie breaker)
  5. 哪一类功率放大电路效率最高_集成电路工艺之双极型工艺
  6. CS224N笔记——Word Window分类与神经网络
  7. cdr2022辅助注册机序列号
  8. 基于Java语言的51单片机串口通讯PC机程序
  9. 缺少所需的CD/DVD驱动器设备驱动程序
  10. 标签类目体系(面向业务的数据资产设计方法论)-读书笔记4
  11. c++编程简易计算器、JavaScript游戏
  12. YOLOv5+TensorRT+Win11(Python版)
  13. 传播动力学--SIR模型及其应用
  14. 一文搞定子网划分!子网掩码!超详细例题解析!
  15. allegro 使用subdrawing
  16. 智能指纹门锁芯片方案技术开发
  17. 黑苹果安装教程OC引导
  18. 1646906-26-4,PO-T2T钌(Ⅱ)多吡啶配合物[Ru(phen)(Hecip)](ClO4)2
  19. gyp: No Xcode or CLT version detected!
  20. ISIS协议和代码分析

热门文章

  1. labelme标注文件转coco json,coco json转yolo txt格式,coco json转xml, labelme标注文件转分割,boxes转labelme json
  2. Java8 Stream详解~收集(collect)
  3. Replace Type Code with Class(以类取代类型码)
  4. mysql 5.7安装完密码是多少_关于mysql5.7.18的安装并修改初始密码的图文教程
  5. 奇妙的安全旅行之国密算法
  6. [错误记录] --- rocketmq批量消费设置参数的问题
  7. cnblog 的小问题 - 尽在 null 中
  8. JAVA入门级教学之(多态)
  9. JAVA入门级教学之(方法重写/方法重载)
  10. java的迭代器类中有哪些类_java中的集合类 以及 迭代器