1、数据挖掘的基本任务

数据挖掘就是借助机器学习、深度学习、大数据等技术,从数据中分析出所需的价值,主要涉及的任务有分类、预测、回归、关联分析、时间序列、聚类分析等。

2、数据挖掘建模的流程

  • 目标定义:任务理解、指标确定
  • 数据采集:建模抽样、质量把控、实时采集
  • 数据整理:数据探索、数据清洗、数据变化表
  • 构建模型:算法选择、模型搭建、模型验证
  • 模型评价:模型评价指标选择、模型优化
  • 模型发布:模型部署、模型运行监测

3、数据挖掘采用工具

语言:Python、anaconda

工具:pandas、pytorch、sklearn、keras、numpy、gensim

3.1、箱型图原理

箱型图分析:箱型图涉及中位数(排序后最中间数)、均值、上四分位(数据中有四分之一大于该值)、下四分位(数据中有四分之一小于该值)、上界(获取上四分位与下四分位的差值,该值加上上四分位 得到上界)、下界(获取上四分位与下四分位的差值,下四分位减去 该值得到下界)

3.1、相关系数计算原理

#计算相关系数
file_path_1='../data/catering_sale_all.xls'
data_1=pd.read_excel(file_path_1,index_col='日期')
print(data_1)
data_corr=data_1.corr()[u'百合酱蒸凤爪'] #获取其他菜品和该菜品相关性,不加该菜品将表示两两之间相关性
print(data_corr)
print('*'*30)

3.3、pandas主要统计特征函数

说明:以上函数可以直接对于DataFrame进行操作,DataFrame.sum()表示对于DataFrame 中每一列进行求和,最终获得每一列的和,上面表中的函数都是按照这个逻辑进行计算的。如果只想知道某一列的DataFrame['列名'].sum()。

data.sumdata['列名'].sum()

4、数据预处理

4.1、数据清洗

数据清洗主要涉及删除无关信息、去重复值、缺失值处理、异常值处理等。

缺失值处理方法:

  • 均值、中位数、最大值最小值填充;
  • 临近值填充
    • 回归方法填充
    • 插值法:拉格朗日插值法、牛顿插值法

异常值处理方法:

  • 直接删除
  • 视为缺失值
    • 平均修正
    • 不处理,直接建模

数据归一化操作:

最大-最小值规范化:缺点是当数据比较集中,也就是方差很小时,存在一个很大的异常值,将导致归一化后的值都是近似零的。

零-均值归一化:目前最长用的,归一化后的值偏向于均值为0,方差为1的分布。

#归一化操作
file_path_2='../data/normalization_data.xls'
data_2=pd.read_excel(file_path_2,header=None)
print(data_2)
#最大-最小值归一化
data_min_max=(data_2-data_2.min())/(data_2.max()-data_2.min())
print(data_min_max)
#零-均值归一化
data_zero_mean=(data_2-data_2.mean())/data_2.std()
print(data_zero_mean)

4.3、连续数据离散化

数据离散化主要有3三种方法:

      • 等宽法:将数据按照一定距离进行切割,给与每个切割区间一个标签,缺点,对于临近切割点的点不能很好的表达其类别,另外对于异常值比较敏感,容易造成标签内部有些多,有些少的问题,对于模型训练存在一定问题。
      • 等频法:将数据按照总量和类别数进行平均划分,这样解决了以上问题,但是对于类别内部相同的数据可能存在不能分在一个类别中的问题。
      • 聚类方法:将数据进行聚类,根据聚类中心进行打标签。
'''
等距离散化参数:
data:必须是一维数组
k:分成几类
labels:每一类的标签
'''
d1=pd.cut(data,k,labels=['1','2','3','4'])
print(pd.DataFrame(d1))

4.4、属性规约

属性规约主要是对于特征进行剔除,保证每个特征工程最简洁,提升模型性能。

主成分分析:

# #主成分分析
# from sklearn.decomposition import PCA
# pca=PCA(3)
# pca.fit(data)
# data_tzxl=pca.components_ #返回模型中特征向量
# data_bfb=pca.explained_variance_ratio_ #返回各个成分各自的方差百分比
# print('特征向量',data_tzxl)
# print("各个成分各自方差百分比",data_bfb) #可以看到前4个向量的贡献度已经达到97%
#
# low_d=pca.transform(data)
# print(low_d)
# print(pca.inverse_transform(low_d))

5、挖掘建模

逻辑回归进行特征提取:

'''
构建逻辑回归,采用随机逻辑回归进行特征筛选,然后构建模型
'''
import pandas as pdfilename='../data/bankloan.xls'
data=pd.read_excel(filename)
print(data)
x_train=data.iloc[:,:8]
y_train=data.iloc[:,8]
print(x_train)
print(y_train)
#构建模型
from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR#利用随机逻辑回归进行特征筛选,方便进行特征提取
rlr=RLR()
rlr.fit(x_train,y_train)
print(rlr.get_support()) #获取特征筛选结果
print(rlr.scores_) #获取特征筛选结果的得分##计算与预测目标的相关性,进行特征筛选
corr=data.corr()['违约']
print(corr)说明:将逻辑回归进行特征提取获得的结果和相关性分析提取的特征进行试验对比,两者获取的结果相同,说明不管用那种推荐度特征提取方法,结果大致都相同。

python数据挖掘与分析相关推荐

  1. python数据挖掘与分析实战pdf_《Python数据分析与挖掘实战》PDF+完整源码

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 本书共15章,分两个部分:基础篇.实战篇.基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例 ...

  2. 数据挖掘-实战记录(一)糖尿病python数据挖掘及其分析

    目录 一.准备数据 1.查看数据 二.数据探索性分析 1.数据描述型分析 2.各特征值与结果的关系 a)研究各个特征值本身类别 b)研究怀孕次数特征值与结果的关系 c)其他特征值 3.研究各特征互相的 ...

  3. Python数据挖掘与分析常用库官方文档

    Pandas 强大.灵活的数据分析和探索工具:http://pandas.pydata.org/pandas-docs/stable/index.html Keras 深度学习库,用于建立神经网络以及 ...

  4. python数据挖掘你准备好了吗?

    经常有人问我怎么才能快速入门python数据挖掘,这个问题怎么说呢?那些经典的书籍可以让你对python这门语言有较好的理解,但是缺少实战性.之前推荐过一本名为<python科学计算>(P ...

  5. 【python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析

    这是<Python数据挖掘课程>系列文章,也是我上课内容及书籍中的一个案例.本文主要讲述朴素贝叶斯分类算法并实现中文数据集的舆情分析案例,希望这篇文章对大家有所帮助,提供些思路.内容包括: ...

  6. 【python数据挖掘课程】十九.鸢尾花数据集可视化、线性回归、决策树花样分析

    这是<Python数据挖掘课程>系列文章,也是我这学期上课的部分内容.本文主要讲述鸢尾花数据集的各种分析,包括可视化分析.线性回归分析.决策树分析等,通常一个数据集是可以用于多种分析的,希 ...

  7. 【python数据挖掘课程】十三.WordCloud词云配置过程及词频分析

    这篇文章是学习了老曹的微信直播,感觉WordCloud对我的<Python数据挖掘课程>非常有帮助,作者学习后准备下次上课分享给我的学生,让他们结合词频分析来体会下词云.希望这篇基础文章对 ...

  8. 【python数据挖掘课程】十二.Pandas、Matplotlib结合SQL语句对比图分析

    这篇文章主要讲述Python常用数据分析包Numpy.Pandas.Matplotlib结合MySQL分析数据,前一篇文章 "[python数据挖掘课程]十一.Pandas.Matplotl ...

  9. 【Python数据挖掘课程】九.回归模型LinearRegression简单分析氧化物数据

    这篇文章主要介绍三个知识点,也是我<数据挖掘与分析>课程讲课的内容.同时主要参考学生的课程提交作业内容进行讲述,包括:         1.回归模型及基础知识:         2.UCI ...

  10. 【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析

    今天主要讲述的内容是关于决策树的知识,主要包括以下内容:         1.分类及决策树算法介绍         2.鸢尾花卉数据集介绍         3.决策树实现鸢尾数据集分析         ...

最新文章

  1. DirectX 开发环境配置
  2. input 模糊搜索
  3. CentOS源码编译安装MySQL 5.5.15(转)
  4. 在MAC下怎样用SSH连接远程LINUXserver
  5. 雷军:智能制造将进一步带动中国企业在全球市场的全面崛起
  6. Java 多线程的创建
  7. 2018南华大学计算机学院,南华大学2019年排名第214位 较2018年下降32名
  8. vs2019安装包显示网络未链接_BBO最新5.19版下载及WBF世界网络赛指引
  9. 08系统服务器多开教程,一个四开战士的多开工具 宏及经验全面教程
  10. 跌疯了,理性投资人会这样做 附国内外免费股票数据源
  11. android WebView去广告 使用javascript脚本去除webView广告(两种思路)
  12. 易语言html加密解密,易语言实现-JScript.Encode加密解密(一)
  13. java循环26个字母_java基础 26个英文字母循环输出 13个字母空一行
  14. 容量 Byte、KB、MB、GB、TB、PB、EB、ZB、YB、NB、DB、CB、XB
  15. VMware:在部分链上无法执行所调用的函数,请打开父虚拟磁
  16. java入门软件安装教程,PDPS软件-安装入门教程 20200406
  17. Navicat for MySQL 12破解
  18. 【跟彤砸学编程】—— 第一课
  19. jdk8-时间API
  20. 防御 CSS 黑客——介绍“安全的 CSS hacks”

热门文章

  1. Tsinsen-A1103 ====单循环赛制====固定轮转法。。
  2. window.dialogArguments与window.showModalDialog用法
  3. 海德汉heidenhain开放式光栅尺AKLIDA27/28/47/48选型资料
  4. Android下实现Google街景
  5. VB.NET中Socket编程
  6. 计算机数字媒体毕业论文,数字媒体技术毕业设计(关于数字媒体技术的论文)
  7. 尼康数码相机照片数据恢复怎么办
  8. 贪吃蛇小游戏程序(C语言)
  9. c语言程序设计贪吃蛇报告,C语言“贪吃蛇”程序设计报告.doc
  10. 基于SURF算法的图像拼接方法