统计学、大数据应用很广泛,常常被提及!统计学习也有一定的规律流程,下面我们大圣众包小编分享一位朋友关于统计学习流程步骤的看法,看看他怎么说。

  统计学习现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。

  统计学习的一般流程

  得到一个有限的数据集合

  确定所有的学习模型集合

  确定模型选择的准则,就是学习的策略

  实现求解最优模型的算法并通过学习方法选择最优模型

  利用学习得到的最优模型对新数据进行分析或预测

  步骤一:得到一个有限的数据集合

  涉及到以下多个流程:

  1、数据的采集

  2、原始数据的格式化、标准化

  3、原始去噪,去掉错误的值(而不是误差值,这里又涉及到一个复杂的问题,如何界定错误数据)

  4、预处理(针对具体需要研究的问题、抽取相应地特征组成需要研究的数据集合)

  步骤二:确定所有的学习模型集合

  这个问题取决于我们选择怎么样的学习方法。常见得学习方法有:

  1、感知机模型

  2、k近邻法

  3、朴素贝叶斯法

  4、决策树

  5、逻辑斯谛回归和最大熵模型

  6、支持向量机

  7、提升方法AdaBoost

  8、EM算法

  9、隐马尔可夫模型

  10、条件随机场

  而且这些算法还可以进行变异、组合然后形成新的算法模型。也是通常认为中数据挖掘比较核心的部分。

  步骤三:确定模型选择的策略

  一般来说,当你确定了你的学习方法后,在学习的过程中会产生很多个模型。而如何在这些模型中间挑选最优的模型,成为了我们亟待解决的问题。

  一般衡量一个模型的优秀程度我们使用两个指标:

  1、拟合能力

  2、泛化能力

  拟合能力

  表示模型的计算结果和实际结果的相差程度,我们一般使用风险函数来衡量。而风险函数是损失函数的期望。所以我们其实是使用损失函数来衡量一个模型的期望。

  常见的损失函数:

  1、0-1损失函数

  2、平分损失函数

  3、绝对值损失函数

  4、对数损失函数

  损失函数越小,模型的拟合能力就越好。

  泛化能力泛化能力是指模型对新数据的预测能力。一般来说,越复杂的模型的拟合能力越强,但是泛化能力越弱。所以我们需要选择一个适当复杂度的模型,使其泛化能力和拟合能力都足够强。

  而衡量一个模型同时具有较好地泛化能力和拟合能力,我们一般用结构风险函数。

  结构风险函数是在风险函数的基础上面加上一个罚项。通过罚项来降低复杂度高的模型的结构风险函数值。从而达到筛选出合适的复杂度的模型的目的。

  罚项一般取特征空间w的范数,一般有:

  1、L0范数

  2、L1范数

  3、L2范数

  4、核范数…

  步骤四:实现求解最优模型的算法并通过学习方法选择最优模型

  求解最优模型的算法其实就是求解结构风险函数最小值得算法,即结构风险函数最优化的问题。

  如果结构风险函数在我们所关心的区域中是凸函数的话,那么任何局部最小解也是全局最优解。现在已经有稳定,快速的数值计算方法来求二次可微地凸函数的最小值。

  然而,很多时候我们没有办法通过结构风险函数直接算出它的最小值。我们只能通过一些迭代的方式获得局部最优解。

  常见的通过迭代的方式获得局部最优解的算法有:

  1、梯度下降法

  2、牛顿法

  3、共轭梯度法

  4、线性搜索

  5、置信域方法

  另外还有一些算法:

  1、模拟退火

  2、遗传算法

  3、类免疫算法

  4、演化策略

  5、差异演化算法

  6、微粒群算法

  7、神经网络

  8、支持向量机

  步骤五:利用学习得到的最优模型对新数据进行分析或预测

  到这一步一般来说已经成功了,然后往往现实是残酷的,辛辛苦苦20年,一朝回到解放前。

  往往学习得到的模型在实际使用过程当中并不是那么的理想。这里面有很多种原因:

  有可能是原始数据的原因

  有可能是特征选择的原因

  有可能是模型的原因

  有可能是最优模型算法的问题

  有可能是代码错误

  总之,以上的所有步骤的所有细节都可能导致你的模型不够优秀。这就需要你再次的思考这个问题,去不断的优化你的模型。直到得到一个不错的模型。

  小结

  其实数据挖掘涉及的东西远比我上面说的这点东西多的多,我上面提到的还只是监督学习。就光我上面提到的几个步骤。其实每一个步骤都有很多很多东西可以讲,可以研究,工程方面的、算法理论方面的等等等等。

  一入数据挖掘深似海,从此奋斗到天明。

  数据挖掘还是很有意思的,你可以用机器的力量、数学的力量理解世界的运行规律。去预测他或者利用你研究到的东西做一些有意思的事情。

数据统计学习的5个基本流程相关推荐

  1. 第一节:论文数据统计学习笔记

    任务说明 任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量: 任务内容:赛题的理解.使用 Pandas 读取数据并进行统计: 任务成果:学习 Pandas 的基础操作: 可参考的学习 ...

  2. 数据清洗之数据统计-学习笔记

    学习笔记:数据的统计 import pandas as pd import numpy as np import os os.chdir(r'F:\CSDN\课程内容\代码和数据') #在线杂货店订单 ...

  3. oracle常用数据统计,学习笔记:Oracle DBMS_STATS常用方法汇总 常用于收集统计oracle...

    天萃荷净 Oracle数据库中DBMS_STATS常用方法(收集oracle数据库.索引.表等信息) –收集Oracle数据库信息命令 EXEC DBMS_STATS.gather_database_ ...

  4. 组队学习笔记Task1:论文数据统计

    数据分析第一次组队学习笔记--Lizzy @Datawhale Task1:论文数据统计 学习主题:论文数量统计(数据统计任务),统计2019年全年,计算机各个方向论文数量: 学习内容:赛题理解.Pa ...

  5. 学术前沿趋势分析_学习_论文数据统计Task1

    论文数据统计学习记录 任务说明 分析说明 1. 获得方法:**==使用python 爬虫爬取数据集==** 2. 这里**==使用正则化加以限制==** 3. 判断数据是否存在 4. json文件的设 ...

  6. 从明日方舟入手数据统计--盒须图

    (封面源自必应,侵删)(多图预警) 由于此文的目的是数据统计学习而非游戏攻略且时间仓促,文中所用数据皆出自题主自己的明日方舟干员库,可能与实际数据有所出入.如需要权威数据请去明日方舟官方wiki 引子 ...

  7. UA MATH574M 统计学习II 高维数据的二元分类

    UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...

  8. 【竞赛算法学习】学术前沿趋势分析-论文数据统计

    任务1:论文数据统计 1.1 任务说明 任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量: 任务内容:赛题的理解.使用 Pandas 读取数据并进行统计: 任务成果:学习 Panda ...

  9. 电商后台、手机端、小程序、H5、电商原型、需求池、产品结构图、接口流程、高保真交互、PRD、布局说明、数据统计、店铺管理、商品管理、财务管理、售后、订单、会员、客服、标签、Axure原型、产品原型

    电商后台.手机端.小程序.H5.电商原型.需求池.产品结构图.接口流程.高保真交互.PRD.布局说明.数据统计.店铺管理.商品管理.财务管理.售后.订单.会员.客服.标签.Axure原型.产品原型.h ...

  10. 产品需求文档、需求结构图、数据字典、全局说明、用例描述、需求描述、逻辑流程、原型设计、页面交互、登录注册、词汇表、数据统计、用户表设计、接口需求、功能清单、业务流程图、Axure原型、prd、文档实例

    产品需求文档.需求结构图.数据字典.全局说明.用例描述.逻辑流程.原型设计.页面交互.登录注册.词汇表.数据统计.用户表设计.接口需求.功能清单.业务流程图.Axure原型.prd.产品需求文档实例 ...

最新文章

  1. 【CVPR 2020】神经网络架构搜索(NAS)论文和代码汇总
  2. Java之数组array和集合list、set、map
  3. 数据分析小白入门指南
  4. oracle 次月,Oracle日期查询:季度、月份、星期等时间信息
  5. OpenCV Mat基础认知感
  6. 【java】java Parallel GC 该怎么看?
  7. redis3.0搭建分布式集群
  8. 课堂练习之购书最低价格
  9. 如何在隐藏视图时使用自动布局移动其他视图?
  10. 制作纯净版WinPE2.0
  11. MJKDZ PS2手柄控制OskarBot小车(二):硬件连接与通信时序
  12. java中console_java的Console类的使用方法及实例
  13. 7年弹指一挥间:iOS演进史
  14. 4G车载信息终端TBOX车联网数据采集智能网联解决方案
  15. oracle erp市场份额,知名oracle ERP排名
  16. Mysql性能指标量化指标
  17. keras开发者文档 10:理解 masking padding
  18. Django框架-Django视图(views)系统
  19. burnintest激活_PassMark BurnInTest Pro v9.0.1006(拷机软件)真正注册版
  20. DRL实战:DDPG A3C | Gym环境中经典控制问题Pendulum-v0

热门文章

  1. AI艺术的发展:让艺术通过人工智能变得更具创造力和人性化
  2. VHDL 实现一位全加器以及 Quartus II 初探
  3. HeadFirstJava——14_数据结构
  4. windows内核——基石
  5. WINDOWS内核对象及其理解
  6. cl.g4r.win index.php,win7 wamp环境配置Oracle数据库连接
  7. IT人见到很开心的RHEL8.6更新-尚文网络xUP楠哥
  8. iif函数 vfp_vfp常用函数
  9. 【系统】VMware虚拟机安装黑苹果系统macOS 12.5详细步骤
  10. 24. cc.Director与资源加载策略