数据挖掘的建模过程

  1. 定义挖掘目标
    明确系统完成后想要达成什么样的效果。
    我们需要分析应用领域,了解相关领域的情况,熟悉背景知识,弄清用户需求。
  2. 数据取样
    从业务系统中抽取一个与挖掘目标相关的样本数据子集。
    抽取数据的标准,一是相关性,二是可靠性,三是有效性。
    衡量取样数据质量的标准如下:
    1)资料完整无缺,各类指标项齐全。
    2)数据准确无误,反映的都是正常(而不是异常)状态下的水平。
  3. 数据探索
    检验样本是否达到我们原来设想的要求,对数据进行探索,审核和必要的加工处理。
    数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。
    数据探索主要包括:异常值分析、缺失值分析,相关分析和周期性分析
  4. 数据预处理
    当数据维度过大,如何进行将未处理、缺失值处理等都是数据预处理要解决的问题。
    由于采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。
    数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。
  5. 挖掘建模
  6. 这是数据挖掘工作的核心环节。
    考虑本次建模属于数据挖掘应用中的那类问题(分类,聚类,关联规则,时许模式或者智能推荐),选用哪种算法进行模型构建。
  7. 模型评价
  8. 从这些模型中自动找出一个最好的模型,还要根据业务对模型进行解释和应用。

数据挖掘建模工具
Python
Python是一种面向对象、解释型计算机程序设计语言,它拥有高效的高级数据结构,并且能够用简单而又高效的方式进行面向对象编程。
在数据挖掘领域,它提供了众多扩展库。例如:
科学计算扩展库NumPy、Scipy和matplotlib,它们分别为python提供了快速数组处理、数值运算以及绘图功能。
机器学习相关的Sklearn类库,它提供了完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测、模型分析等。
总的来讲,python是一门比较适合数据挖掘的语言。

Python数据挖掘过程相关推荐

  1. python数据挖掘学习笔记】十三.WordCloud词云配置过程及词频分析

    #2018-03-28 09:59:40 March Wednesday the 13 week, the 087 day SZ SSMR 11,12因为涉及到数据库被我暂时放弃了 python数据挖 ...

  2. 【python数据挖掘课程】十三.WordCloud词云配置过程及词频分析

    这篇文章是学习了老曹的微信直播,感觉WordCloud对我的<Python数据挖掘课程>非常有帮助,作者学习后准备下次上课分享给我的学生,让他们结合词频分析来体会下词云.希望这篇基础文章对 ...

  3. 带你入门Python数据挖掘与机器学习(附代码、实例)

    作者:韦玮 来源:Python爱好者社区 本文共7800字,建议阅读10+分钟. 本文结合代码实例待你上手python数据挖掘和机器学习技术. 本文包含了五个知识点: 1. 数据挖掘与机器学习技术简介 ...

  4. python数据挖掘是什么_python数据挖掘是什么

    数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学.人工智能.机器学习等方法,挖掘出未知的.且有价值的信 息和知识的过程. python数据挖掘常用模块 numpy模块:用于 ...

  5. 编程没基础学python多长时间-零基础学Python的过程有多难?需要多久?

    Python是一门简单高效,应用范围广泛的计算机语言.先我们要知道Python已经算是一门相对其他编程语言而言,最适合零基础新手学习的开发语言,换句话说,如果连Python都学不进去就不要考虑进入IT ...

  6. 2019年python就业前景_2019年Python数据挖掘就业前景前瞻

    Python语言的崛起让大家对web.爬虫.数据分析.数据挖掘等十分感兴趣.数据挖掘就业前景怎么样?关于这个问题的回答,大家首先要知道什么是数据挖掘.所谓数据挖掘就是指从数据库的大量数据中揭示出隐含的 ...

  7. 【python数据挖掘课程】二十二.Basemap地图包安装入门及基础知识讲解

    这是<Python数据挖掘课程>系列文章,也是我上课内容及书籍中的一个案例.本文主要讲述Matplotlib子包,负责地图绘制,即Basemap扩展包.在做数据挖掘或可视化分析时,常常需要 ...

  8. 《Python数据挖掘:概念、方法与实践》——1.5节小结

    本节书摘来自华章社区<Python数据挖掘:概念.方法与实践>一书中的第1章,第1.5节小结,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问云栖社区" ...

  9. 从0到1详解数据挖掘过程

    导读:数据挖掘过程包含数据清洗.特征提取.算法设计等多个阶段,本文将讨论这些阶段. 作者:查鲁·C.阿加沃尔(Charu C. Aggarwal) 来源:大数据DT(ID:hzdashuju) 01 ...

最新文章

  1. docker redis 配置文件_基于Docker搭建Redis一主两从三哨兵
  2. Android之Tab分页标签的实现方法--------采用ActivityGroup和GridView的结合
  3. vsftpd.conf配置范例
  4. 神经网络中,正则化L1与L2的区别、如何选择以及代码验证
  5. C/C++中rand()函数产生随机数的用法
  6. 移动端怎么让底部固定_移动端排名应该怎么做?两种匹配移动端实战排名干货分享!...
  7. 【C语言】1162: 循环移动(指针专题)(初识stdlib.h(malloc))
  8. Django 文件上传与下载的相关问题
  9. 品牌直播启动的三个关键点
  10. ASCII、 Unicode 和 UTF8
  11. 1.从Paxos到Zookeeper分布式一致性原理与实践---分布式架构
  12. 小米笔记本PRO BIOS忘记密码后重置教程
  13. 信创办公--基于WPS的Word最佳实践系列(修改标题样式快速实现章前分页效果)
  14. word文件太大如何压缩到最小?
  15. 【CCPC】2022年绵阳站部分题解(ACGM)
  16. 普及练习场 深度优先搜索 八皇后
  17. OSPF单区域配置【eNSP实现】
  18. bandit agent下棋AI(python编写) 通过强化学习RL 使用numpy
  19. 【CV】FPN:用于目标检测的特征金字塔网络
  20. Android | 说说Presentation

热门文章

  1. The Matrix(黑客帝国)
  2. Ubuntu下的PROXY设置
  3. 知识备忘phpcms 简单解析一 数据表字段
  4. Saturn简介及重要特性
  5. 解决word 2016中不能加载EndNote x7
  6. 实现IDApython自动化加载模块PDB
  7. CSS3综合练习,导航菜单的制作
  8. 云原生钻石课程 | 第2课:Kubernetes 技术架构深度剖析
  9. Visual Studio 2019 STK11.6 C#(WPF)二次开发
  10. 【5G核心网】5G Non 3GPP接入-N3IWF