前言

无论是传统行业,还是互联网行业。掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所以说数据是个全新的视角。

当我们谈论数据分析的时候,都在讲些什么呢?这里可以把数据分析分成三个重要的组成部分。

数据采集:它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据源。

数据挖掘:它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI

数据可视化:它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析的结果。

在这个专栏中,我们主要学习第二个部分:数据挖掘算法,一定程度上,也可以称为机器学习算法。

一、数据挖掘的基本流程

数据挖掘的过程可以分成以下 6 个步骤:

商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。

数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。

数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。

模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。

模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。

上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。

简易版

二、算法分类

2.1 按照不同的目的,将常见的算法分成如下几类:

分类算法:k-近邻算法(KNN)、决策树(ID3,C4.5,CART)、朴素贝叶斯(Naive Bayes)、随机森林、逻辑回归、SVM、Adaboost、CART

回归算法:线性回归、岭回归

聚类算法:K-Means、EM

关联分析:Apriori

连接分析:PageRank

2.2 也可以分成:监督学习(supervised learning)无监督学习(unsupervised learning)

在具体介绍前,先简述一下数据集的构成,即:特征值 + 目标值;但有些数据集是可以没有目标值的。

根据有无目标值,就可以分为:监督学习与无监督学习。

监督学习,输入数据是由输入特征值和目标值所组成。输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称为分类)

分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归 等;

回归:线性回归、岭回归 等;

无监督学习,输入数据仅是由特征值所组成;如:聚类 k-means 等。

三、特征工程

在正式介绍特征工程前,先来看看以下几个问题:

Q1:为什么需要特征工程(Feature Engineering)?

业界广泛流传,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

Q2:什么是特征工程?

特征工程,是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程Q3:特征工程的位置与数据比较

  • pandas:数据清洗、数据处理;
  • sklearn:对于特征的处理提供了强大的接口。

Q4:特征工程主要包含的内容

特征抽取特征预处理特征降维

在正式介绍特征工程之前,先来简单介绍下数据集:

3.1 可用数据集

Kaggle网址:https://www.kaggle.com/datasets

  • 特点:大数据竞赛平台、数据量巨大;

UCI数据集网址:http://archive.ics.uci.edu/ml/

  • 特点:收录了360个数据集,覆盖科学、生活、经济等领域,数据量几十万;

scikit-learn网址:https://scikit-learn.org/stable/datasets/index.html#datasets

  • 特点:数据量较小、方便学习;

......

3.1.1 Scikit-learn 工具介绍

Python语言的机器学习工具,包括许多知名的机器学习算法的实现,文档完善,容易上手,丰富的API。

# 安装包
pip install Scikit-learn

包含内容:

3.1.2 获取sklearn自带的数据集API

3.1.3 划分数据集

数据集会划分为两个部分:

  • 训练数据:用于训练,构建模型;
  • 测试数据:在模型检验时使用,用于评估模型是否有效;

划分比例:测试集一般在20%-30%,不传参,默认25%

API剖析
数据集划分案例

本篇,先写到这里吧!下一篇:特征工程介绍;

数据挖掘算法_算法篇(01) 数据挖掘算法初探相关推荐

  1. adam算法_关于损失函数和优化算法,看这一篇就够了

    在进行神经网络训练时,很多同学都不太注重损失函数图和损失函数的优化算法的理解,造成的结果就是:看起来效果不错,但是不知道训练的参数是否合理,也不知道有没有进一步优化的空间,也不知道初始点的选择是否恰当 ...

  2. k近邻算法_【白话机器学习】算法理论+实战之K近邻算法

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支 ...

  3. 图像 异常检测算法_检测图像异常的算法

    图像 异常检测算法 Modern applications are generating enormous amounts of image data. And in the last years, ...

  4. k均值算法 二分k均值算法_如何获得K均值算法面试问题

    k均值算法 二分k均值算法 数据科学访谈 (Data Science Interviews) KMeans is one of the most common and important cluste ...

  5. 图像重建算法_基于深度学习图像重建算法(DLIR)对CT图像质量和剂量优化的研究:体模实验...

    编者按:今年Joël Greffier博士等在European Radiology (IF 4.1)上发表了题为<Image quality and dose reduction opportu ...

  6. 背包算法轻松搞定——01背包算法、部分背包算法

    这篇文章过程讲得很详细,一文搞懂(点击看原文) 不懂之前觉得很难理解,觉得很复杂,其实没有必要.因为只要懂动态规划就可以很轻松搞定0-1背包算法(部分背包算法更简单,排序即可).之前看了很多篇文章都觉 ...

  7. 最小径集的算法_机器学习的利器——集成算法

    最近在打算法竞赛的时候用到了集成算法,效果还不错,索性就总结了一篇集成算法的文章,希望能帮到正在转行的数据分析师们. 集成算法核心思想 集成算法的核心思想是通过构建并结合多个学习器来完成学习任务,也就 ...

  8. 标签传播算法_复杂网络社区发现算法汇总

    社区发现 这篇文章汇总了一些常见的社区发现概念和算法,包括 Modularity Q Fast Unfolding(Louvain Algorithm) LPA SLPA KL算法 GN算法 社区: ...

  9. 高效 遍历 算法_一文学会回溯算法解题技巧

    (给算法爱好者加星标,修炼编程内功) 来源:码海 前言 上文我们学习了深度优先搜索和广度优先搜索,相信大家对这两者的算法有了比较清楚的认识,值得一提的,深度优先算法用到了回溯的算法思想,这个算法虽然相 ...

  10. java常见的hash算法_常见的哈希算法和用途

    写在前面 哈希算法经常会被用到,比如我们Go里面的map,Java的HashMap,目前最流行的缓存Redis都大量用到了哈希算法.它们支持把很多类型的数据进行哈希计算,我们实际使用的时候并不用考虑哈 ...

最新文章

  1. 软件技术基础_软件技术(游戏软件开发)专业介绍
  2. 2019年陕西高考分数线出炉
  3. 纯属恶搞--javascript的 c#用法
  4. 什么叫轻量瓷_为什么说陶瓷是华夏文明的徽章?
  5. 随时随地编程!腾讯云 1 亿元战略投资企业级研发管理平台 CODING
  6. nuke 11 for mac(视频后期合成软件)破解教程
  7. 解决安卓手机DNS被污染(刷新手机DNS)
  8. avcap 跨平台摄像头视频捕捉
  9. 网站SEO优化知识梳理
  10. 人民币金额由阿拉伯数值转换成汉字大写数值的函数
  11. ELK环境部署(一)--基础环境配置
  12. C#调用obs studio 二次开发 源码分析 编译
  13. 正则表达式匹配标签及其中的内容
  14. synergy跨平台键鼠共享
  15. C++11 auto关键字的用法
  16. 小白学数据结构——零、算法初步(算法分类及最大子数组小试牛刀)
  17. Window Git配置
  18. html的浮动字幕怎么改大小,请问怎么调整字幕字体的大小和特效??
  19. 《人人都是产品经理》总结
  20. 李庆丰:在微博九年的挑战与挣扎

热门文章

  1. 内部收益率irr_国寿鑫耀东方年金险,内部收益率IRR测算
  2. 大数据在各个行业中的应用_三维设计广泛应用各个行业
  3. 南京工程学院计算机组成原理第二版答案,南大__计算机组成原理第二次作业
  4. 3000米排名预测(全排列+判断)
  5. How Many Answers Are Wrong HDU - 3038(带权并查集)
  6. Minimum Inversion Number HDU - 1394(权值线段树/树状数组)
  7. qt打包rpm时候先安装其他软件_云计算学习路线图素材课件,Linux中软件安装的方式...
  8. opencv java库_【OpenCV】java资源
  9. mysql版本 hibernate_Mysql 不同版本 说明
  10. codeblocks怎么用已封装的类_mitoq 在新西兰用着怎么样?已入手mitoq,我的感受