写在前面:此系列文章以《R语言数据挖掘》为主线,记录自己学习数据挖掘和算法的过程。

还引用了大量前辈的博客总结,先谢过。

第一章、预备知识

1.大数据

    2.数据源

    3.数据挖掘

        数据挖掘算法与数据结构算法对比: https://www.cnblogs.com/Alear/p/10840230.html

数据挖掘领域十大经典算法  https://blog.csdn.net/fuqiuai/article/category/7488244

3.1特征提取

频繁项集:找出一堆项目中出现最为频繁、关系最为密切的一个子集。

相似项:一对数据集,他们拥有较大比例的共同元素。

3.2数据挖掘目标

使相同类中的点彼此之间距离较小,而不同的类中的点彼此之间距离较大。

3.3数据挖掘过程

CRISP-DM (Cross-industry Standard Process for Data Mining)跨行业数据挖掘标准过程

SEMMA(Sample,Explore,Modify,Model,Assess)采样、探索、修正、建模、评估

4.社交挖掘

    5.文本挖掘

    6.网络数据挖掘

    7.R语言优缺点

    8.统计学

8.1统计学与数据挖掘

统计模型用来总结数据集合,也可以用于验证数据挖掘结果

8.2统计学与机器学习

统计检验用来验证机器学习模型和评估机器学习算法,机器学习技术与标准统计技术可以有机结合。

8.3数据挖掘中统计学的局限性

在试图提取并不真正存在于数据中的信息时可能会犯错误。关键名词:Bonferroni原则

9.机器学习

9.1机器学习是什么

应用于机器学习算法的数据集称为训练集,它由一组成对的数据(x,y)构成,称为训练样本。

机器学习过程的目的就是发现一个函数y=f(x),他能最好地预测与每一个x值相关联的y值。

9.2机器学习方法

决策树

感知器:一般是应用于向量x={x1,x2,...,xn}分量的阈值函数

神经网络:这些是有感知器的非循环网络,某些感知器的输出用作其他感知器的输入

基于实例的学习:此方法使用整个训练集来表示函数f

支持向量机:该类的结果是一个分类器,它对未知数更准确。

9.3机器学习架构

训练和测试、批处理与在线学习、特征选择、创建训练集

10.数据属性与描述

10.1数据描述

集中趋势的度量、数据的离散程度的度量(全距、四分位数、四分位数间距等)

11.数据清洗

数据清洗试图填补缺失值、发现异常值同时平滑噪声、修正数据中的不一致性。数据清洗通常是一个两步迭代的过程,由差异检测和数据变换构成。

12.数据集成

将多个数据源中的数据合并,形成一个一致的数据存储

13.数据降维

13.1特征值和特征向量

13.2主成分分析PCA

13.3奇异值分解SVD

13.4CUR分解

14.数据变化与离散化

把数据格式变成一些数据便于适合数据挖掘算法的格式,以便作为数据处理前特定数据挖掘算法的输入。

15.数据可视化

《R语言数据挖掘》读书笔记:一、预备知识相关推荐

  1. R语言实战-读书笔记(第1 章 R语言介绍)

    *R语言实战所有学习笔记,如涉及侵权,请联系撤稿.* **标题号与书中标题号对应** R语言实战 第1章 R语言介绍     1.2 R的获取与安装         R可以在CRAN(Comprehe ...

  2. R语言实战-读书笔记整理

    k 不同的叫法 observation + variable/ record + field/ example + attribute 数据集的概念 建立数据的概念  数值型 字符型 逻辑型 实例标识 ...

  3. R语言实战-读书笔记 (第8章 回归)

    *********************************** 与导图结合的脚本文件: 创建脚本:文件--新建脚本程序,将以下代码复制粘贴至脚本内,选中右键运行当前或所选代码. ##回归## ...

  4. R语言实战读书笔记(八)回归

    简单线性:用一个量化验的解释变量预测一个量化的响应变量 多项式:用一个量化的解决变量预测一个量化的响应变量,模型的关系是n阶多项式 多元线性:用两个或多个量化的解释变量预测一个量化的响应变量 多变量: ...

  5. R语言实战读书笔记(五)高级数据管理

    5.2.1 数据函数 abs: sqrt: ceiling:求不小于x的最小整数 floor:求不大于x的最大整数 trunc:向0的方向截取x中的整数部分 round:将x舍入为指定位的小数 sig ...

  6. R语言实战读书笔记(四)基本数据管理

    4.2 创建新变量 几个运算符: ^或**:求幂 x%%y:求余 x%/%y:整数除 4.3 变量的重编码 with(): within():可以修改数据框 4.4 变量重命名 包reshape中有个 ...

  7. R语言笔记-R语言数据挖掘方法及应用--1

    参考-<R语言数据挖掘方法及应用>-薛薇,学习笔记 --1---------------------------------------------- search() 当前工作区间加载了 ...

  8. Go语言实战读书笔记

    2019独角兽企业重金招聘Python工程师标准>>> Go语言实战读书笔记 第二章 通道(channel).映射(map)和切片(slice)是引用类型.引用类型的对象需要使用ma ...

  9. 《R语言数据挖掘》----1.15 结果可视化

    本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.15节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云 ...

最新文章

  1. Spring-----projects-----概述
  2. node开发环境(mac)和线上环境(linux)搭建
  3. Python-OpenCV 杂项(二): 鼠标事件
  4. 不错php文件缓存类,一个不错的PHP文件页面缓存类
  5. JS魔法堂之实战:纯前端的图片预览
  6. python print tab_python print tab_Python 字符串 expandtabs() 方法
  7. 文件目录权限(chmod、chown、chgrp)umask、隐藏权限(lsattr、chattr)
  8. 康托展开、康托逆展开原理
  9. CuteFTP试用期后继续免费使用
  10. JDK动态代理(通俗白话)
  11. 一键seo提交收录_做SEO优化长尾关键词排名你需要这些网站收录提交入口资源
  12. ANT:修改测试报告的样式jmeter-results-shanhe-me.xsl
  13. LSD_SLAM编译运行
  14. Android8.1 修改音量级别和默认音量
  15. 最详细新版网课联盟27刷网课平台源码+安装教程+最新模板+下载地址
  16. druid 查条数_Druid.io查询分析
  17. iOS第三方登录之Twitter(登录,获取用户信息)含demo
  18. 信息时代的管理信息系统
  19. 泡面与面包,我的午餐
  20. java暗黑再临-战神之怒_《暗黑破坏神-黑暗再临》暴力+召唤:德鲁伊新人单通攻略...

热门文章

  1. 计算机二级答题题库云计算,2018年计算机二级考试MSOffice试题及答案三
  2. 对称、群论与魔术(十一)——魔术《百变箭头》等和系列总结
  3. 【GitHub】GitHub桌面版(GitHubDesktop)安装加汉化教程
  4. 从串口驱动到Linux驱动模型
  5. 运算放大器选择经验总结分享
  6. 【转】2013年第一季度最具影响力的CRM排名
  7. leetcode—贪心
  8. 打工人必备,850多份合同范文模板合集免费下载
  9. vmospro启动黑屏_vmosproroot权限启动器下载-vmospro步数倍率修改器v1.1.25 免费版-007游戏网...
  10. 【技术美术图形部分】实时阴影:光栅化与光线追踪