

1、Major Issues in Data Mining

User Interaction

Presentation and visualization of data mining results : Efficiency and Scalability

Diversity of data types: complex types of data; Mining dynamic, networked, and global data repositories

Data mining and society: Privacy-preserving; Social impacts of data mining; Invisible data mining

二、Getting to Know Your Data

1、Type of Data Sets

Record:Relational records; Data matrix; Text documents; Transaction data

2、 Important Characteristics of Structured Data

Dimensionality: Curse of dimensionality;

Sparsity: Only presnce counts;

Resolution: Patterns depend on the scale;

Distribution: Centrality and dispersion

3、Attribute (dimensions features varibles)

types: Nominal; Ordinal; Binary: Symmetric, Asymmetric; Quantity: Interval, Ratio

Discrete Attribute

Continuous Attribute

4、Basic Statistical Descriptions of Data

Data dispersion characterstics: median, max, min, quantiles, outliers, variance

mean:Weighted arithmetic mean; Trimmed mean

5、Measuring the Dispersion of Data

Quartiles:Q1(25th percentile)、Q3(75th percentile)

Inter-quartile range(IQR):最当中的50%

Five number summary :min、Q1,median、Q3、max

6、Graphic Displays of Basic Statistcal Description 


boxplot analysis:

Histogram Analysis

Quantile Plot

Quantile-Quantile Plot(Q-Q Plot)

Scatter Plot

8、 Categorization of visualization methods


① The m dimension values of a record are mapped to m pixels at the corresponding positions in the windows

② The color of pixel reflect corresponding values

③ For  a dataset of m dimensions, create m windows on the screen, one for each dimension

Parallel Coordinates:用于画k维属性的图。

Geometric projection


Chenoff Faces:

Stick Figures:A 5-piece stick figure


Dimensional Stacking




8、Similarity and  Dissimilarity

① Data matrix

② Dissimilarity matrix

Proximity Measure of Nominal Attributes

a. Simple matching

b. Use a large number of binary attributes: create a new binary attribute for each

Standardizing Numeric Data: z-score

课堂笔记——Data Mining(1)相关推荐

  1. The Proposal of Service Oriented Data Mining System for Solving Real-Life Classification--阅读笔记

    The Proposal of Service Oriented Data Mining System for Solving Real-Life Classification and Regress ...

  2. AI公开课:19.04.10颜水成—360副总裁《人工智能:观察与实践》课堂笔记以及个人感悟—191017再次更新

    AI公开课:19.04.10颜水成-360副总裁<人工智能:观察与实践>课堂笔记以及个人感悟 导读       颜水成,新加坡国立大学副教授.360集团副总裁.人工智能研究院院长. 颜水成 ...

  3. AI公开课:19.05.29 浣军-百度大数据实验室主任《AutoDL 自动化深度学习建模的算法和应用》课堂笔记以及个人感悟

    AI公开课:19.05.29 浣军 百度大数据实验室主任<AutoDL 自动化深度学习建模的算法和应用>课堂笔记以及个人感悟 导读        浣军博士,汉族,1975年出生于江苏苏州, ...

  4. AI公开课:19.05.22 Aya Soffer—IBM AI Tech VP《Advanced, scalable, and trusted AI 》课堂笔记以及个人感悟

    AI公开课:19.05.22 Aya Soffer-IBM AI Tech VP<Advanced, scalable, and trusted AI >课堂笔记以及个人感悟 Introd ...

  5. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  6. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  7. 计算机网络微课堂笔记

    计算机网络 计算机网络微课堂 笔记总结 视频地址:https://www.bilibili.com/video/BV1c4411d7jb 文章目录 计算机网络 第一章 概述 1.1 计算机网络在信息时 ...

  8. 机器学习课堂笔记-作业二基本实现思路

    机器学习课堂笔记-作业二基本实现思路 作业2-年收入判断 项目描述 数据集介绍 项目要求 数据准备 环境配置/安装 事先说明 一.概率生成模型 1. 读取数据 整理训练数据 2. 协方差矩阵计算 手动 ...

  9. 【考研计算机组成原理】课堂笔记目录汇总——知识点清晰

    文章目录: 一:基础笔记 二:强化笔记 三:冲刺笔记 一:基础笔记 [考研计算机组成原理]课堂笔记1 第一章 计算机系统概论Introduction to computer systems [考研计算 ...


  1. 002:用Python设计第一个游戏
  2. .NET 中使用 Mutex 进行跨越进程边界的同步 - walterlv
  3. 关于ios app发布的中间证书的要求--解决WWDR证书过期方案
  4. 深入研究嵌入式操作系统的绝佳教材
  5. Oracle免客户端InstantClient安装使用
  6. powermock模拟对象_使用PowerMock模拟构造函数
  7. Highcharts:小案例,自定义图片下载路径,中文乱码的解决办法(不足之处,求指点)。...
  8. 元素跟随鼠标旋转,未待完续。。。。
  9. 3.0-vim编辑器和bash条件测试
  10. 使用 Postman 调试 HTTP(s) 接口
  11. Windows WMIC 命令使用详解 (附实例)
  12. linux下载win软件,Linux大神都知道的下载工具,其实Windows平台也能用
  13. Django2.1文档
  14. 论文阅读:An Empirical Study of Spatial Attention Mechanisms in Deep Networks
  15. 华三服务器管理口地址_h3c 的交换机怎样设置管理地址?
  16. 利用Python为女神制作一个专属网站
  17. Ultimaker荣获领先的IDC创新者荣誉
  18. 智慧庆安之创新平安工程
  19. foobar 2000适合用来听无损音乐的原因
  20. 旅行的意义:写给不爱旅行的你


  1. 众辰变频器参数设定_变频器被加密了怎么办?这20个品牌都可以解密
  2. 求字典key的和python_python怎么将字典key相同的value值, 合并
  3. freebsd java 能用吗_在FreeBSD 4.9下安装JAVA环境
  4. Java开发领域的大牛有哪些
  5. matlab保存数据到excel_Excel意外退出数据未保存?这个方法可以帮你找回所有数据...
  6. 春考天津计算机知识点,天津春季高考计算机模拟试题
  7. lua正则替换_lua 字符串 正则表达式 转义 特殊字符
  8. linux通过不同端口访问,linux下两个tomcat通过不同端口访问不同项目
  9. 【LeetCode笔记】141. 环形链表(Java、快慢指针、链表)
  10. python 画图 线标注_最简洁的Python时间序列可视化实现