课堂笔记——Data Mining(1)
一、Introduction
……
1、Major Issues in Data Mining
User Interaction
Presentation and visualization of data mining results : Efficiency and Scalability
Diversity of data types: complex types of data; Mining dynamic, networked, and global data repositories
Data mining and society: Privacy-preserving; Social impacts of data mining; Invisible data mining
二、Getting to Know Your Data
1、Type of Data Sets
Record:Relational records; Data matrix; Text documents; Transaction data
2、 Important Characteristics of Structured Data
Dimensionality: Curse of dimensionality;
Sparsity: Only presnce counts;
Resolution: Patterns depend on the scale;
Distribution: Centrality and dispersion
3、Attribute (dimensions features varibles)
types: Nominal; Ordinal; Binary: Symmetric, Asymmetric; Quantity: Interval, Ratio
Discrete Attribute
Continuous Attribute
4、Basic Statistical Descriptions of Data
Data dispersion characterstics: median, max, min, quantiles, outliers, variance
mean:Weighted arithmetic mean; Trimmed mean
5、Measuring the Dispersion of Data
Quartiles:Q1(25th percentile)、Q3(75th percentile)
Inter-quartile range(IQR):最当中的50%
Five number summary :min、Q1,median、Q3、max
6、Graphic Displays of Basic Statistcal Description
7、五种数据分析图
boxplot analysis:
Histogram Analysis
Quantile Plot
Quantile-Quantile Plot(Q-Q Plot)
Scatter Plot
8、 Categorization of visualization methods
Pixel-orirnted:
① The m dimension values of a record are mapped to m pixels at the corresponding positions in the windows
② The color of pixel reflect corresponding values
③ For a dataset of m dimensions, create m windows on the screen, one for each dimension
Parallel Coordinates:用于画k维属性的图。
Geometric projection
Icon-based
Chenoff Faces:
Stick Figures:A 5-piece stick figure
Hierarchical:
Dimensional Stacking
Worlds-within-Worlds
Tree-Map
Infocube
8、Similarity and Dissimilarity
① Data matrix
② Dissimilarity matrix
Proximity Measure of Nominal Attributes
a. Simple matching
b. Use a large number of binary attributes: create a new binary attribute for each
Standardizing Numeric Data: z-score
课堂笔记——Data Mining(1)相关推荐
- The Proposal of Service Oriented Data Mining System for Solving Real-Life Classification--阅读笔记
The Proposal of Service Oriented Data Mining System for Solving Real-Life Classification and Regress ...
- AI公开课:19.04.10颜水成—360副总裁《人工智能:观察与实践》课堂笔记以及个人感悟—191017再次更新
AI公开课:19.04.10颜水成-360副总裁<人工智能:观察与实践>课堂笔记以及个人感悟 导读 颜水成,新加坡国立大学副教授.360集团副总裁.人工智能研究院院长. 颜水成 ...
- AI公开课:19.05.29 浣军-百度大数据实验室主任《AutoDL 自动化深度学习建模的算法和应用》课堂笔记以及个人感悟
AI公开课:19.05.29 浣军 百度大数据实验室主任<AutoDL 自动化深度学习建模的算法和应用>课堂笔记以及个人感悟 导读 浣军博士,汉族,1975年出生于江苏苏州, ...
- AI公开课:19.05.22 Aya Soffer—IBM AI Tech VP《Advanced, scalable, and trusted AI 》课堂笔记以及个人感悟
AI公开课:19.05.22 Aya Soffer-IBM AI Tech VP<Advanced, scalable, and trusted AI >课堂笔记以及个人感悟 Introd ...
- 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics
数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...
- 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么
数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...
- 计算机网络微课堂笔记
计算机网络 计算机网络微课堂 笔记总结 视频地址:https://www.bilibili.com/video/BV1c4411d7jb 文章目录 计算机网络 第一章 概述 1.1 计算机网络在信息时 ...
- 机器学习课堂笔记-作业二基本实现思路
机器学习课堂笔记-作业二基本实现思路 作业2-年收入判断 项目描述 数据集介绍 项目要求 数据准备 环境配置/安装 事先说明 一.概率生成模型 1. 读取数据 整理训练数据 2. 协方差矩阵计算 手动 ...
- 【考研计算机组成原理】课堂笔记目录汇总——知识点清晰
文章目录: 一:基础笔记 二:强化笔记 三:冲刺笔记 一:基础笔记 [考研计算机组成原理]课堂笔记1 第一章 计算机系统概论Introduction to computer systems [考研计算 ...
最新文章
- 002:用Python设计第一个游戏
- .NET 中使用 Mutex 进行跨越进程边界的同步 - walterlv
- 关于ios app发布的中间证书的要求--解决WWDR证书过期方案
- 深入研究嵌入式操作系统的绝佳教材
- Oracle免客户端InstantClient安装使用
- powermock模拟对象_使用PowerMock模拟构造函数
- Highcharts:小案例,自定义图片下载路径,中文乱码的解决办法(不足之处,求指点)。...
- 元素跟随鼠标旋转,未待完续。。。。
- 3.0-vim编辑器和bash条件测试
- 使用 Postman 调试 HTTP(s) 接口
- Windows WMIC 命令使用详解 (附实例)
- linux下载win软件,Linux大神都知道的下载工具,其实Windows平台也能用
- Django2.1文档
- 论文阅读:An Empirical Study of Spatial Attention Mechanisms in Deep Networks
- 华三服务器管理口地址_h3c 的交换机怎样设置管理地址?
- 利用Python为女神制作一个专属网站
- Ultimaker荣获领先的IDC创新者荣誉
- 智慧庆安之创新平安工程
- foobar 2000适合用来听无损音乐的原因
- 旅行的意义:写给不爱旅行的你
热门文章
- 众辰变频器参数设定_变频器被加密了怎么办?这20个品牌都可以解密
- 求字典key的和python_python怎么将字典key相同的value值, 合并
- freebsd java 能用吗_在FreeBSD 4.9下安装JAVA环境
- Java开发领域的大牛有哪些
- matlab保存数据到excel_Excel意外退出数据未保存?这个方法可以帮你找回所有数据...
- 春考天津计算机知识点,天津春季高考计算机模拟试题
- lua正则替换_lua 字符串 正则表达式 转义 特殊字符
- linux通过不同端口访问,linux下两个tomcat通过不同端口访问不同项目
- 【LeetCode笔记】141. 环形链表(Java、快慢指针、链表)
- python 画图 线标注_最简洁的Python时间序列可视化实现