数据对象与属性类型

  数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售;在医疗数据库中,对象可以是患者;在大学的数据库中,对象可以是学生、教授和课程。
   通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中,则它们是数据元组。也就是说,数据库的行对应于数据对象,而列对应于属性。本节,我们定义属性,并且考察各种属性类型。

什么是属性?

    属性(attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维( dimension)、特征(feature)和变量(variable)可以互换地使用。术语“维”一般用在数据仓库中。机器学习文献更倾向于使用术语“特征”,而统计学家则更愿意使用术语“变量”。数据挖掘和数据库的专业人士一般使用术语“属性”,我们也使用术语“属性”。例如,描述顾客对象的属性可能包括customer_ ID , nam。和address。给定属性的观测值称做观测。用来描述一个给定对象的一组属性称做属性向量(或特征向量)。涉及一个属性(或变量)的数据分布称做单变量的(univariate )。双变量(bivariate)分布涉及两个属性,等等。
    一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的或数值的。下面我们介绍每种类型。

属性类型:


- 标称属性

    标称意味“与名称相关”。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical )。这些值不必具有有意义的序。在计算机科学中,这些值也被看做是枚举的(enumeration )

例: 假设hair_ color(头发颜色)和marital_ status(婚姻状况)是两个描述人的属性。在我们的应用中,hair color的可能值为黑色、棕色、淡黄色、红色、赤揭色、灰色和白色。属性。aritaL_ status的取值可以是单身、已婚、离异和丧偶。hair_ color和maritalstatus都是标称属性。标称属性的另一个例子是occupation(职业),具有值教师、牙医、程序员、农民等。

   因为标称属性值并不具有有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值(平均值)或中位数(中值)没有意义。然而,一件有意义的事情是使该属性最常出现的值,这个值称为众数(mode ),是一种中心趋势度量。


- 二元属性

   二元属性(binary attribute)是一种标称属性,只有两个类别或状态:0或I,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于true。和false的话。

例: 倘若属性:cooker描述患者对象,1表示患者抽烟,0表示患者不抽烟。类似地,假设患者进行具有两种可能结果的医学化验。属性medical_ test是二元的,其中值1表示患者的化验结果为阳性,0表示结果为阴性。


- 序数属性

   序数属性(ordinal attribute)是一种属性,其可能的值之间具有有意义的序或秩评定( ranking ),但是相继值之间的差是未知的。

例: 假设drink_ size对应于快食店供应的饮料量。这个标称属性具有3个可能的值—小、中、大。这些值具有有意义的先后次序(对应于递增的饮料量)。然而,例如我们不能说“大”比“中”大多少。序数属性的其他例子包括grade(成绩,例如A+, A, A一、B+等)和professional_ rank(职位)。职位可以按顺序枚举,如对于教师有助教、讲师、副教授和教授,对于军阶有列兵、一等兵、专业军士、下士、中士等。
   对于记录不能客观度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。在一项调查中,作为顾客,参与者被要求评定他们的满意程度。顾客的满意巨叭.才片1度有如下序数类别:0—很不满意,1—不太满意,2—中性,3—满意,4满意。

注意,标称、二元和序数属性都是定性的。即,它们描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常是代表类别的词。如果使用整数,则它们代表类别的计算机编码,而不是可测量的量(例如,0表示小杯饮料,1表示中号杯,2表示大杯)。

-数值属性

   数值属性(numeric attribute)是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

  • 1.区间标度属性

   区间标度(interval- scaled)属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。因此,除了值的秩评定之外,这种属性允许我们比较和定量评估值之间的差。

例: temperature(温度)属性是区间标度的。假设我们有许多天的室外温度值,其中每天是一个对象。把这些值排序,则我们得到这些对象关于温度的秩评定。此外,我们还可以量化不同值之间的差。例如,温度20℃比5℃高出15 0C。日历日期是另一个例子。例如,2002年与2010年相差8年。

  • 2.比率标度属性

   比率标度(ratio- scaled)属性是具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。此外,这些值是有序的,因此我们可以计算值之间的差,也能计算均值、中位数和众数。

例: 不像摄氏和华氏温度,开氏温标(K)具有绝对零点(00K =-273. 150C ):在该点,构成物质的粒子具有零动能。比率标度属性的其他例子包括诸如工作年限(例如,对象是雇员)和字数(对象是文档)等计数属性。其他例子包括度量重量、高度、速度和货币量(例如,100美元比1美元富有100倍)的属性。.


-离散属性与连续属性

   我们已经把属性分为标称、二元、序数和数值类型。可以用许多方法来组织属性类型,这些类型不是互斥的。
   机器学习领域开发的分类算法通常把属性分成离散的或连续的。每种类型都可以用不同的方法处理。离散属性具有有限或无限可数个值,可以用或不用整数表示。属性hair color,smoker, medical一 test和drink size都有有限个值,因此是离散的。注意,离散属性可以具有数值值。如对于二元属性取0和1,对一于年龄属性取0到110。如果一个属性可能的值集合是无限的,但是可以建立一个与自然数的一一对应,则这个属性是无限可数的。例如,属性customerwe ID是无限可数的。顾客数量是无限增长的,但事实上实际的值集合是可数的(可以建立这些值与整数集合的一一对应)。邮政编码是另一个例子。
   如果属性不是离散的,则它是连续的。在文献中,术语“数值属性”与“连续属性”通常可以互换地使用。(这可能令人困惑,因为在经典意义下,连续值是实数,而数值值可以是整数或实数。)在实践中,实数值用有限位数字表示。连续属性一般用浮点变量表示。

本文来源:《数据挖掘概念与技术》

转载于:https://www.cnblogs.com/DeepRunning/p/9205900.html

什么事数据对象以及属性分为什么类型?相关推荐

  1. 数据对象的属性(特征)类型

    在数据挖掘/机器学习过程中,当我们在对属性进行处理时,分清属性的类型是有必要的,不同类型的属性需要使用不同的处理方法,如在对对象的标识列进行处理时,对该列进行数学运算是没有意义的,因为对象的标识列一般 ...

  2. 五、数据对象和属性类型

    1.数据对象 数据集由数据对象组成一个数据对象代表一个实体.通常数据对象用属性描述,又称样本.实例或数据点. 销售数据库中 :对象可以顾客.商品或销售: 医疗数据库中,对象可以是医生或患者: 大学数据 ...

  3. 数据对象、属性和相似性

    文章目录 数据对象.属性和相似性 数据对象 属性 属性类型 数据对象相似性.相异性 数据对象.属性和相似性 数据对象 别名:样本.实例.数据点 或 对象 一般使用属性对应属性值来描述数据对象 哈士奇: ...

  4. FPGA之道(25)VHDL数据类型转换函数与数据对象的属性

    文章目录 数据类型转换函数 数据对象的属性 数值类属性 Signal属性 数据类型转换函数 在VHDL的众多数据类型中,归根到底,它们都是要用二进制数来表示的,所以它们之间几乎都是可以相互转换的.在有 ...

  5. 对象类型数据和对象实例数据_服务数据对象简介

    简而言之,SDO是用于数据应用程序开发的框架,其中包括体系结构和API. SDO执行以下操作: 简化J2EE数据编程模型 在面向服务的体系结构(SOA)中抽象数据 统一数据应用程序开发 支持和集成XM ...

  6. 服务数据对象简介(Java 环境中的下一代数据编程)

    如果您认为 J2EE 编程模型和 API 迫使开发人员在特定于技术的配置.编程和调试上浪费了太多的时间,那么欢迎您阅读本文.很多 Java™ 开发人员都怀疑如何能以统一的方式访问异构的数据,并对各种提 ...

  7. [转载]服务数据对象简介

    服务数据对象简介 如果您认为 J2EE 编程模型和 API 迫使开发人员在特定于技术的配置.编程和调试上浪费了太多的时间,那么欢迎您阅读本文.很多 Java™ 开发人员都怀疑如何能以统一的方式访问异构 ...

  8. 小程序 | 小程序中常用的事件 + 事件对象的属性列表 +小程序事件传参 + 小程序全局配置 + 小程序页面配置 + 小程序发起网络数据请求

    文章目录 一.WXML 模板语法 数据绑定 事件绑定 ⭐小程序中常用的事件 ⭐事件对象的属性列表 target 和 currentTarget 的区别 bindtap 的语法格式 在事件处理函数中为 ...

  9. 将对象拷贝一份备用,改变原对象的属性时,为啥备份数据也改变了?(赋值、浅拷贝和深拷贝的区别)

    前言 前两天在写代码时碰到一个很奇怪的问题,我有一个对象person = {name: ''tianxin, age: 18};,我需要将person目前的数据拷贝一份备用let copyPerson ...

最新文章

  1. Effective C++笔记_条款31将文件间的编译依存关系降至最低
  2. MOS管的主要参数与重要特性
  3. maven配置junit5_JUnit 5和Selenium –改善项目配置
  4. oracle 表空间 用户
  5. java获取本周的开始时间和结束时间_创业板注册制开始时间/股票开户流程结束后,怎么炒股?...
  6. tablix“Tablix1”有一个具有内部成员的详细信息成员
  7. Atitit.pdf 预览 转换html attilax总结
  8. 《汉魏风云》1、速度与激情——无双吕布的悲喜人生
  9. js中获取当前屏幕宽度方法如下:
  10. 家庭网络布线工程图布线方案
  11. unity怎么显示骨骼_Unity3d教程:骨骼动画介绍
  12. 【前端小卡】npm从0-1发布一个属于自己的包
  13. Win11删除英文输入法的方法教程
  14. 从投资人发现“新大陆”,看“产融星城”为何成?
  15. qemu运行xp虚拟机
  16. 央行再次降息降准,利好股市,估计2800点附近反弹一两天,人民币贬值预期加强
  17. 模糊神经网络2--基于ANFIS的混沌时间序列预测
  18. 光缆线路网的组网结构是怎样的
  19. wwx第一次Devc++打代码
  20. GoldenDict中能用的在线翻译源

热门文章

  1. C语言 日期转时间戳
  2. WebStorm 2016 最新安装指南 破解 汉化 字体设置
  3. C/C++实现三角函数的方法
  4. bsdiff算法c语言实现,bsdiff的使用
  5. 什么是梯度爆炸与梯度消失
  6. 什么是API,开发人员该如何使用它们?
  7. linux fping命令使用
  8. mysql免安装版安装教程
  9. Android GPU呈现模式分析功能,手机流畅度。仅供参考
  10. 低轨卫星传播特性仿真与分析