​空间数据挖掘在获取数据后第一件事情就是对数据进行预处理。

预处理原因:数据质量差

  1. 数据不完整

  2. 噪声

  3. 不同数据源获取的统一数据不一致

而高质量的数据才有高质量的结果,预处理目的有两个,提高数据质量,加快挖掘信息的速率。

预处理的主要任务有:

  1. 数据清理:填空缺,去噪声(这两个一般用插值),识别或删除离群值(与实际情况偏离较大但是不是噪声的有用点),解决不一致(看数据的可靠性之类的)

  2. 数据集成:集成到数据库,数据立方体(逻辑上等同于EXCEL数据透视表),文件

  3. 数据归约:数据集简化的表示,理解为小数据集,能得到大数据集相同或相似的结果。主要方法有给出特征子集(就是删多余数据),主成分分析。

  4. 数据变换:规范化。

  5. 数据离散化:离散化数据,概念分层。各种划分方法:分级,直方图,聚类,决策树~

具体处理不说了,一般来说就是常规统计方法和线性平滑。


新出来的概念大概是数据库、数据仓库和数据立方体。

数据仓库:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。

数据库与数据仓库区别

(感觉类似面向流程和面向对象~蜜汁感觉)

数据仓库基于多维数据模型,其中数据立方体最为典型。

看了一大圈,才发现思想和EXCEL数据透视图一样一样的。就是能把不同的维度抽出来可视化,但实际底层储存应该还是和数据库差不多,都是一张张表。

事实表对应数据库,维表对应数据仓库,不同的维组成数据立方体。对某一数据立方体能进行上卷、下钻、切片和切块、转轴等操作。

上卷:某一维度进行合并,比如6个城市归并到两个国家。

下钻:与上卷对应,2个国家拆成6个城市。

切块:只取数据立方体一部分研究,得到立方体一块。

切片:只取数据立方体一个维度里面的一项。如之前研究全国,现在只研究一个城市。

转轴:坐标转换...


最后,上升到专业——空间数据挖掘预处理。

emmm,感觉没啥多的东西,就是把人家数据挖掘的东西套在地理层面上...

空间数据仓库:面向主题的、集成的、时变的和非易失性的空间和非空间数据的集合,支持空间数据挖掘和与空间数据相关的决策过程。(真就生搬硬套概念...)

实现方面主要多了GIS技术,采用星型/雪花模式。

(大的事实表催生各种维度表)

空间数据立方体可以有三个基本维:非空间维(非空间数据,如降雨,气温),矢量维(矢量数据)和栅格维(栅格数据)。以及催生了4种混合维。

最后讲空间数据挖掘的时候,感觉总体向空间数据仓库偏移,然后有种努力想建立体系但是又很杂反而说不出来很多东西的感觉...(当然,也有可能我太菜了QAQ,反正就是建立不了体系,这章其实读下来,通篇就四个字,数据仓库....)

地理信息|空间数据挖掘预处理相关推荐

  1. 空间数据挖掘的主要方法总结

    空间数据挖掘是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系,并发现其中有用的特征和模式的理论.方法和技术. 空间数据挖掘和知识发现的过程大致可分为以下多个步骤:数据准备.数据选择.数据预 ...

  2. 【转】主要空间数据挖掘方法

    Source: http://jerry429.bokee.com/2993629.html 张新长 马林兵等,<地理信息系统数据库>[M],科学出版社,2005年2月 第二章第二节 空间 ...

  3. 空间数据挖掘常用方法及举例

    转载自:http://alex-1949-c.blog.163.com/blog/static/380295120100145142337/ 问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理 ...

  4. 地理信息|空间描述与空间模式分析

    这一部分就是讲数据的分析方法.要想分析数据,就先要对数据进行描述归纳.主要分为描述性数据挖掘和预测性数据挖掘. ​ 描述性数据挖掘就是简单描述数据,给出数据性质,常用泛化的方式进行(俗称口胡). 预测 ...

  5. 空间数据挖掘技术理论及方法

    葛继科(西南农业大学信息学院 400716)   摘要  本文简要论述了空间数据库技术及空间数据挖掘技术的理论及特点,分析了空间数据挖掘技术的层次.方法,并重点介绍了当前常用的分类.聚类.关联规则等空 ...

  6. 空间数据挖掘主要方法

    转载自:http://www.itongji.cn/article/0GJ52011.html 1.空间分析方法 利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信 ...

  7. 空间数据挖掘中的Skyline查询

    〇.引子--空间数据库 A spatial database is a database that is optimized to store and query data that represen ...

  8. 一种空间数据挖掘方法——skyline查询

    Skyline Query最初是由Borzsonyi和Kossmann等人在2001年提出, 他们在论文中举了两个著名的例子.其中一个是纽约曼哈顿区天际线,在曼哈顿地区有许多高大漂亮的建筑,但是站在海 ...

  9. 《数据仓库与数据挖掘教程》ch01绪论 章节整理

    数据仓库概述 从传统数据库到数据仓库 计算机数据处理有两种主要方式 事务型处理 分析型处理 传统数据库与事务处理 传统数据库是长期存储在计算机内的.有组织的.可共享的数据集合 有严格的数学理论支持,并 ...

最新文章

  1. android游戏boss坐标,热血江湖手游boss刷新点坐标 boss刷新时间 _图文攻略_高分攻略_百度攻略...
  2. (20/24) webpack实战技巧:watch实现热打包和添加代码备注
  3. 程序员的共鸣 - 读《卓有成效的程序员》
  4. Android-广播接收者简介
  5. Nginx基础数据结构分析-ngx_chain_t
  6. 什么是客户旅程_为什么记录您的旅程将导致开发人员成功
  7. 和Hibernate3.6相比,Hibernate 5.x中的增删改性能降低了
  8. 用 Markdown 写作(一)——添加文章页内导航
  9. 华为机顶盒系统时间同步服务器,华为悦盒主时间同步服务器地址
  10. AdapterView详解
  11. Java生成简单的验证码图片
  12. 大数据应用的发展趋势
  13. 用命令将FAT32格式磁盘转换为NTFS格式
  14. JAVA API (application programming interface)
  15. 用HTML加css做成的新年特效,使用css3和html给网站添加上春节灯笼特效的源码分享...
  16. 千字长文讲解系统架构,系统设计看这篇就够了
  17. 区块链在网络安全中有何作用?
  18. Duang~Shark 闪跌 99%! Fork 了 Bunny 的代码还 Fork 了它的攻击
  19. 【AeroSim 六自由度仿真飞行模块】一、安装与demo运行问题
  20. SMT常见的电子元件认识

热门文章

  1. JavaScript基础 实现动态创建列表
  2. word2vec原理总结
  3. 惠普286Pro G2 MT电脑怎么用win10pe安装系统
  4. 站长在线经典Python题:使用Python编程思想解决鸡兔同笼的问题的4种方法
  5. 添加背景音乐java,支持mp3
  6. PHP按日期按天对时间段进行分割
  7. 【面试被虐】说说游戏中的敏感词过滤是如何实现的?
  8. ORM: 如何管理品牌的在线声誉?
  9. 从电视购物到电商直播,什么造就了「带货的参差」
  10. 项目笔记7(尚品汇)