简约原则

这是牛顿创设的一条“极简主义”的节约规则。在牛顿看来,神奇的自然界在创设过程中选择的简单性和对繁琐的讨厌,使得人类也形成如下观念:“在用很少的东西就能够解决问题的情况下,决不劳力费神和兴师动众”;要始终体现大自然所遵循的简约性、精准性、合理性与有效性。欲达此目的,就需要在云计算或大数据处理中,遵循简约原则,选择有用数据,淘汰无用数据;识别有代表性的本质数据,去除细枝末节或无意义的非本质数据。要能够确识数据之间的巨大差距或差异;要能够鉴别和挑出那些“以一当十”的数据和信息。这种简约原则在大数据的收集、挖掘、算法和实施中的最有效途径,就是对“数据规约”的运用。所谓数据规约就是简化现有的数据集,使得一种小规模的数据就能够产生同样的分析效果。常用的数据规约策略有数据立方体聚集、维规约、数据压缩、数值压缩、离散化和概念分层等,而常用的数据规约方法则主要包含粗糙集、遗传算法、主成分分析、逐步回归分析、公共因素模型分析等。运用这些规约方法,就可以获取可靠数据,减少数据集规模,提高数据抽象程度,提升数据挖掘效率,使之在实际工作中,可以根据需要选用具体的分析数据和合适的处理方法,以达到操作上的简单、简洁、简约和高效。具体地说,当一位认知主体面对收集到的大量数据和一些非结构化的数据对象,如文档、图片、饰品等物件时,不仅需要掌握大数据管理、大数据集成的技术和方法,遵循“简约原则”和“数据集成原则”,学会数据的归档、分析、建模和元数据管理,还需要在大量数据激增的过程中,学会规约、选择、评估和发现某些潜在的本质性变化,包括对新课题、新项目的兴趣和开发。

综观原则

所谓综观,就是对认知对象进行综合性的观察、分析和探索;就是从总体上对认识对象、认识过程和认识结果进行抽象、概括或直觉,并通过具体的信息数据超越那涵盖于总体性中的局部或个别。这种综观既针对构成事物之个体的全部,也针对构成事物的诸要素组成的统一体,以及总体上显现的本质和规律。综观较整体观察更加辩证。它坚持从大处着眼,从总体上去“观其状,求其法,探其道”,以求得解决问题的策略和战略。它坚持整体的具体统一性,凸显认知对象的具体实在性。至于现实中,人们究竟如何对具体的认知对象进行综观,这里需要借助与综观紧密相关的大数据集合的理论与实践。因为大数据集成,既包括对存贮在结构化数据结构中的数据进行移动和集成,也包括对一大部分非结构化数据中的数据进行移动、调节和集成。比如面对复杂的信息和数据,人们就可以将“云架构、实时数据集成、数据虚拟化、数据集成建模”等先进技术用到具体问题的解决中,使用一种根据大数据制作的“可预测模型描述语言”(pmml),为其提供一种快速简便的程序和模型。此时,通过使用标准的xml(可扩展标记语言)解析器对pmml进行解析,应用程序就能够决定模型输入和输出的数据类型,及模型的详细格式,并会按照标准的数据挖掘术语来解释模型的结果。通过对大数据的综观、模型化和虚拟化,可以做到花最小气力,获最大效益。特别是数据虚拟化,不仅可以为数据使用者提供极具真实性、完整性和精准性的“实时集成的数据视图”,还可以将来自不同数源的数据信息整合为一,并转化成使用者所需要的图式和模型。因为有些对象,绝不是仅仅用数字就可以解释和认知的,比如人类复杂多变的面部表情,就很难用单纯的数据给予精确表达,只有通过数据集成、智能技术和虚拟技术将大数据虚拟化,使反映认知或实践对象的海量信息和数据,变成一种实时图像或视频供主体观察研究,他们才可能从中获得相关的认识、结论和决策。

解释原则

尽管数据集成、数据建模、云计算和数据虚拟化是大数据处理的一些主要形式,能够给认知主体以质、量和度等多方面的总体性的形象和认识,但面对“不能言语”的具体的数字、信息、图像和虚拟视频,还是需要认知主体进行能动的和创造性的解读与阐释。这不只因为包括数字、数码、文字和一切符号在内的语言“是存在的故乡”,即要认识客体或对象,总是需要利用语言给予建构、包装、说明和解释,还因为一切语言自身所拥有的价值和意义,也需要使用它和阅读它的主体所“赠予”。换句话说,这些摆在人们面前的大数据,究竟表达什么或意味什么,很大程度上,并不取决于由数据信息自身所标明的“客观实在性”,而是主要取决于认知主体对其解读时所拥有的整体上的解释力、构建力和知解力,取决于由数据构架起来的理论形态和实践目的。因为只有通过人的感悟、觉识、分析、推理、判断和阐释才能够赋予数据和信息以多重的或异乎寻常的结构和意义,才能够由表及里,揭示出深藏于内的隐蔽之物;进而通过各种解释之间的矛盾和冲突,获悉被解释的存在和本质。

智慧原则

尽管信息革命将人类带进大数据的春天,而且使越来越多的人确信“数据多多益善,即数据越多,分析越深入,所得的结论就越全面”,但面对“僵死的数据”,要想点石成金,还需依赖于人的智慧和学识。为此,在大数据处理过程中,真正的智者既要兼具数据分析、机器学习、数据挖掘以及数据统计的能力,也要具备应用算法和编写代码的经验。尤其是面对琳琅满目的大数据,不仅要关注海量数据的多样性、差异性、精确性和实效性,否则缺少其中任何一个性能,都可能使所获数据达不到预期的效果和目标;还要全面深入地挖掘各种类型的数据,并在此基础上运用数据建模和数据算法在不同的数据集成中分析不同的假设情境,建构不同的可视化图像,进而揭示数据集成的变化及其产生的效用。特别是今天,面对激烈的社会竞争,必须不断寻找新的数据处理方法,不断加快数据处理速度。要意识到各种数据都并非生而就有价值,只有通过主体智慧的挖掘,才能将其变为现实。

此外,还要善于从数据集成、数据建模和数据虚拟化中发现和解决问题;提升自己观察、思考、批判和扬弃的能力;锤炼自己的理性思维和逻辑思维;培养自己统筹决策、高瞻远瞩、见微知著的预见力和洞察力。当然,在大数据时代更需要掌握对已有的数据模型进行精练,以及利用新的训练数据对原有内容和规则集进行修改、操作和运行的技艺。在此过程中,要尽可能做到思想活跃,思维清晰,头脑开放,认识深远,能够不失时机地打破陈规旧套,抓住新机遇,尝试新途径,开辟新天地,以多元智能的理念来认知和实践,以便在大数据处理中,既不忽略任何一个未经深度分析的数据,也不丢弃任何一个异常数据。在许多情况下,异常数据往往比常规数据更有价值。这样,也就自然地要求认知主体工作上缜密细心,时时关注事件的每一个细节与数据,真正做到明察秋毫、细心研制,直至收获完美的认识和成功的实践。

本文作者:佚名

来源:51CTO

必备知识:大数据处理应遵循的原则相关推荐

  1. 危机管理应遵循哪些原则?

    在急速变革和传媒化社会时期,危机随时可能爆发,树立危机意识,有效管理公共危机成为社会各主体的切实主题,如何做好公共危机管理原则?危机管理应遵循哪些原则?接下来,品牌维护森算小编给大家分析一下. 1.战 ...

  2. pci规划的三个原则_PCI规划应遵循什么原则? - 51学通信网络课堂 - 通信人值得信赖的在线交流学习平台 - Powered By EduSoho...

    PCI即物理小区标识.LTE系统提供504个物理层小区ID(即PCI),和TD-SCDMA系统的128个扰码概念类似.网管配置时,为小区配置0-503之间的一个号码即可. TD-LTE系统中,UE需要 ...

  3. 计算机出现故障,维修应遵循的原则是什么?

    硬件维护时应注意的事项: 1.断电后,方可对主机箱内部的部件进行拆卸. 2.注意释放手上的静电,以免损伤主板. 支持热插拔的设备 普通电脑里,USB(通用串行总线)接口设备和IEEE 1394接口设备 ...

  4. 外汇交易系统应遵循的原则

    在市场的磨砺下,多数投资者都知道或是正在运用外汇交易系统来做交易,在系统交易下,最重要的是在某个时间周期内选择可以确定的趋势进行投资,选择开始是交易的一部分,交易的过程则是另一部分. 回顾历史行情,每 ...

  5. 全媒体时代下高校思想政治教育目标应坚持的原则

    (一)高校思想政治教育目标应遵循社会进步和个人发展辩证统一的原则 "思想政治教育在各级各类学校都要摆在重要位置,任何时候都不能放松和削弱.思想政治素质是最重要的素质.不断增强学生和群众的爱国 ...

  6. 计算机主机故障检测原则,1.计算机故障处理应遵循的基本原则有哪些? 爱问知识人...

    计算机故障处理应遵循的基本原则有: 1. 先软件后硬件的原则 先软件后硬件原则指的就是,当您的电脑发生故障时,应该先从软件和操作系统上来分析原因,排除软件方面的原因后,再开始检查硬件的故障.一定不要一 ...

  7. 计算机维修应遵循先硬件后软件的原则,计算机硬件维护的原则和及方法

    计算机硬件维护的原则和及方法 伴随着社会经济的迅速发展以及网络信息时代的快速到来,计算机的普及运用越来越广泛,已成为人们日常生活中不可缺少的工具,随之而来的是人们对计算机硬件方面的维护要求也逐渐提升. ...

  8. 制定城市大脑建设标准应遵循的十条原则探讨

    作者:刘锋 本文发表于2022年3月<中国建设信息化杂志> 2015以来,城市大脑被提出并成为前沿科技和智慧城市建设领域的新热点.到2022年,全国已经有包括北京.上海.杭州.深圳.郑州. ...

  9. 网站界面设计应遵循的几个原则(转载)

    网站用户界面(Website User Interface)是指网站用于和用户交流的外观.部件和程序等等.如果你经常上网的话,会看到很多网站设计很朴素,看起来给人一种很舒服的感觉:有点网站很有创意,能 ...

最新文章

  1. nginx使用HttpImageFilterModule
  2. 能“预测未来”的AI来了!谷歌DeepMind推Dreamer,训练时间减半
  3. 微众WeCross 跨链平台(9)MIG多边跨域治理
  4. Java集合TreeMap
  5. Buuctf(pwn) ciscn_2019_n_5
  6. 关闭 Windows Server 2008 用户权限控制(UAC)
  7. simplejson.scanner.JSONDecodeError: Extra data: line 1 column 22089 - line 1 column 22090
  8. 提速30倍!这个加速包让Python代码飞起来
  9. Java生鲜电商平台-提现模块的设计与架构
  10. hcie lab 实验挂了怎么办?
  11. 北航计算机组成原理课程设计-2021秋 PreProject-MIPS-入门简介
  12. 《山月记》一定有那么一刻,我们曾迷茫怀疑
  13. Matplotlib绘制动图
  14. 解决ERROR: text file '***' contains disallowed UTF-8 whitespace character(s)
  15. http协议文字加图解
  16. arcgis10动态地图的制作
  17. 当健身用户进入直播间:一场全新内容生态的破壁与重建
  18. 脚本显示服务器超时,服务器诡异的请求超时问题
  19. 品牌推广方法大全(收藏日后必有用处)
  20. Truth or dare - 真心话大冒险片尾曲

热门文章

  1. docker版iOS超级签应用分发平台源码分享[带免签封装]
  2. 百度SEO站群最新易支付源码完整版 已pj全解密
  3. multism中ui和uo应该怎么表示_Excel中VBA程序基本语法之强大的数组,了解数组的功能...
  4. sqlserver文件转mysql_怎样将Sqlserver数据库转成mysql数据库
  5. ptcms精美小说阅读网站源码(带采集规则)
  6. 原生Java高仿抖音短视频APP双端源码
  7. 全网最新Spring Boot2.5.1整合Activiti5.22.0企业实战教程<UEL表达式篇>
  8. C# 中 Struct 与 Class 的区别,以及两者的适用场合
  9. 看图说cnblogs-强大的SEO功能【有实例】
  10. 通过IHttpHandlerFactory,过滤TextBox、Input和Textarea中的特殊字符