数据处理的准确性校验一直是个难题,是否存在一些针对据处理准确性的通用做法呢?

下面是一些对于数据进行计算处理后,保证数据准确性的个人实践:

对于大部分数据来说,数据处理可以分为以下五个步骤:

1.数据采集;2.数据传输(实时/批量);3.数据建模/存储;4.数据计算/分析;5.数据可视化展示/挖掘

针对上面五点分别展开介绍:

一、数据采集

通常数据处理之前会有数据采集的过程,数据采集会涉及到多数据来源,每中数据来源由于格式等不一致,需要特殊处理。

1.针对不通的数据源,需要做到每个数据源获取数据能够独立。

2.采集过程需要监控,传输之前如有条件,可以做到本地有备份数据,便于异常查找时进行数据比对。

二、数据传输(实时/批量)

数据源本地已经做到有备份的情况下,对于传输异常的时候,需要支持重试,存储端需要支持去重。

三、数据建模/存储

数据存储可以针对结果集合进行冗余分类存储,便于数据进行比对,针对存储需要进行副本备份,同时数据可以考虑按生效记录进行叠加存储,支持回溯历史的存储结构进行存储。

四、数据计算/分析/挖掘

数据进行计算,分析的时候需要进行步骤分解,便于准确性的分析和统计

1.计算之前,支持测算,同时支持数据进行分批计算,需要能导出本批次清单基础数据(例如人员或者id),便于数据核对。

2.计算之中,支持快速少量指定的典型数据测算,支持选择,是否存储参与计算过程的全部的中间变量。

3.计算之后,可以选择,支持导出本次计算过程中的所有参与变量和中间变量参数,可以线下根据数据列表对应的参数,进行计算,从而进行数据准确性的核对。

计算过程中,支持针对有问题的数据ID进行染色,染色后的数据,所有的中间过程变量全部进行打印输出。

五、数据可视化展示

可视化挖掘过程,需要主要前台图形化界面的数据量

参考:http://www.sohu.com/a/161098814_451520 如何提高计算数据的准确性

如何提高数据处理中的准确性相关推荐

  1. 数据处理中的准确性问题

    摘 要 本文由神策数据联合创始人 & CTO 曹犟撰写,数据处理分为五大步骤:数据采集.数据传输(实时/批量).数据建模/存储.数据统计/分析/挖掘.数据可视化/挖掘.曹犟结合神策数据服务于数 ...

  2. RLHF技术在智能医疗中的应用:提高医疗效率和准确性

    文章目录 1. 引言 技术基本概念和原理 1.强化学习基本原理 2.RLHF技术原理 应用场景 1.医学图像诊断 2.医学数据管理 3.智能药物设计 优势 1.考虑多级抽象特征 2.自适应学习 3.强 ...

  3. weka使用训练集分类测试集_Giao 13C NMR计算分类训练集提高结构归属的准确性和可靠性...

    Giao 13C NMR计算分类训练集提高结构归属的准确性和可靠性 前言 GIAO 13C NMR计算对于小分子结构归属有很重要的作用,尤其对于需要提高准确性和可信性的复杂有机分子的结构归属.准确度是 ...

  4. LPS在无人机数据处理中的应用

    http://blog.sina.com.cn/s/blog_77805ef60100pgip.html 无人机(UAV)遥感是航空遥感的一种重要方式,并且日益成为一项空间数据获取的重要手段,其具有续 ...

  5. 第十七期:详解大数据处理中的Lambda架构和Kappa架构

    在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件.   典型互联网 ...

  6. 数据流技术在GPU和大数据处理中的应用

    点击上方蓝字关注我们 数据流技术在GPU和大数据处理中的应用 苏华友, 梅松竹, 李荣春, 窦勇 国防科技大学计算机学院,湖南 长沙 410073 论文引用格式: 苏华友, 梅松竹, 李荣春, 窦勇. ...

  7. 计算机技术在预防医学的应用,计算机技术在预防医学科研数据处理中的应用

    计算机技术在预防医学科研数据处理中的应用 计算机发展之前,传统的数据处理模式使大批量原始资料的储存.整理.汇总.分析颇为困难,极大地阻碍了预防医学科研工作的进展.近十余年来,随着计算机技术的飞速 (本 ...

  8. 快速云:云计算技术在计算机数据处理中的应用

    伴随我国信息技术的飞速发展,虽然能在一定程度上给人们生活和工作带来了便捷,而且伴随信息化技术的不断应用,还能推动我国经济发展.但是当工作人员在运用云计算技术展开数据处理工作时,时常会把所有资料信息都存 ...

  9. 当前电子鼻系统数据处理中常用的模式识别技术

    当前电子鼻系统数据处理中常用的模式识别技术 当前电子鼻数据处理中所采用的模式识别算法主要包括k近邻法(k-Nearest Neighbor ,k-NN).聚类分析(Cluster Analysis , ...

最新文章

  1. 曾因「抢车位」出圈儿,神奇的Mask R-CNN了解一下?
  2. 助力南京银行打造国内首个分布式核心业务系统
  3. 小米5x_小米刷机大全(附教程)
  4. ES6中定义的类和对象
  5. Mach-O 的动态链接(Lazy Bind 机制)
  6. 联合权值 NOIP2014 提高组 Day1 T2
  7. Java ArrayDeque工作原理及实现
  8. bzoj2154: Crash的数字表格
  9. linux电脑系统投到电视,教你如何在Linux操作系统下观看电视节目
  10. Qt-调用dll动态链接库
  11. MySQL报错The server time zone value 'Öйú±ê׼ʱ¼ä' is unrecognized or represents .....
  12. GNSS数据处理(二)——GAMP_GOOD操作说明
  13. IT公司面试 逻辑题目
  14. 家长如何使自己的孩子轻松快乐地学好数学和英语?
  15. margin-top传递问题
  16. 【基础入门题013】求连续根号的值
  17. 佛寺风飘飘,塔上幡摇摇
  18. Elasticsearch如何创建索引,添加,删除,更新文档
  19. teradata ttu_SQL语句笔记之Teradata
  20. 公司U13 资本成本 习题解读

热门文章

  1. java解析excel文件详解_java解析excel文件的方法
  2. 如何在word中打印对勾和叉
  3. 微信开发内置浏览器JS自动关闭当前页面回到微信对话窗口
  4. PEST、5W2H、逻辑树、4P营销理论、用户行为分析
  5. 【资料整理】高精地图
  6. PHP爆绝对路径方法
  7. Python:练习打字游戏
  8. 《商务与经济统计》(四)
  9. 四川c语言二级成绩查询,求历年四川省计算机二级考试c语言真题.
  10. 头的各个部位示意图_牛肉的部位图解与做法+牛肉各个部位分布图及质地简介...