大数据时代下,数据感知在数据质量管理系统中的应用
关于数据质量管理,可能与大部分人没有太大的关系。虽然,市面上有很多的公司在进行数据的挖掘、分析方面业务的工作,但是关于数据质量管理,方面的公司真的是屈指可数。
由于本人所在的公司主要是为了解决发改委遇到的一些问题,而开展的1个项目。比如检验地市注册资金是否存在异常这么1个简单的例子。
而对于数据感知技术,大部分没有了解过。为了说明,大数据时代下,数据感知在数据质量管理系统中的应用,这里我们需要先解决几个问题:
什么是数据质量管理系统?
什么是数据感知技术?
数据感知技术的用途?
下面我们分别来进行介绍。
什么是数据质量管理系统
我们知道,数据是企业数据中心的重要资产,获取并维护高质量的数据,对业务及运营至关重要。而数据量越大,有价值的信息获取的难度就越大。如果获取不到有用的信息,就不能很好的进行数据挖掘和数据分析。
但是在这个过程中,有许多因素会导致这些数据资产贬值,比如数据的冗余和重复会导致信息的不可识别、不可信及精确度不够等情况的发生。
而数据质量管理系统就是对数据进行处理后能够提供高质量的数据,最终的目的是挖掘数据价值,推动业务发展,实现盈利。
而数据质量管理系统主要由如下一些部分组成:
数据清洗与去重
数据可视化
数据评估
数据治理
数据挖掘
数据分析
而当前系统主要采用纯Python来实现。对于发改委动不动就千万级别的数据还是可以很好的进行驾驭的。
什么是数据感知技术
对于感知的定义是客观事件通过感觉器官在人脑中的直接反映。而所谓数据感知,就是通过对数据的一些特征信息来对数据进行描述。比如,我们看到远处有1个人,长头发穿着红色衣服高跟鞋,那么我们就可以推测那个人是女的。当然,这个过程也可能会出现不准确的问题,比如那个人是个男的,就这样打扮。
而数据感知技术可以实现给我们1组样本数据,我们可以知道它是哪种类型。比如,给我们如下的100条记录1组数据:
13923123425
020-8876234
(0760)2347234
...
3423456
通过我们的感知技术我们可以识别它为手机号码和电话号码,其中手机占据的比例假设为60.82%,而电话号码占据的比例为32.22%,而剩下还有6.96%的数据无法被识别出来,因此我们可以推断当前数据为联系方式为主。
需要注意的是,这100条记录需要满足随机性,不然感知出来的结果可能会差强人意。
当然,这是比较简单的1个例子。当然我们还可以识别中文姓名、地址信息、企业名称、工商注册范围、工商注册资金等类型,这里就涉及到概率论及统计学的一些内容了。
当然,还会涉及到一些线性代数的内容,比如贝叶斯网络转移矩阵的使用,会用到矩阵的相关知识。
数据感知技术的用途
一般情况下,数据质量管理系统都是基于规则库进行开展工作的,而对每组数据进行规则的配置是1个繁琐且耗时的工作,基本上没有人愿意进行这种工作。
而此时,通过数据感知技术,我们可以自动的感知规则,并为每组数据推荐最适合的规则,从而简化人员的工作量,提高效率。
另外通过数据感知技术,还可以找到数据库其他类似的类型的数据,进行数据关联性的关联,弥补一些认知上的缺陷。
总结
实际上,数据感知只是数据质量管理中的1个很小的环节,通过这种自动化的技术,可以节省人工的成本及提高效率。
Bingdata优网助帮汇聚多平台采集的海量数据,通过大数据技术的分析及预测能力为企业提供智能化的数据分析、运营优化、投放决策、精准营销、竞品分析等整合营销服务。
北京优网助帮信息技术有限公司(简称优网助帮)是以大数据为基础,并智能应用于整合营销的大数据公司,隶属于亨通集团。Bingdata是其旗下品牌。优网助帮团队主要来自阿里、腾讯、百度、金山、搜狐及移动、电信、联通、华为、爱立信等著名企业的技术大咖,兼有互联网与通信运营商两种基因,为大数据的算法分析提供强大的技术支撑。
大数据时代下,数据感知在数据质量管理系统中的应用相关推荐
- 大数据时代下的贝叶斯公式
2019独角兽企业重金招聘Python工程师标准>>> 大数据时代下的贝叶斯公式 2016-04-24 数据观 每当有技术热点或新概念出来的时候,人群就会分成三种:炒作的.观望的和踏 ...
- 【天光学术】市场营销论文:大数据时代下的市场营销机遇与挑战(节选)
[摘 要] 随着社会的快速发展,各个行业中的数据信息也在不断增多,信息技术以及计算机技术的发展在很大程度上影响了传统生产生活方式,市场营销在大数据时代的发展中也变得更加复杂化和多样化,因此我国渐渐 ...
- 大数据时代下的企业战略
//2014年6月16日 //系室友肖东凌所做 //人们积累了足够多的数据,对数据分析能力产生了需求 //现在来看,大数据在互联网以外的功用主要是大大增强了原来的"管理科学" 大数 ...
- 柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)...
二.Work Queues(using the Java Client) 走起 在第上一个教程中我们写程序从一个命名队列发送和接收消息.在这一次我们将创建一个工作队列,将用于分发耗时的任务在多个工作者 ...
- 大数据时代下的新生态、新洞察、新趋势 | 神策 2019 数据驱动大会
10 月 22 日,以"矩•变"为主题的神策 2019 数据驱动大会在北京维景国际大酒店顺利举行,来自全球大数据各大行业的领袖人物聚首北京,融合国际前沿技术与行业实践,深入探讨大数 ...
- 在目前大数据时代下,怎么能成为一名合格的数据分析师
"21世纪什么最贵,人才",在目前大数据时代下,什么最难找,什么最贵,实现数据价值的人,数据分析师. 但是对于数据分析师的认识,比较极端,但对数据分析师价值的认识正在回归理性.很多 ...
- 独家 | Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习(视频+精华笔记)
金秋九月,2017国际大数据产业技术创新高峰论坛暨大数据系统软件国家工程实验室第一次会议盛大开幕,大数据系统软件国家工程实验室作为大数据系统软件技术研发与工程化的国家级创新平台,将通过大数据系统软件技 ...
- 柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)...
柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航) 二.起航 本章节,柯南君将从几个层面,用官网例子讲解一下RabbitMQ的实操经典程序案例,让大家重 ...
- 在大数据时代下金融风控的分类
@Date:2018-05-24 @Author:等等 依托城市数据湖海量数据资源,尤其是在信贷领域对企业或者个人的个人信贷画像描述评判准则已经是第三方房贷企业或者银行对借贷人的评分标准.风控建模以数 ...
- 【2016年第2期】大数据时代下中国社会调查的科学新观
顾佳峰 北京大学中国社会科学调查中心,北京 100871 摘要:大数据已经成为这个时代的显著特征,大数据的发展为入户调查数据带来了极大的冲击和挑战.在这种情况下,社会调查需要有新的基于中国古老智慧的管 ...
最新文章
- C++:随笔2--I/O实践
- 揭秘百度微服务监控:百度游戏服务监控的演进
- 遇到奇怪的C#/C/C++或者Java的bug可以去问问Coverity
- kubernetes的安装
- java集合类——Stack栈类与Queue队列
- JavaScript中赋值运算符的使用
- boost::filesystem::detail::possible_large_file_size_support
- android往天气接口里面传城市,Android使用中国天气网API数据通过城市名称获取天气情况...
- Android之用命令uninstall卸载apk和用 -i 过滤日志忽略大小写
- echarts使用记录(二)legend翻页,事件,数据集,设置y轴最大/小值,让series图形从右侧出往左移动...
- ASP.NET页面的生命周期(转载)
- DB2 错误信息 SQLCODE SQLSTATE说明
- attachEvent报错原因
- 本特利3300XL 25mm前置器 330780-50-CN
- html半圆形,【实例】CSS3画一个半圆的方法
- Unity DOTS Burst 运行分析
- lammps及Reaxff反应力场二合一专题内容都在这
- 主流大数据调度工具对比(DolphinScheduler特点)
- VS x86 x64 anycpu 编译运行对照表
- Linux kermit配置及使用