什么是批处理,批处理与流处理的对比
什么是批处理?
批处理是一种运行大量重复数据作业的方法。批处理方法允许用户在计算资源可用时处理数据,几乎不需要用户交互。
使用批处理,用户收集和存储数据,然后在一个称为“批处理窗口”的事件中处理数据。批处理通过设置处理优先级和在最合适的时间(一般是较空闲时段)完成数据作业来提高效率。
批处理方法最早由美国发明家赫尔曼·霍勒瑞斯(Herman Hollerith)在19世纪使用,他发明了第一台制表机。这种装置成为现代计算机的前身,能够对以穿孔卡片形式组织的数据进行计数和分类。然后,这些卡片和它们所包含的信息就可以被批量收集和处理。这一创新使得处理大量数据的速度和准确度都比手工录入方法更快。
批处理基础
批处理在帮助公司和组织高效地管理大量数据方面起着关键作用。它特别适合处理频繁、重复的任务,如会计。在每一个行业和每一项工作中,批处理的基本原理都是一样的。基本参数包括:
谁在提交这份工作
将运行哪个程序
输入和输出的位置
作业应该运行的时间。
换句话说,谁,什么,在哪里,为什么。
示例-批量处理财务数据
许多公司使用批处理来自动化他们的计费过程。
比如一笔信用卡交易,直到你花完钱几天后才出现在你的银行账户历史记录中。此交易可能是在您购买后的某个时间批量处理的。
在另一种情况下,批发公司可能每月只给客户开一次账单,每两周给员工发一次工资。每月计费周期和双周工资周期都是批处理的示例。
好处
批处理已经变得很普遍,因为它为企业数据管理提供了许多优势。企业可以发现批量处理的许多好处:
效率
批处理允许公司在计算资源(或其他资源)充分可用时处理作业。公司可以优先考虑对时间敏感的工作,并为那些不那么紧急的工作安排批处理过程。此外,批处理系统可以脱机运行,以尽量减少处理器的压力。
简单
与流处理相比,批处理是一个不太复杂的系统,不需要特殊的硬件或系统支持来输入数据。一旦建立,批处理系统需要的维护比流处理少。
提高了数据质量
由于批处理自动化了处理作业的大部分或所有组件,并最小化了用户交互,因此减少了出错的机会。提高了精度和准确度,提高了数据质量。
用例
亲和水-数百万客户,数十亿升
Affinity Water是英国最大的纯水供应商,它为360万用户使用自动抄表系统,这些用户每天用水量超过9亿升。管理供水基础设施的复杂性、公司庞大的客户群及其服务范围意味着,Affinity必须找到处理大量数据的最有效策略。
批处理允许Affinity对其计算过程进行优先级排序,以便快速、准确地执行抄表和计费等操作,而不会不必要地挪用其他数据处理作业的关键资源。
Almerys-医疗保健中的批处理
当涉及到处理医疗账单产生的大量数据时,Almerys对批处理有一两点了解。该公司采用了一种定制策略,其中包括对某些作业进行批处理,对其他作业进行流式处理。因此,Almerys每天能够处理超过100万笔无纸化的第三方医疗交易。
数据困境:批处理还是流处理
在决定哪种数据处理方法最佳时,没有一个正确的答案。这一切都是为了找到一个最适合公司、数据和情况的解决方案。在某些情况下,批处理提供了管理作业的最经济高效的方法。在其他情况下,访问流数据是必不可少的。许多公司同时使用这两种方法。
批处理处理处理大量的非连续数据。它可以快速处理数据,减少或消除用户交互的需要,提高作业处理的效率。它非常适合于管理数据库更新、事务处理以及将文件从一种格式转换为另一种格式。
流处理适用于连续数据,适用于依赖实时访问数据的系统或进程。如果及时性对流程至关重要,那么流处理可能是最佳选择。例如,处理网络安全问题的公司,以及处理医疗设备等联网设备的公司,都依赖流处理来传递实时数据。
在某些情况下,同一家公司可能同时采用这两种流程,对时间敏感的数据任务依赖流处理,而对其他任务依赖批处理。例如,分发可穿戴医疗设备的医疗保健公司可以使用流处理来收集和监视来自该设备的数据。但是批量处理对于管理客户账单周期来说可能更具成本效益。
批处理和云
批处理继续发展。云技术通过允许来自多种程序的数据被无缝地合并和集成并远程存储,彻底改变了所有类型的处理工作方式。对于批处理,最重要的变化是将数据从本地迁移到分布式系统,在分布式系统中,数据仓库可能在世界各地的多个位置。
即使云原生技术和存储的兴起带来了变化,批处理仍然一如既往地有用。事实上,移动和转换数据的常见ETL(extract,load,and transform)过程本身就是一种批处理。其他方法可能已经出现,但批处理不会消失。
什么是批处理,批处理与流处理的对比相关推荐
- 手把手教你写批处理-批处理的介绍
标题:手把手教你写批处理-批处理的介绍 作者:佚名 编者:Climbing 出处:中国 DOS 联盟之联合 DOS 论坛 题注:willsort 日期:2004-09-21 ------------- ...
- 批处理序列风格与管道过滤器风格对比
共同点:把任务分成一系列固定顺序的计算单元(组件).组件间只通过数据传递交互. 区别:批处理是全部的.高潜伏性的,输入时可随机存取,无合作性.无交互性.而管道过滤器是递增的,数据结果延迟小,输入时处理 ...
- 批处理——批处理简介
不忘初心,方得始终.Stay hungry Stay foolish! 一.批处理简介 批处理(Batch),就是对某对象进行批量的处理,也称为批处理脚本,是一种简化的脚本语言.这里所说的批处理存在于 ...
- 原创|批处理|批处理一键生成指定范围的MAC地址
16进制递增,批处理一键生成指定范围的MAC地址 可以经过适当的修改,实现10进制.二进制.8进制的类似效果 使用方法: 将以下代码复制后,保存为*.bat批处理文件即可执行:或者新建一个记事本文件, ...
- 原创|批处理|批处理设定IP地址与自动获取IP之间的切换
批处理设定IP地址与自动获取IP之间的切换 背景 在办公环境中,通常,内网的IP地址是指定的,随意更改会导致上不了网或者IP地址冲突:但是当我们将办公电脑带回家中时,通常是自动获取IP地址的.手动来回 ...
- Java IO流之【缓冲流和文件流复制文件对比】
与文件流相比,缓冲流复制文件更快 代码: package Homework;import java.io.BufferedOutputStream; import java.io.File; impo ...
- 高恪智能流控怎么设置_磊科285G智能QoS与高恪K2P智能流控多用户对比评测(下, 多用户对比测试)...
多用户对比评测: 1.多用户下载对比评测 5台PC分别接入磊科路由器与高恪路由器,同时开启迅雷下载,从下载速率可以看出,磊科智能QoS和高恪智能流控均能保证各PC公平使用网络速率,不会出现单台PC占用 ...
- 深入浅出时序数据库之预处理篇——批处理和流处理,用户可定制,但目前流行influxdb没有做...
时序数据是一个写多读少的场景,对时序数据库以及数据存储方面做了论述,数据查询和聚合运算同样是时序数据库必不可少的功能之一.如何支持在秒级对上亿数据的查询分组聚合运算成为了时序数据库产品必须要面对的挑战 ...
- 为什么说Pravega是流处理统一批处理的最后一块拼图?
工业物联网,车联网和实时欺诈风控的需求正在飞速的发展.越来越多的企业新应用,需要的是快速响应客户需求,并同时学习和适应不断变化的行为模式.同时随着5G网络.容器云.高性能存储硬件水平的不断提高,让实时 ...
最新文章
- hdu5014 构造b数列使得t最大(小想法)
- 利用jquery的qrcode.js插件生成二维码的两种方式的使用
- wordpress去掉category怎么操作让url更简洁友好
- QTP操作xml文件方法
- java三个线程 顺序执行_如何确保三个线程顺序执行
- 143.根据文件头判断类型
- 世界八大最顶尖的工业软件强国
- WebRTC 非常适用于智能家庭安防摄像头
- 【matplotlib教程】绘图样式,文本线型、轴刻度
- Vue知识点总结(16)——具名插槽(超级详细)
- 《D o C P》学习笔记(6 - 1)Word Games
- 所有的美好,都始于遇见
- Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks(MAML)研读笔记
- linux5关闭apic服务,阐述Linux内核里面的APIC编程
- Java程序员必备辅助开发神器
- Java多线程基础(一)
- 关于移动硬盘故障:使用驱动器G:中的光盘之前需要将其格式化或者无法访问磁盘G:参数错误的解决办法
- 电力系统分析(Matlab代码实现)
- Rundll32.exe进程
- [bzoj1787][Ahoi2008]Meet 紧急集合 倍增LCA