数据库备份策略 分布式

COVID-19 has forced nearly every organization to adapt to a new workforce reality: distributed teams. We share four key tactics for turning your remote data team into a force multiplier for your entire company.

COVID-19迫使几乎每个组织都适应新的劳动力现实:分散的团队。 我们分享了四个关键策略,可将您的远程数据团队变成整个公司的力量倍增器。

It’s month 6 (or is it 72? It’s hard to tell) of the global pandemic, and despite the short commute from your bedroom to the kitchen table, you’re still adjusting to this new normal.

现在是全球大流行的第6个月(或者是72岁?这很难说),尽管从卧室到厨房的通勤时间很短,但您仍在适应这一新常态。

Your team is responsible for all the same tasks (handling ad-hoc queries, fixing broken pipelines, implementing new rules and logic, etc.), but troubleshooting broken data has only gotten harder. It’s difficult enough to identify the root cause of a data downtime incident when you’re all 5 feet away from each other; it’s 10 times harder when you’re working on different time zones.

您的团队负责所有相同的任务(处理临时查询,修复损坏的管道,实现新规则和逻辑等),但是对损坏的数据进行故障排除只会变得更加困难。 当您彼此相距5英尺时,要确定数据停机事件的根本原因已经非常困难。 当您在不同时区工作时,难度会增加10倍。

Distributed teams aren’t novel, in fact, they’ve become increasingly common over the last few decades, but working during a pandemic is new for everyone. While this shift widens the geographic talent pool, collaborating at this scale entails unforeseen hurdles, particularly when it comes to working with real-time data.

分布式团队并不是什么新奇的事物,事实上,在过去的几十年里它们已经变得越来越普遍,但是在大流行期间工作对于每个人来说都是新事物。 尽管这种转变扩大了地理人才库,但这种规模的协作带来了不可预见的障碍,尤其是在处理实时数据时。

Your daily standup only gets you so far.

每天的站起来只会让您走得那么远。

Here are 4 essential steps to managing a great distributed data team:

以下是管理一个出色的分布式数据团队的4个基本步骤:

记录所有东西 (Document all the things)

Information about which tables and columns are “good or bad” breaks down when teams are distributed. One data scientist we spoke with at a leading e-commerce company told us that it takes 9 months of working on a team to develop a spidey-sense for what data lives where, which tables are the ‘right’ ones, and which columns are healthy vs. experimental.

分配团队时,有关哪些表和列是“好是坏”的信息会分解。 我们在一家领先的电子商务公司与之交谈的一位数据科学家告诉我们,一个团队需要花9个月的时间开发出针对数据存放在何处,哪些表是“正确的”表,哪些列是什么的间谍意识。健康与实验。

The answer? Consider investing in a data catalog or lineage solution. Such technologies provide one source of truth about a team’s data assets, and make it easy to understand formatting and style guidelines for data input. Data catalogs become particularly important when data governance and compliance come into play, which is top of mind for data teams in financial services, healthcare, and many other industries.

答案? 考虑投资数据目录或沿袭解决方案 。 此类技术提供了有关团队数据资产的一个真实来源,并易于理解数据输入的格式和样式准则。 当数据治理和合规性发挥作用时,数据目录就变得尤为重要,这对于金融服务,医疗保健和许多其他行业的数据团队而言,是最重要的。

设置数据的SLA和SLO (Set SLAs and SLOs for data)

It’s important to ensure alignment not just among data team members but with data consumers (i.e., marketing, executives, or operations teams), too. To do so, we suggest taking a page out of the site reliability engineering book and setting and align clear service level agreements (SLAs) and service level objectives (SLOs) for data. SLAs for expectations around data freshness, volume, and distribution, as well as other pillars of observability, will be crucial here.

重要的是,不仅要确保数据团队成员之间的一致性,而且还要确保与数据消费者(即市场,执行人员或运营团队)的一致性。 为此,我们建议从站点可靠性工程手册中抽出一页,并为数据设置并调整明确的服务水平协议(SLA)和服务水平目标(SLO)。 关于数据新鲜度,数据量和分布以及其他可观察性Struts的 SLA在这里至关重要。

Katie Bauer, a Data Science Manager at Reddit, suggests distributed data teams maintain a central document with expected delivery dates for important projects, and review that document weekly.

Reddit的数据科学经理Katie Bauer建议分布式数据团队维护一个中心文档,其中包含重要项目的预计交付日期,并每周审查该文档。

“Instead of pinging my team for updates throughout the week when questions arise from stakeholders, I can easily visit this document for answers,” she said. “This keeps us focused on delivering our work and avoids unnecessary diversions.”

她说:“当利益相关者提出问题时,我不必整周对我的团队进行更新,而是可以轻松访问此文档以获取答案,”她说。 “这使我们专注于交付工作,避免了不必要的转移。”

投资自助工具 (Invest in self-serve tooling)

Investing in self-serve data tools (including cloud warehouses like Snowflake and Redshift, as well as data analytics solutions, like Mode, Tableau, and Looker) will streamline data democratization no matter the location or persona of the data user.

投资自助数据工具(包括Snowflake和Redshift之类的云仓库,以及Mode,Tableau和Looker之类的数据分析解决方案)将简化数据民主化,无论数据用户的位置或角色如何。

Similarly, self-serve versioning control systems helps everyone stay on the same page when it comes to collaborating on larger workflows, which becomes extremely important when it comes to leveraging real-time data across time zones.

同样,自助式版本控制系统可以帮助每个人在较大的工作流程上保持一致,这在跨时区利用实时数据时显得尤为重要。

优先考虑数据可靠性 (Prioritize data reliability)

Industries that are responsible for managing PII and other sensitive customer information, like healthcare and financial services, have a low tolerance for mistakes. Data teams need confidence that data is secure and accurate across their pipeline, from consumption to output. The right processes and procedures around data reliability can prevent such data downtime incidents and restore trust in your data.

医疗保健和金融服务等负责管理PII和其他敏感客户信息的行业对错误的容忍度较低。 数据团队需要信心,确保从消费到输出的整个管道中的数据都是安全和准确的。 围绕数据可靠性的正确流程和步骤可以防止此类数据停机事件并恢复对数据的信任。

For many years, data quality monitoring was the primary way in which data teams caught broken data, but this isn’t cutting it anymore, particularly when real-time data and distributed teams are the norm. Our remote-first world calls for a more comprehensive solution that can seamlessly track the five pillars of data observability and other important data health metrics tailored to the needs of your organization.

多年来,数据质量监视是数据团队捕获损坏的数据的主要方式,但是这种情况已不再减少,尤其是在实时数据和分布式团队成为常态的情况下。 我们的远程第一世界需要一个更全面的解决方案,该解决方案可以无缝地跟踪数据可观察性的五个Struts以及适合组织需求的其他重要数据健康指标。

记住:没事也可以 (Remember: it’s OK to not be OK)

We hope these tips help you accept and even embrace the data world’s new normal.

我们希望这些技巧可以帮助您接受甚至接受数据世界的新常态。

On top of this more tactical advice, however, it never hurts to remember that it’s OK to not be OK. Emilie Schario, GitLab’s first data analyst who is now an internal strategy consultant, put it best: “This is not normal remote work. What it takes to be successful during a period of forced remote work in a global pandemic is different from what it means to be remote-as-usual.”

但是,除了这个更具战术性的建议外,记住“ 不行是可以的”也从未有过任何伤害。 GitLab的第一位数据分析师Emilie Schario现已成为内部战略顾问,他最好地指出:“这不是正常的远程工作。 在全球大流行中被迫进行远程工作期间要取得成功所需要的与不同于通常进行远程管理意味着什么。”

We’d love to hear your advice for leading distributed teams! Reach out to Barr Moses with your words of wisdom.

我们很想听听您对领先的分布式团队的建议! 用您的智慧之言与 Barr Moses 接触

This article was written by Will Robins & Barr Moses.

本文由威尔·罗宾斯和巴尔·摩西撰写。

翻译自: https://towardsdatascience.com/4-essential-tactics-for-managing-a-great-distributed-data-team-e7df9f85e6fa

数据库备份策略 分布式


http://www.taodudu.cc/news/show-997623.html

相关文章:

  • 深度学习 免费课程_2020年排名前三的免费深度学习课程
  • 机器学习:分类_机器学习基础:K最近邻居分类
  • 将PDF和Gutenberg文档格式转换为文本:生产中的自然语言处理
  • 协方差意味着什么_“零”到底意味着什么?
  • 全栈入门_启动数据栈入门包(2020)
  • marlin 三角洲_三角洲湖泊和数据湖泊-入门
  • 机器学习 建立模型_建立生产的机器学习系统
  • 风能matlab仿真_发现潜力:使用计算机视觉对可再生风能发电场的主要区域进行分类(第1部分)
  • 实验人员考评指标_了解实验指标
  • nba数据库统计_NBA板块的价值-从统计学上讲
  • 两个链接合并_如何找到两个链接列表的合并点
  • 工程师的成熟模型_数据工程师的成熟度
  • scrape创建_确实在2分钟内对Scrape公司进行了评论和评分
  • 如何不认识自己
  • plotly python_使用Plotly for Python时的基本思路
  • java项目经验行业_行业研究以及如何炫耀您的项目
  • 数据科学 python_适用于数据科学的Python vs(和)R
  • r怎么对两组数据统计检验_数据科学中最常用的统计检验是什么
  • 深度学习概述_深度感测框架概述
  • 为什么即使在班级均衡的情况下,准确度仍然令人困扰
  • 接受拒绝算法_通过算法拒绝大学学位
  • 为什么用scrum_为什么Scrum糟糕于数据科学
  • 使用集合映射和关联关系映射_使用R进行基因ID映射
  • 详尽kmp_详尽的分步指南,用于数据准备
  • SMSSMS垃圾邮件检测器的专业攻击
  • 使用Python进行地理编码和反向地理编码
  • grafana 创建仪表盘_创建仪表盘前要问的三个问题
  • 大数据对社交媒体的影响_数据如何影响媒体,广告和娱乐职业
  • python 装饰器装饰类_5分钟的Python装饰器指南
  • 机器学习实际应用_机器学习的实际好处是什么?

数据库备份策略 分布式_管理优秀的分布式数据团队的4种基本策略相关推荐

  1. 上传自定义日志_ZKEYS系统重磅更新,新增后台数据库备份、主控运行日志管理等新功能!...

    ZKEYS云管平台(大陆版)5.1.5版本震撼上线,新增后台备份数据库.后台主控运行日志管理.后台调试模式开关.后台设置Redis功能.定时任务查看管理功能.裸金属库存切换等大量新功能. 一.新增功能 ...

  2. sql数据库备份默认路径_在Linux上SQL Server中更改默认数据库文件和备份路径

    sql数据库备份默认路径 In a previous article, we explored the process to change default SQL dump file location ...

  3. 外汇交易市场策略:简单最常用的四周规则与七种交易策略

    简单常用四周规则 随着越来越复杂.越来越富于想象力的外汇交易系统和外汇指标的出现,外汇投资者们往往忽视了那些简单.基本的工具,而它们的效果相当好,经受住了时间的考验.今天,为大家分享其中一种最简便的外 ...

  4. MySQL数据库备份恢复(日志管理)

    MySQL数据库日志管理 1.数据库中数据丢失或被破坏可能原因 2.日志类型 1)错误日志 2)查询日志 3)慢查询日志 4)二进制日志(极其重要) 1.数据库中数据丢失或被破坏可能原因 误删除数据库 ...

  5. mysql 数据库备份到本地_如何备份远程 MySQL 数据到本地

    对于远程的 MySQL 数据库,如何定期将数据备份到本地呢?对于需要远程备份数据的童鞋来说我想这个是经常需要用到的. 1.首先远程数据库必须支撑远程连接,提供有供远程连接的IP或者域名. 假设远程数据 ...

  6. 基于数据库数据增量同步_基于canal实现分布式数据同步

    应用场景 分布式架构中,数据同步常常是个大问题.例如,mysql中的数据,可能在ElasticSearch有一份索引,在redis有一份缓存,在Nginx有一份缓存,这时候只要你修改了mysql中的数 ...

  7. 数据分析团队的价值_您的数据科学团队的价值

    数据分析团队的价值 This is the first article in a 2-part series!! 这是分两部分的系列文章中的第一篇! 组织数据科学 (Organisational Da ...

  8. 阿里云 mysql 导出数据库备份_导出整个mysql数据库备份

    mysql和mssql的备份和恢复数据的方法 mysql数据库的备份方法可以用 导出要用到MySQL的mysqldump工具,基本用法是: shell> mysqldump [OPTIONS] ...

  9. SQL Server数据库备份和还原报告

    In the previous articles, we discussed several ways of taking backup and testing the restore process ...

最新文章

  1. 艾伟也谈项目管理,说说我们项目组的考核
  2. 已解决:k8s集群启动后,默认创建哪些namespace?
  3. 云数据库管理与数据迁移
  4. 2030年,逾1亿中国人需要学习新技能并转换岗位,这就是摩擦性失业
  5. 如何在 SAP UI5 应用中集成第三方库 :一个在移动设备上查看 Web 应用打印调试信息的小技巧
  6. 永磁直驱风力发电机结构图_风机越来越大,国内首台10兆瓦海上风力发电机研制成功...
  7. swift5.x基础知识入门
  8. (2.15)备份与还原--使用作业备份、清理过期备份、清理历史记录、事务日志是否备份过...
  9. [JavaWeb-MySQL]DML_操作表
  10. 零XML的Spring配置
  11. 论文笔记(Neural Collaborative Filtering)
  12. css选择器_css入门必学,基础重难点,css选择器
  13. slice,substr,substring三者的区别
  14. python处理二进制文件_python如何对文件进行二进制写操作
  15. PHP工具篇:PHPStorm IDE使用CodeSniffer代码规范化管理
  16. 腾讯2018春招笔试题,翻转数列
  17. java中加权滤波怎么用_方向加权中值滤波算法-The Directional Medial Filtering with Weights...
  18. DCDC BUCK芯片外围电路器件计算-包括Cin、Cout、L、f、cFF、等输出电容、电感计算、补偿电路计算
  19. 代理模式和装饰模式的区别
  20. App Store榜单优化:App出海必须掌握的ASO技巧

热门文章

  1. border-image图片边框
  2. readonly的用法
  3. js 更改json的 key
  4. go map数据结构
  5. (转) Spring 3 报org.aopalliance.intercept.MethodInterceptor问题解决方法
  6. sql server2008禁用远程连接
  7. 定义jQuery插件
  8. iOS5 UI 设计新手段 Storyboard
  9. 计算机中的数(一):数在计算机中的表示
  10. Linux 禁止sendmail 自启动