提示:本文的观点和见解仅代表个人意见,我必须承认,我的眼界可能有点窄,可能会有点小疏忽。别担心,我乐于接受各种指正。继续关注我,我们一起笑对纰漏,共同探讨更多有关数据仓库和相关领域的话题。谢谢您的支持!

目录

前言

一、数据仓库建设:访谈行业大咖心酸揭秘

访谈1:游戏领域 ,某牛X游戏公司数仓负责人(工作年限8年)- 张总

访谈2:保险领域 ,某光保险集团数仓高级开发工程师(工作年限10年)- 李工

访谈3:电商领域 ,某医药电商平台数仓负责人(工作年限9年)- 肖总

访谈4: 旅游电商领域,某旅游平台数仓负责人(工作年限8年)- 郑总

访谈5: 电信领域,某平台数仓负责人(工作年限9年)- 李总

访谈6: 社交媒体领域,某平台数仓负责人(工作年限9年)- 张总

二、失败原因与经验总结:数据仓库项目,“数据”上的修行


前言

无论您是数据仓库建设爱好者还是数据仓库工程师,本文章将为您揭示一系列令人深思的场景和案例。我们将带您一起笑看需求混乱、数据迷失、ETL搞笑失误以及领导妙语的影响等构建数据仓库失败的经典场景。


一、数据仓库建设:访谈行业大咖心酸揭秘

访谈1:游戏领域 ,某牛X游戏公司数仓负责人(工作年限8年)- 张总

主持人: 张总,作为游戏行业的数仓大佬,在构建数据仓库时,您有经历过失败么以及您如何看待构建数据仓库失败的原因?

张总:是的,我曾经参与过多个大型数据仓库项目。从开始到现在,都是伴随这各种失败成长起来的。当然失败的原因有很多,主要原因是缺乏清晰的业务需求和定义。我们没有与业务部门充分合作,导致数据仓库的设计与实际业务需求脱节。其次是数据仓库中的数据模型和数据质量控制没有切实考虑到实际业务过程和数据采集的特点,导致数据仓库的实际数据质量遭到质疑。

访谈2:保险领域 ,某光保险集团数仓高级开发工程师(工作年限10年)- 李工

主持人: 张总刚才谈到数据质量问题,李工以您在保险行业数仓的建设经验来看,数据质量对数仓构建影响有多大呢?

李工:其实不管哪个行业,数据仓库都依赖于高质量的数据。在整个数据仓库构建过程中,必须高度重视数据质量的管理,它对数据仓库的有效性和实用性有着深远的影响。数据准确性、数据完整性、数据一致性、数据可信度等都会影响数据的质量。不好的数据质量会导致数据仓库不能提供可靠的数据分析和报告,从而降低数据仓库的可用性和实用性,最终导致数据仓库项目的失败。在构建数据仓库之前,应该制定有效的数据质量控制方法和策略,以确保数据仓库的数据质量符合需求,才能确保数据仓库项目的成功。我们在构建保险大数据仓库的开始阶段,其实是很痛苦的。在开始阶段采集的数据源包含了大量重复、缺失、不一致的数据。而且,数据源系统的变更也没有同步到数仓设计中,导致数据仓库被充斥着错误和缺失的数据,降低了数据仓库的价值和可靠性。由于数据质量问题的严重性,公司最终停止了该项目的运作。惨痛的教训是我认识到,构建数据仓库项目时,不仅要注重数据的采集、整理和清理,还要考虑数据维护过程中出现的变化,确保数据的质量不仅是符合业务标准的,而且还得保证数据质量的可持续性。

访谈3:电商领域 ,某医药电商平台数仓负责人(工作年限9年)- 肖总

主持人: 感谢李工的分享,数据质量影响整个数仓的可信度,同时也增加数仓开发设计复杂度,针对这一点肖总有什么心得体会给我们分享呢?

肖总:电商领域是一个多元化的领域,且数据来自于多个数据源,比如网站、APP、支付系统、物流系统、社交媒体等等,需要对来自不同数据源的数据进行集成和整合。对于数据质量和数据集成的掌控都是至关重要的。在数据集成时,需要确保每个数据源中的数据类型、数据格式和数据标准都是一致的,这可以确保汇总的数据集是正确、完整且一致的。但现实情况确实要复杂的多,由于需要跨不同的业务系统对数据集成,整个过程将会变得复杂,除了数据质量本身的问题,还需要解决数据格式不一致、数据结构差异、数据同步和数据转换等问题,如果数据集成过程中遇到困难或错误,可能导致数据仓库无法正确地整合和使用数据。此外还要考虑到不同业务部门技术架构差异的问题。这些问题都会提升数据仓库在进行数据集成时的复杂度,甚至造成数据集成混乱。

访谈4: 旅游电商领域,某旅游平台数仓负责人(工作年限8年)- 郑总

主持人:肖总在关注数据质量的同时,提到了数据仓库的构建涉及技术层面的问题,技术的挑战时时刻刻存在,这块对数据仓库的影响有多大呢?郑总

郑总:数据仓库的构建涉及到多个技术层面,包括数据建模、ETL(抽取、转换和加载)、数据存储和查询优化等。如果没有足够的技术能力或选择了不适合的技术方案,可能会导致数据仓库的性能、可扩展性或灵活性不佳。具体的情况我个人认为主要包含以下方面。

  1. 数据建模不合理:数据建模是数据仓库的基础,决定了数据的组织方式和查询性能。如果数据建模不合理,可能导致数据仓库的查询效率低下或无法满足实际需求。例如,不正确的维度建模或事实表设计可能导致复杂的查询操作,降低了数据仓库的性能和可用性。

  2. ETL过程问题:ETL(抽取、转换和加载)是数据仓库中数据的关键处理过程。如果ETL过程存在问题,如数据抽取不完整、转换规则错误或加载过程出现错误,可能导致数据仓库中的数据质量下降或数据丢失。这会影响数据仓库的可靠性和准确性。

  3. 数据存储不合理:选择不合适的数据存储方案可能导致数据仓库的性能、可扩展性或灵活性不佳。例如,使用不适合的数据库引擎或存储架构可能导致查询性能下降,无法满足实时查询或大规模数据处理的需求。此外,存储容量管理不善可能导致数据仓库过载或不足,进一步影响数据仓库的可用性。

  4. 技术能力不足:数据仓库项目需要具备一定的技术能力和经验。如果团队缺乏足够的技术能力,无法理解和解决复杂的技术挑战,可能导致数据仓库项目的失败。此外,选择不适合的技术方案,或对新兴技术趋势缺乏关注和适应能力,也可能使数据仓库无法适应快速变化的业务需求。

综上所说:缺乏合理的数据建模、ETL过程问题、不合理的数据存储、查询优化问题以及技术能力不足等都可能对数据仓库的性能、可扩展性和灵活性造成负面影响,最终导致数据仓库的失败

访谈5: 电信领域,某平台数仓负责人(工作年限9年)- 李总

主持人: 郑总分析的很深刻,最后郑总提到了团队相关的因素,数仓团队是整个构建数仓的核心,除了技术以外可能还会涉及到其他方面的资源。李总您怎么看?

李总:好的,首先构建和维护数据仓库都需要一支专业的团队,并且需要适当的人力资源、技术工具和基础设施支持。如果公司缺乏构建数据仓库所需的资源和团队,可能导致项目失败或无法按计划实施。所以数仓团队需要有合适的培训计划和知识共享机制,以保证团队开发人员的知识储备和数仓意识。很多情况是团队缺乏必要的技能和知识,或者缺乏培训和学习机会,可能会导致数据仓库无法充分利用和发挥其潜力。当然除了数仓技术的知识储备以外,还需要沟通、协作、项目管理等相关知识储备。构建数据仓库是一个复杂而耗时的过程,需要合理规划项目的时间和资源。并且在构建过程中需要与多个部门和团队进行跨部门合作和沟通。建立有效的沟通渠道、解决冲突和协调不同利益相关者之间的需求,对于项目的成功也是至关重要。最后补充一句,数仓构建不仅仅需要技术过硬的团队,更需文化土壤

访谈6: 社交媒体领域,某平台数仓负责人(工作年限9年)- 张总

主持人: 文化土壤这个提法很好,张总对此有没有更深刻的体会?

张总:  对于文化土壤我的理解是这样的,构建数据仓库需要有一种数据驱动的文化和组织氛围,以促进数据的价值和利用。如果公司缺乏数据文化,即缺乏对数据的重视和有效利用,可能会导致数据仓库的建设难以推动和落地。假设组织缺乏对数据的重视和认可,数据仓库项目可能无法获得足够的支持和资源。缺乏高层管理的批准和参与,以及缺乏部门间的合作和数据共享,可能导致数据仓库项目无法得到必要的支持和数据资源,从而难以成功实施。此外缺乏数据文化和数据驱动决策可能导致数据质量的下降。组织对数据的准确性、一致性和完整性缺乏重视,可能导致数据仓库中的数据质量问题。低质量的数据会对数据仓库的可靠性和可信度产生负面影响,使数据仓库的价值降低。数据仓库的目的之一是支持数据驱动的决策,如果组织缺乏数据驱动的决策文化,即决策者不习惯使用数据来指导决策,数据仓库的存在可能无法发挥其应有的作用。决策者仍然依赖主观判断或个人经验,而忽视了数据仓库中提供的数据分析和洞察力,这会导致数据仓库的失去其核心价值。所以在数据仓库项目中,除了关注技术层面的挑战外,也需要重视组织文化和决策过程,确保组织能够建立起数据驱动的文化和决策机制,充分发挥数据仓库的作用,实现数据驱动的业务决策。

二、失败原因与经验总结:数据仓库项目,“数据”上的修行

  1. 缺乏清晰的业务目标和规划:数据仓库项目需要明确的业务目标和规划,以确保数据仓库与组织的业务需求相一致。如果没有清晰的目标和规划,项目可能会失去方向,无法满足实际需求。

  2. 数据质量问题:数据仓库的成功建立需要高质量的数据。如果源数据质量低下、缺乏一致性或存在错误,那么数据仓库的价值就会大打折扣。数据清洗、数据转换和数据集成等环节中的问题可能导致数据仓库项目失败。

  3. 复杂的数据集成:数据仓库需要从多个不同的数据源中收集、整合和集成数据。这可能涉及到不同的数据格式、结构和质量,以及各种数据提取、转换和加载(ETL)过程。如果数据集成过程复杂且困难,项目可能会陷入困境。

  4. 缺乏合适的技术和工具支持:数据仓库的建设需要使用适当的技术和工具来支持数据整合、查询和分析等任务。如果组织缺乏合适的技术和工具支持,或者选择了不适合其需求的技术和工具,那么项目的成功可能性就会下降。

  5. 组织文化和管理问题:数据仓库项目需要得到组织内各个层级的支持和参与。如果组织文化不支持数据驱动的决策和分析,或者项目缺乏高层管理的支持和关注,那么项目的推动和实施就会受到阻碍。

  6. 预算和时间限制:数据仓库项目通常是复杂且时间长的过程。如果项目的预算和时间限制过于严格,可能会导致项目在实施过程中出现问题,无法按计划完成。

虽然有统计数据显示数据仓库项目的失败率较高,大概85%左右,但并不意味着所有数据仓库项目都注定会失败。充分的规划、资源投入、技术支持以及合适的管理和文化氛围等因素都可以提高数据仓库项目的成功率

感谢大家阅读我的博客!如果你对数据仓库项目感兴趣,并想深入了解和探讨相关的经验和技巧,我诚挚邀请你关注我的其他社交媒体渠道。在我的QQ群/微信公众号(名称)中,我会定期分享更多关于数据仓库的实战经验、最佳实践和行业动态。

通过加入我们的群或关注我的公众号,你将获得以下好处:

  • 独家分享:获取我在数据仓库领域的实践经验和深入见解。
  • 互动交流:与我和其他志同道合的人分享你的想法、提出问题或参与讨论。
  • 实用资源:获得有关数据仓库工具、模板和学习资料的最新更新。

   我非常期待与你在社交媒体平台上的互动和交流。让我们一起共同探索数据仓库的奥秘,实现数据驱动的成功!


从失败中笑看数仓:探索构建数仓失败的原因相关推荐

  1. 看这篇就明白大数据实时数仓、离线数仓、数据湖之间的关系

    数仓架构演变 20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则 ...

  2. 数智学习|湖仓一体实践与探索

    栏目语 数澜科技开设栏目「技术派+」,聚焦前沿技术,洞悉行业风向,分享来自一线的研发经验与应用实践. 本期专栏由数澜科技研发中心副总经理白松带来,分享湖仓一体实践与探索. 导语 随着社会数字化进程不断 ...

  3. 离线数仓与实时数仓的比较

    01数仓架构演变 20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计 ...

  4. 离线数仓和实时数仓的区别

    作者介绍 @车云祥 大宇无限  数据产品负责人 主要负责全公司底层数据治理,构建统一指标体系: 主导 BI 系统.用户画像系统.广告投放平台.广告流量优化等设计工作: 推动 Snaptube.Lark ...

  5. 读心术:从零知识证明中提取「知识」——探索零知识证明系列(三)

    本文已更新至Githubhttps://github.com/sec-bit/learning-zkp/blob/master/zkp-intro/3/zkp-pok.md 导言:有些理论非常有趣,零 ...

  6. 梅花香自苦寒来 ----议张恂《笑看JavaEye软工坛之叽叽喳喳》

    梅花香自苦寒来 ----议张恂<笑看JavaEye软工坛之叽叽喳喳> 序 从J2EE阵营走出来已经半年了,这时间一直在中国一家一流电信设备商从事C++程序开发工作.如果你没有这样的经历,你 ...

  7. 在失败中学习,MIT新研究显示,机器可以像婴儿一样学会理解人类目标

    大数据文摘出品 来源:MIT 编译:周熙 在Warneken和Tomasello关于人类社会智力的经典实验中,一个18月大蹒跚学步的幼儿看着一个男人抱着一堆书走向一个未开封的柜子.当男子到达柜子时,他 ...

  8. 创建试图 失败_在失败中学习,MIT新研究显示,机器可以像婴儿一样学会理解人类目标...

    大数据文摘出品 来源:MIT 编译:周熙 在Warneken和Tomasello关于人类社会智力的经典实验中,一个18月大蹒跚学步的幼儿看着一个男人抱着一堆书走向一个未开封的柜子.当男子到达柜子时,他 ...

  9. 美团搜索中查询改写技术的探索与实践

    猜你喜欢 0.[免费下载]2022年1月热门报告盘点1.腾讯QQ信息流推荐业务实践2.小红书推荐中台实践3.微信视频号的实时推荐技术架构分享4.预训练模型在华为信息流推荐系统中的探索和应用5.腾讯PC ...

最新文章

  1. 【DBMS 数据库管理系统】数据库 体系化环境 ( 数据库体系化环境简介 | 四层体系化环境 | 数据集市 )
  2. 知道不知道 (刘若英演唱歌曲)
  3. 好程序员大数据教程:SparkShell和IDEA中编写Spark程序
  4. mysql explain中key_len值的说明
  5. 严蔚敏算法约瑟夫环_极客算法训练笔记(三),链表详细图解,别再逃避了朋友...
  6. UE4 性能优化方法(工具篇)
  7. android自定义队列,Android 消息机制(一)消息队列的创建与循环的开始 Looper与MessageQueue...
  8. websphere linux版本,安装IBM Websphere on linux
  9. h5球的立体效果_使用HTML5 Canvas 2D直角坐标系实现三维球体效果
  10. 线程安全的atomic wrapper classes例子
  11. 【C#】图片处理(底片,黑白,锐化,柔化,浮雕,雾化)
  12. 二、运行盛派的Demo(看下效果)
  13. 【图像检测】基于区域生长算法实现对焊接孔隙检测matlab代码
  14. Halcon 第二章『图像滤波』◆第5节:texture_laws算子(纹理过滤器)的计算原理
  15. win10系统word2019显示目录只显示部分一级二级解决办法
  16. 海明码的编码和校验方法
  17. 使用runOnUiThread更新UI
  18. Python基础第一周
  19. mysql pdo 端口_链接Mysql的api mysqli和pdo
  20. centos7 输入 ifconfig 不显示 ip 地址 连接不上的解决方法(亲测成功)

热门文章

  1. OBU-采用DSRC技术与RSU进行通讯的车载单元装置
  2. Java包装类作为参数传递
  3. SEO 网站页面SEO优化之页面title标题优化
  4. 交换空间清理及使用率调整
  5. 10种最不健康的生活方式(转)
  6. bWAPP解题笔记——XSS
  7. jq循环添加html绑定动态数据及事件
  8. mybatis源码分析3 - sqlSession的创建
  9. ubuntu添加用户并给予sudo权限
  10. php选框判断,jquery判断复选框是否被选中