简介: 阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。

行业综述

线下教育行业因疫情受挫,线上教育却逆势增长
随着90年代互联网的引入,在线教育产品也依托于互联网诞生。随着互联网技术的发展,在线教育产品也开始了出现新的模式。在线教育从最初单纯的文字形式,开始往图片、音频方面开始发展。加上这几年直播技术的发展和人工智能等技术在在线教育的应用,在线教育成为今年疫情影响下,为数不多能实现逆势增长的行业。
由于疫情的影响,教育行业根据中央疫情防控工作部署,直接暂停各类线下授课,不举办任何形式的聚集性培训活动。在此期间各类线下培训机构遭受重创,某知名线下教育机构上半年营收同期降低30%,净亏损将近1亿。
和线下教育不同的是,线上教育行业整体呈现逆势增长的态势,根据数据显示,2020年中国在线教育用户规模预计将达到3.51亿人,预计市场规模将达到4858亿元。同时由于疫情的影响,三月份在线教育市场渗透率更是高达85%,增长率是2019年的5倍以上。

行业发展方向

在线教育向数据化发展,行业逐步智能化
教育在线化也进一步促进了数据化的发展,内容作为教育企业的核心资产,无论是数据化程度还是数据化规模都不断提升;同时用户使用时长的提升,又为教育AI提供了大量源数据。据统计今年3月份在线教育用户日均在线时长,超过200万天。如此海量的数据为行业的智能化发展提供了良好的土壤,推动了教学内容、课程营销、师资管理、质量评估等智能分析的发展。

面临的痛点

行业飞速发展,数据处理成难题
行业飞速发展,用户大量涌入,数据暴增,这就对企业在业务与数据多样性方向带来了挑战。
首先由于在线教育行业的特殊性,业务量会随着学校是否放假而产生波动,基本呈现“春秋高、寒暑低”的季节性规律。同时由于此次疫情事件,让整个行业重新认识到突发性业务的威力,因此如何更平滑地应对业务波动,对企业来说仍然是一个非常重要的挑战。
其次大量用户涌入平台,势必会带来大量的用户行为数据,数据的增加自然会带来存储成本的增长。但数据是有价值的,利用好数据,将会为企业带来更多的客户以及更高的转化。因此如何将这部分数据沉默成本与数据的价值相平衡,对企业来说也是一个巨大的挑战。
另外在线教育往往会涵盖多个细分领域,经常会包括学前教育、K12、语言类、职业类、高等教育等。教育机构往往会涉及到多应用、多教学场景,从而产生繁多的数据,因此如何应对多类型的数据存储,对于平台方来说也是一个不小的挑战。

教育行业数据湖解决方案

构建统一的在线教育数据湖,让数据的价值真正得到利用
基于以上问题,我们可以构建一个统一的在线教育数据湖。阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。

首先阿里云基于云存储构建的数据湖天然具有很好的弹性伸缩能力,特别是在阿里云的节点及规模优势基础之上,能够轻松应对业务指数级的扩容需求,平滑应对业务各类型波动及峰值。
其次,阿里云对象存储OSS支持标准、低频、归档三种存储类型,覆盖热、温、冷的数据场景,结合生命周期管理功能,可以自动实现对数据的冷热分层,很好实现对数据存储的成本的管理。
在此基础上,DLA提供的弹性计算能力,Serverless SQL(Presto)和Serverless Spark双计算引擎,快速搭建业务分析系统,并且帮助用户轻松应对波峰波谷的压力,最大限度降本增效。
最后在应对丰富的数据类型上,面向教学场景的教学资源数据、教学过程数据、教学评价数据、教学行为数据;面向结构化或非结构化数据;面向音视频数据、各应用数据、日志数据等,都可以通过基于OSS的数据湖沉淀,并进行统一的存储。

最佳实践

客户介绍:
该客户需要可发内容资讯APP,为用户提供感兴趣、有价值的个性化内容,致力于让用户的阅读更有价值,因此个性化推荐就成为其产品重要的核心能力。

遇到的问题:
1、随着业务多年的发展,存储数据量规模已经达到百PB左右,数据在产生阶段会有比较密集的访问,随着时间的增长,数据的访问会逐渐趋冷,多年累积的冷数据已经对集群容量产生了极大压力

2、客户原计划通过扩大集群规模,去支撑冷数据的持续增长,但随着数据规模持续增加,让集群扩容难度大幅度提升。另一方面,扩容的服务器的计算资源利用率较低,无法形成资源的充分利用

数据湖解决方案
1、数据湖解决方案,可为用户提供数据冷热分层的功能,积累的冷数据被统一迁移到阿里云对象存储OSS,新产生的热数据保存在HDFS集群,热数据经过一段时间逐渐趋冷后,就会定期迁移到对象存储OSS进行冷处理

2、阿里云对象存储OSS对于Hadoop生态的支持特性,原有计算任务只需简单调整访问地址就可以按照原有方式运行,让计算任务能够平滑迁移到数据湖运行。对于存储到OSS冷数据,客户通过OSS Lifecycle机制,定期将一部分冷数据进一步深度转化为OSS归档类型,持续优化冷数据存储成本,达到降本增效

达到的效果
1、OSS提供业内最丰富的API接口,帮助客户将海量数据从其他从各个不同数据源轻松迁移到OSS
2、客户在OSS的基础上,还采用阿里云的日志服务,一站式解决日志采集、处理、查询、投递的各种难题,甚至还可以通过混合云存储阵列打通云上线下数据的一体化
3、数据湖消除了客户之前存在的数据孤岛现象,支持各种计算引擎的直接对接,存储与计算解耦合的架构,能够更容易使用弹性计算和serverless化的云服务,让数据分析和访问无处不在

原文链接
本文为阿里云原创内容,未经允许不得转载。

如何使用云原生数据湖,助力线上教育行业逐步智能化相关推荐

  1. 云端数智新引擎,腾讯云原生数据湖计算重磅发布

    引言 是否遇到过,一个简单的业务统计需求却让数据工程师们抓耳挠腮? 是否遇到过,业务峰值周期明显,要么资源大量闲置, 要么线上疯狂告警? 是否遇到过,大数据集群运维复杂,需要投入大量技术工程师? 针对 ...

  2. 的数据湖_一文读懂云原生数据湖体系

    导读:如何基于阿里云 OSS .JindoFS 和数据湖构建(Data Lake Formation,DLF)等基础服务,同时结合阿里云上丰富的计算引擎,打造一个全新云原生数据湖体系? 作者 | 吴威 ...

  3. 深度 | 面向云原生数据湖的元数据管理技术解析

    简介: 作者:沐远.明惠 背景 数据湖当前在国内外是比较热的方案,MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201亿美金.一些企业已经 ...

  4. 云原生数据湖以存储、计算、数据管理等能力通过信通院评测认证

    又一项大能力-云原生数据湖获得信通院认证啦! 近日,中国信息通信研究院 (以下简称"信通院") 正式公布了第十四批"大数据产品能力评测"结果,腾讯云云原生数据湖 ...

  5. 「星火计划沙龙视频」云原生数据湖专场

    7月15日,腾讯大数据星火计划技术沙龙第9期<腾讯大数据云产品--云原生数据湖专场>于线上直播.本次沙龙围绕云原生数据湖架构的背景价值展开,详细介绍了腾讯云原生数据湖解决方案,为大家解读了 ...

  6. 一文读懂云原生数据湖体系

    凌云时刻 · 极鲜速递 导读:如何基于阿里云 OSS .JindoFS 和数据湖构建(Data Lake Formation,DLF)等基础服务,同时结合阿里云上丰富的计算引擎,打造一个全新云原生数据 ...

  7. 架构师必备:云原生数据湖体系

    背景 " 数据湖 "正在被越来越多人提起,尽管定义并不统一,但企业们都已纷纷下水实践,无论是AWS还是阿里云.华为.我们认为:数据湖是大数据和AI时代融合存储和计算的全新体系. 为 ...

  8. 极客星球 | 阿里:云原生数据湖构建与分析实践

    编者按:6月24日[Coder Park]第一季架构篇之大数据平台架构分享线上直播活动圆满结束.本期特邀MobTech袤博科技合伙人.首席数据官杨冠军担当出品人,阿里巴巴计算平台事业部大数据平台技术专 ...

  9. 云原生数据湖为什么要选择腾讯云大数据DLC,一份性能分析报告告诉你!

    摘要 日前,腾讯云大数据数据湖计算 DLC 与国内两家知名云厂商的数据湖产品进行了性能对比,其中腾讯云 DLC 在三款产品中SQL平均执行查询时间短,性能表现优.腾讯云大数据 DLC 在存算分离和大数 ...

最新文章

  1. Ranking第7名,2020 CrowdHuman大赛Baseline发布
  2. JS系统库:预定义对象(内建对象)
  3. 在Intellij IDEA中运行Vaadin应用
  4. 7-8 连续因子 (20 分)
  5. ZooKeeper(一)linux上单机与集群的搭建
  6. php连接mysql数据库失败_PHP远程连接MySQL数据库失败之原因
  7. beautifulsoup_如何使用 Python 和 BeautifulSoup 爬取网站
  8. java getSource()和 getActionCommand()区别
  9. 最新PHP云购源码+带机器人/控制/教程/去授权说明
  10. as(四级考试频度很大的几个用法)
  11. 恩智浦imx8qxp-mek的 device Tree 结构
  12. 打开虚拟机电脑就重启和虚拟机不兼容hyper - v无法开启的解决方案。
  13. python的for语句有几种写法_python的for循环写法
  14. 2018年AI和ML(NLP、计算机视觉、强化学习)技术总结和2019年趋势(上)...
  15. 番茄助手VA_X的安装
  16. 最好用的开源日志分析工具
  17. mysql如何导入生僻字_MySQL插入生僻字失败的处理方法(图)
  18. python千年虫问题enumerate函数
  19. asp毕业设计——基于asp+sqlserver的学籍管理系统设计与实现(毕业论文+程序源码)——学籍管理系统
  20. python画网格并填充颜色_如何更改颜色并在python曲面图上添加网格线?

热门文章

  1. canvas 插件_基于Angular的Canvas手写签名插件
  2. string类的erase函数属于stl吗_探索STL容器:vector
  3. ieee39节点系统介绍_Java秒杀系统实战系列-基于ZooKeeper的分布式锁优化秒杀逻辑...
  4. vba显示正在加载_简单、易用的VBA过程积木代码
  5. python类的使用_python类的使用
  6. android 3.0单元测试,Android Studio 3.0 gradle 3.0.0-beta2打破了Kotlin单元测试覆盖率?
  7. xadmin的html文件,django xadmin(2) 在xadmin基础上完成自定义页面
  8. distinct过滤掉重复记录并且显示所有字段_MySQL的所有姿势,我都帮你准备好了...
  9. html获取此次点击的id,github项目解析(八)--Activity启动过程中获取组件宽高的三种方式...
  10. oracle10g如何导出dmp,Oracle 10g dmp文件的导入导出