整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

科技长河,顺之者昌,错失者亡。在这个技术百态之中,中国专业的 IT 社区CSDN 创始人&董事长蒋涛曾多次在公开活动中表示,开发者是对技术变革最敏感的人群。这不仅源于开发者、工程师创建了助力这个时代蜕变的工具,他们还极具前瞻性地缔造了真实世界之外的虚拟、数字化世界。

当前,在 AI、物联网、云计算、大数据等技术编织的巨网下,不想错失新的机遇,或许我们可以从已身在局中人的观点及整体趋势来汲取一二。

CSDN 最早从 2004 年开始针对中国开发者进行大规模调查,是迄今为止覆盖国内各类开发者人群数量最多,辐射地域、行业分布最广的调查活动。在《2019-2020 年中国开发者调查报告》中,面向具备超强计算力的数字化世界,我们进行了「大数据技术应用现状分析」,并发现:

2017 年,大数据企业骤增,目前已有 81% 的企业正在运用大数据技术进行应用开发;

大数据行业,中小型企业占比较高;

私有云解决方案是企业大数据平台构建的主要方式;

借助大数据,开发者能够实现更智能的决策;

大数据企业面临的主要难点是“做大数据应用规划”;

大数据时代,企业数据主要来源于企业内部;

Hadoop 社区正式发行版本开发者最受欢迎;

Spark 是使用最普遍的大数据平台组件;

Redis 和 Kafka 是最普遍使用的消息队列和数据采集技术组件。

大数据时代已至!

在全面云化时代下,正如《大数据时代》的作者之一维克托教授所分享的,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计算。

在过去几年间,很多人亲眼见证并体验到了这一点。根据调研数据显示,我们发现在政府政策的驱动,以及算法、区块链、云计算等技术的成熟发展等多重因素下,自 2017 年起,应用大数据技术的企业出现迅速增长,截至目前,已有 81% 的企业正在运用大数据技术进行应用开发。

对于开发者/企业而言,大数据带来的利好显而易见。根据调研结果显示,有 64% 的开发者表示应用大数据能够实现更智能的决策;其次,54% 的开发者表示提升了运营效率;29% 的开发者表示其产品或运营决策大部分依赖A/B测试。

不过,从已从事大数据的企业中,我们发现有 78% 企业大数据团队规模在 30 人以下,其中 5 人以下规模的团队占比为 37%,而 100 人以上较大团队规模的仅有 5%。

从企业大数据团队的规模来看,这意味着,诸多的企业在这一方面的投入仍处于初探或刚起步阶段。

云时代下的企业困境

中国有句老话,「万事开头难」。对于刚处于初次尝试的大数据企业,面对需要具备强大的计算、分析、处理能力,万事起步更难。在调研数据报告中,这一点也得到了证实。在很多开发者/企业在踏出第一步时,56% 的受访者表示,「如何做大数据应用规划」成为其面临的主要难点,也成为影响企业大数据应用落地的最大障碍。此外,企业内部能够胜任这方面工作的人才也较为缺乏,本次调研数据也说明,大数据人才的缺乏是企业构建大数据应用时遇到的普遍问题之一。

事实上,基于这一点,业界不少领军企业也纷纷推出协作共赢计划,旨在帮助更多的同行者,共建、共享、共享完善的技术生态。以华为为例,华为将以“鲲鹏+昇腾”为底座,在未来 5 年投入 105 亿元(15亿美元),构建“华为鲲鹏生态”。基于鲲鹏生态,各行各业可快速上手基于华为鲲鹏和昇腾处理器的 IT 基础设施及行业应用,包括 PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务及行业应用等,在大数据与人工智能场景,发挥其架构优势,释放多元算力。

目前,华为云已经拥有超过 4000 个鲲鹏生态合作伙伴。在“新基建” 34 万亿投资浪潮中,5G、人工智能、大数据中心和工业互联网领域所产生的算力需求和国产化需求,让华为鲲鹏生态充满机遇,吸引更多企业级应用与 SaaS 服务对华为鲲鹏做兼容性适配。

私有云是诸多的企业的首要选择

在井喷式爆发的信息之下,随着云计算技术的成熟及广泛应用和出于对数据安全性的考虑,很多企业选择了私有云解决方案来部署大数据应用,这一占比在 2019 年达到了 50%。除了安全方面的考虑,不少企业也基于部署速度、弹性扩展、运维流程从而选择了私有云。另外,也有 28% 的企业选择自主研发来构建大数据平台。

企业大数据平台构建现状

基于以上,当一部分企业正在着手做大数据应用规划之际,部分企业开始将传统的一些场景实现数据可视化。据调研数据显示,目前大部分企业对大数据的应用更多体现在统计分析、报表及数据可视化上,占比为 56%,相较于传统的人工输入统计分析,大数据的应用在很大程度上提高了效率并减少了劳动力。

其次,在机器或设备数据实时监控、告警与运维管理上,大数据应用也相对广泛,占 33%。随后,大数据还应用于用户画像建模、个性化推荐与精准营销中,占 29%。

整体而言,当下企业大数据应用场景仍相对单一。

企业数据主要来源于企业内部的日志数据,主要包括系统日志和用户行为日志,根据本次调研数据显示,此项占 60%,其次,来自供应商或合作伙伴提供数据的占 37%。

在数据规模上,据调研数据显示,45% 的企业日均处理数据规模在 1TB 以下,1-10TB 的企业仅占31%,日均处理数据规模在 10TB 以下的企业占到七成。

本次调研中,55% 的企业大数据平台集群规模拥有 20 个节点以上,其中 5% 的企业集群规模在 5000 个节点以上。

Spark、Redis、Kafka 成大数据开发者最喜爱的技术

据调查报告显示,开发者仍以主流的技术为主。

数据库:MySQL 稳居 Top1

在数据组织、管理、存储方面,开发者使用最多的数据库为 MySQL,据调研报告显示,83% 的开发者在使用 MySQL 数据库,这或许也与其开源的特性有关。相较之下,34% 的在使用 Oracle 数据库,28% 的开发者在使用 Redis。

框架:Hadoop 社区正式发行版本最受欢迎

在大数据平台的技术应用层面,除了 Java、Linux 等语言及命令之外,Hadoop 是大数据开发的重要框架,它主要以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 除了社区发行版,还有商业发行版,主要提供了更为专业的支持,这对于大型企业较为重要。

据调研报告显示,仅 19% 企业使用商业发行版 Hadoop 版本搭建数据平台,更多的企业主要是选用了社区正式发行版,占比 34%。不过,也有 32% 的企业表示未使用 Hadoop 搭建数据平台。

Spark 是使用最普遍的大数据平台组件

作为专为大规模数据处理而设计的快速通用的计算引擎,Spark 是大数据开发者们必备的技能之一,它可以独立运行,也可以在 Hadoop、 Mesos、云端运行,它可以访问各种数据源包括 HDFS、Cassandra、HBase 和 S3,可以提升 Hadoop 集群中的应用在内存和磁盘上的运行速度。Spark 生态系统中除了核心 API 之外,还包括其他附加库,可以为大数据分析和机器学习领域提供更多的能力。

本次调研中,Spark 是使用最普遍的大数据平台组件,使用率达到 44%。而 MapReduce 使用率仅为 21%。分布式文件系统 HDFS 作为核心组件之一,使用率也达到了 39%。企业对大数据平台应用最多的场景是统计分析、报表生成及数据可视化,38%企业使用ELK(ElasticSearch + Logstash + Kibana)实时日志分析平台。

Spark组件中,SparkSQL处理速度快并且能够和 Hive 完全兼容,以 56% 的使用率排在使用 Spark 组件首位。Streaming、SparkR 使用率分别为27%、24%。

Redis 和 Kafka 是最普遍使用的消息队列和数据采集技术组件

消息队列中间件是分布式系统中重要的组件,主要解决应用解耦、异步处理、流量削峰、消息通讯等 问题。Kafka 使用最为普遍,占 42%。Redis 占比为38%。其次为 ActiveMQ,占比 28%。

开发者在全面云化时代下的技术应用

在数字化世界中,技术不分家,如文章伊始所述,发掘数据价值、征服数据海洋的“动力”就是云计算。在云方面,据调研报告显示,34% 的开发者用容器进行开发,33% 的开发者不使用容器技术。开发者基于云上/浏览器 IDE 进行软件开发的三要素,最普遍的是启动速度快,操作便利性和桌面版 IDE 可以媲美。

在使用国产新架构平台(如国产 AI 芯片、ARM 服务器芯片等)进行开发时,如果常用的软件栈/开源组件/基础库/加速库缺乏对应的适配,28% 的开发者会选择与厂家联合开发相应适配。此外,在对比 ARM 架构的 CPU 和 x86 系列的 CPU 时,很多受访者选择 ARM 架构的最核心原因方面,除了价格、兼容性之外,有 13% 的开发者认为是 ARM 架构具备多核分布式优势。

在这一点上,华为发布的具有高性能、高吞吐、高集成等特性的鲲鹏处理器,也在 ARM 生态的基础上,针对大数据、分布式存储、数据库、原生应用和云服务等优势场景进行了深度优化。其中在大数据场景下,华为鲲鹏的多核高并发高度匹配海量数据处理需求的能力,可在性能上提升 30%,同时节省空间和功耗。

如何抢占大数据的“风口”?

综上,时钟运转,大数据已逐步从概念延伸到了科学和商业领域,并在各种信息数字化的趋势下,早已不再是一门单一的学科。对此,墨尔本大学讲师宫明明点评道,「目前大数据的发展热潮令人欢欣鼓舞。企业要想真正从数据中获益而不是盲目跟风,首先需要建立优秀的大数据人才团队。正所谓将不在多而在精,一个优秀的大数据团队,需要有对产品开发具有高敏感性同时对技术有一定理解的人才,同时需要理论基础极其扎实,能对实际问题进行抽象建模和算法设计的人才。只有双管齐下,在产品和技术方面进行深层次探索,才能真正实现大数据产业的繁荣。」

想全面了解中国开发者的现状,可扫描下图中的二维码或点击阅读原文,获得完整版报告????

扫描下图二维码或点击「阅读原文」即可立即阅读完整报告!

版权声明:《2019 - 2020 中国开发者调查报告》版权属于 CSDN,转载、摘编或利用其他方式使用本调查报告文字或观点应注明来源。

MySQL 狠甩 Oracle 稳居 Top1,私有云最受重用,大数据人才匮乏! | 中国大数据应用年度报告...相关推荐

  1. 确认了!MySQL 狠甩 Oracle 稳居 Top1!

    01 几乎所有程序员都会用到的 MySQL 稳居 Top 1 科技长河,顺之者昌,错失者亡. 在2019年,CSDN面向具备超强计算力的数字化世界,我们进行了「大数据技术应用现状分析」,并发布了< ...

  2. 韩锋oracle 简介,行业观察:Oracle自治服务与私有云的重大升级与解读

    近日,Oracle召开自治数据库私有云发布会,产品重大升级.下面就此次发布会的内容,尝试做个个人解读,以此洞察行业发展的变化.以下材料为发布会材料截图. 一.自治服务升级 在此次发布会上,首次提出自治 ...

  3. 中国年度AI省市格局:北广上稳居前三,江苏四川力压浙江,山西转型“挖数据”增速迅猛...

    允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国数字经济发展哪省强? 从云计算的维度,前五分别是:上海.北京.广东.浙江和湖北. 按照AI维度,前五则是:北京.广东.上海.江苏和四川. ...

  4. IBM大中华区云计算总经理张永健:私有云产品受欢迎

    (上图为IBM全球副总裁兼大中华区云计算业务总经理张永健) 自从去年10月IBM在全球推出基于开源Kubernetes容器架构的私有云产品IBM Cloud Private以来,受到了市场的欢迎.IB ...

  5. 《2020-2021年中国私有云市场发展状况研究报告》发布 华云数据持续稳居市场领导者位置

    近日,由国家工业信息安全发展研究中心指导的中国权威ICT研究咨询机构计世资讯正式对外发布了<2020-2021年中国私有云市场发展状况研究报告>(以下简称<报告>).华云数据凭 ...

  6. 美国人用什么android手机,美国人最爱的安卓手机:多年稳居榜首,与iPhone共分一杯羹...

    美国人最爱的安卓手机:多年稳居榜首,与iPhone共分一杯羹 2019年12月07日 11:18作者:张萌编辑:张萌文章出处:泡泡网原创 分享 随着时代进步,科技发展也在一步步向前迈进,手机市场的风起 ...

  7. 360 私有云平台 MySQL 自动化实现剖析

      本文源自 7 月 13 日『高效开发运维』微信群的在线分享,转载请在文章开头注明来自『高效开发运维』公众号.加群学习请关注『高效开发运维』公众号,并点击菜单中的"加群学习"或直 ...

  8. 公有云私有云的区别_一分钟秒懂公有云、私有云、混合云的区别?

    公有云.私有云.混合云有什么区别?在讲这几个的区别前,可以先说下经常被一起谈起的云计算. 什么是云计算? 我们可以先理解云计算中的"云"是什么意思,通俗的理解,这里的"云 ...

  9. 私有云相对更流行的公有云和混合云有什么优势?

    私有云具备许多优势,让其比构建混合云或仅依靠公共云更具吸引力. 混合云使组织能够在公有云环境中运行,并获得私有云的优势,例如使用其数据中心中的硬件资源. 虽然有一些公司(如初创公司)完全运行在公有云上 ...

最新文章

  1. Win10家庭版如何启用本地组策略
  2. 【c语言】蓝桥杯算法提高 统计平均成绩
  3. 理解HTTP session原理及应用
  4. c# export server 调用sql_[转]使用C#调用cmd来执行sql脚本
  5. FireFox IE Opera Safari 都可以正常播放WMV和MOV的网页播放器代码
  6. 枚举类 - Java面向对象编程
  7. java 类 属性数量_跟我学java编程—Java类的属性与成员变量
  8. npm报错 npm WARN deprecated....的问题解决方式
  9. 应届生找工作是首先选择一个公司,还是选择一个行业?
  10. 广东机电职业技术学校计算机怎么样,广东机电职业技术学院宿舍怎么样 住宿条件好不好...
  11. 本人博客已经转到简书,不再更新51cto,谢谢大家。
  12. 这次聊聊Promise对象
  13. IEC 62368认证测试项目
  14. K3 设置为AP,用于软件路由的后级。
  15. 51单片机原理以及接口技术(三)-80C51的指令系统
  16. PRAM模型与Amdahl定律
  17. 小卖部做成了我们没有做成的事
  18. 实习僧网站字体反爬破解思路及步骤分享
  19. Vue + Element UI 实现权限管理系统(更换皮肤主题)
  20. 关于 麒麟系统启动应用报错“undefined symbol: __cxa_throw_bad_array_new_length, version Qt_5“ 的解决方法

热门文章

  1. C primer plus 练习题 第三章
  2. 关于ExtJS在使用下拉列表框的二级联动获取数据
  3. 演示:思科IPS在线模式下Inline Interface Mode的响应行为(区别各个防御行为)
  4. java中batch基础_详解Spring batch 入门学习教程(附源码)
  5. Shell脚本读取命令行参数
  6. OpenCV录制视频
  7. 计算机电缆djyvp工艺,计算机电缆dJyvP相关办法.pdf
  8. 论文:贝叶斯优化算法和应用综述(2)--概率模型和采集函数的介绍以及综述列表
  9. zTree实现节点修改的实时刷新
  10. Welcome to Swift (苹果官方Swift文档初译与注解三十四)---241~247页(第五章-- 函数)