整理了这一年(本号开通半年)分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

感谢持续分享输出优质内容的阿里云EMR团队的王道远,余根茂,彭搏,郑锴,夏立,林武康,李呈祥,吴威,殳鑫鑫,宋军,关文选,孙大鹏,辛现银,江宇,陈强,陈龙,陶克路,姚舜扬,周克勇,苏昆辉;阿里云Tablestore存储服务技术专家朱晓然,王卓然;Databricks研发总监李潇;资深数据架构师祝威廉;entobit技术总监邓力;某游戏公司数据平台负责人李伟;eBay软件开发工程师李万雪;感谢圈内的技术大佬浪尖,过往记忆,AI前线,vivo技术,滴滴技术提供的帮助。(排名不分先后)

  1. 浅谈 Spark 的多语言支持

  2. Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

  3. 基于Spark SQL实现对HDFS操作的实时监控报警

  4. 通过Spark SQL实时归档SLS数据

  5. 使用Spark SQL进行流式机器学习计算(上)

  6. 通过WebUI查看Structured Streaming作业统计信息

  7. 现代流式计算的基石:Google DataFlow

  8. Spark Streaming 框架在 5G 中的应用

  9. 是时候放弃 Spark Streaming, 转向 Structured Streaming 了

  10. 使用Spark Streaming SQL基于时间窗口进行数据统计

  11. Spark-StructuredStreaming checkpointLocation分析、优化耗时

  12. 使用Spark Streaming SQL进行PV/UV统计

  13. 通过Spark Streaming作业处理Kafka数据

  14. 通过Kafka Connect进行数据迁移

  15. Spark内置图像数据源初探

  16. 【译】Spark-Alchemy:HyperLogLog的使用介绍

  17. EMR Spark Runtime Filter性能优化

  18. EMR Spark Relational Cache如何支持雪花模型中的关联匹配

  19. EMR Spark Relational Cache的执行计划重写

  20. EMR Spark Relational Cache 利用数据预组织加速查询

  21. 使用Relational Cache加速EMR Spark数据分析

  22. 使用EMR Spark Relational Cache跨集群同步数据

  23. 2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

  24. 【译】数据湖正在成为新的数据仓库

  25. 深入剖析 Delta Lake:详解事务日志

  26. Delta元数据解析

  27. 开源生态的新发展:Apache Spark 3.0、Koala和Delta Lake

  28. 【译】Delta Lake 0.4.0 新特性演示:使用 Python API 就地转换与处理 Delta Lake 表

  29. 漫谈分布式计算框架

  30. 分布式快照算法: Chandy-Lamport

  31. 海量小文件的的根源

  32. 是时候改变你数仓的增量同步方案了

  33. 【译】Spark NLP使用入门

  34. 【译】使用Spark SQL 运行大规模基因组工作流

  35. 【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法

  36. 使用Apache Arrow助力PySpark数据处理

  37. Spark on Kubernetes原生支持浅析

  38. 列式存储系列(一)C-Store

  39. 列式存储系列(二): Vertica

  40. Spark on Kubernetes 的现状与挑战

  41. Koalas:让 pandas 轻松切换 Apache Spark

  42. 使用spark-redis组件访问云数据库Redis

  43. 玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

  44. HIVE优化浅谈

  45. HIVE TopN shuffle 原理

  46. Kerberos使用OpenLDAP作为backend

  47. 在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

  48. 【译】Hadoop发生了什么?我们该如何做?

  49. 实时 OLAP 系统 Druid

  50. Spark Operator浅析

  51. Spark Codegen浅析

  52. 深入分析Spark UDF的性能

  53. Spark整合Ray思路漫谈

  54. Tablestore结合Spark的流批一体SQL实战

  55. 助力云上开源生态 - 阿里云开源大数据平台的发展

  56. JindoFS概述:云原生的大数据计算存储分离方案

  57. JindoFS解析 - 云上大数据高性能数据湖存储方案

  58. EMR 打造高效云原生数据分析引擎

  59. 5分钟迅速搭建云上Lambda大数据分析架构

  60. 如何在Spark中实现Count Distinct重聚合

  61. 基于 Spark 和 TensorFlow 的机器学习实践

  62. 如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈

  63. 【译】Apache Spark 数据建模之时间维度(一)

技术直播回顾:点击文末“阅读原文”

2019年Apache Spark技术交流社区原创文章回顾相关推荐

  1. SAP成都研究院小伙伴们2018~2019两年间的179篇原创文章合集

    2018年到2019年这两年里,SAP成都研究院总共有28位同事,在这个公众号上发表了179篇原创文章. 下面是作者列表(按姓名字母顺序),感谢这些同事在业余时间里,乐于把自己在SAP领域的专业知识, ...

  2. 什么是Apache Spark?这篇文章带你从零基础学起

    导读:Apache Spark是一个强大的开源处理引擎,最初由Matei Zaharia开发,是他在加州大学伯克利分校的博士论文的一部分.Spark的第一个版本于2012年发布. Apache Spa ...

  3. 先知安全技术社区原创文章奖励计划

    亲爱的白帽子们: (ps:有笑然表姐这样的美女,还有小冰这样的帅锅.更重要的是有机会"交"到更多的基友.机会良好,不可错过.) ​ 先知的使命是为白帽子打造一个最好的社区,他们在这 ...

  4. apache spark_使用Apache Spark SQL探索标普500和石油价格

    apache spark 这篇文章将使用Apache Spark SQL和DataFrames查询,比较和探索过去5年中的S&P 500,Exxon和Anadarko Petroleum Co ...

  5. Apache Spark处理大数据入门,看这一篇就够了

    作者 Srini Penchikala ,译者 丛一 什么是Spark Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab ...

  6. 如何成为 Apache Spark 的 Contributor?

    前言 改了 N 次,和 Apache Spark 开源社区的大佬沟通了2 个星期,我的 Pull Request 终于被接受了!!! 感兴趣的小伙伴可以访问下面的链接来感受一下开源社区的魅力,大佬们真 ...

  7. 入门之路:“机器学习初学者”公众号2019年的精选原创文章

    "机器学习初学者"公众号2019年的精选原创文章合集,适合初学者入门 AI.本文建议用微信收藏,用碎片时间学习.(黄海广) 导语 AI 初学者最大的问题就是:资料太多!!!看不完! ...

  8. [Spark周边]--SQL Server 2019预览结合了SQL Server和Apache Spark来创建统一的数据平台

    感谢原文作者:https://cloudblogs.microsoft.com/sqlserver/2018/09/24/sql-server-2019-preview-combines-sql-se ...

  9. 2019公众号总结之——Top100 技术文章汇总

    大家好,我是张善友.新年伊始,我们在欢送10年代的同时迎来了20年代.在这个崭新的时代,感谢各位朋友一直关注"dotnet跨平台".一晃5年有余,关注公众号的粉丝6万,相对于.NE ...

最新文章

  1. 企业如何选择音视频会议系统分析
  2. 今晚8点直播 | 详讲NLP的经典应用实践——文本分类
  3. JavaScript思维导图之数组
  4. hibernate mysql 映射_hibernate与mysql映射类型对应表与mysql导入导出
  5. |洛谷|DFS|P1101 单词方阵
  6. LinkedList理解(2)元素删除
  7. 东华理工大学arm试卷_ARM东华理工大学2015-2016试卷A
  8. pythonturtle是标准库_Python标准库: turtle--海龟绘图。
  9. mysql中IFNULL,IF,CASE的区别
  10. 不是所有的程序员都来自匿名区!
  11. java retry怎么用_java retry使用详解
  12. 自己封装的一个js方法用于获取显示的星期和日期时间
  13. 算法与数据结构之单链表
  14. NX1957在VS2019上二次开发的环境配置
  15. 斯坦福大学公开课:乔布斯演讲
  16. 人文精神、人文教育与高等教育 徐梦秋
  17. android天气预报sdk,Android手机集成天气预报功能方案:全国天气预报API调用
  18. ios 图片加载内存尺寸_iOS内存分析上-图片加载内存分析
  19. DirectX11进阶5_硬件实例化与视锥体裁剪及鼠标拾取交互
  20. Saas应用领域与行业前景

热门文章

  1. 什么是 PKI? 公钥基础设施的定义和指南
  2. Spring Data JPA 之 理解 Persistence Context 的核心概念
  3. 边缘检测的评价指标:PR曲线,OIS,ODS,AP的计算与代码实现
  4. 计算字符串的距离(编辑距离)
  5. 数据分析-主成分分析流程(R语言)
  6. 安装ROS使用sudo rosdep init 报错ERROR: cannot download default sources list from:
  7. Android 学习论坛博客及网站推荐
  8. SpringMVC、SpringMVC XML配置(纯XML方式)
  9. Tensorflow学习之tf.keras(一) tf.keras.layers.Model(另附compile,fit)
  10. deflate树与deflate编码