.NET for Apache Spark 1.0 现已发布,这是一个用于 Spark 大数据的 .NET 框架,可以让 .NET 开发者轻松地使用 Apache Spark。

该软件包由微软和 .NET Foundation 牵头,经过大约两年的开发。在 2019 年的 Spark + AI 峰会上,微软曾宣布推出 .NET for Apache Spark,并发布了首个预览版本 v0.1.0。

1.0 版本包括以下内容:

  • 支持面向 .NET Standard 2.0 的 .NET 应用程序(建议使用 .NET Core 3.1 或更高版本)。

  • 支持 Apache Spark 2.4/3.0 DataFrame API,包括编写 Spark SQL 的功能。例如:

var spark = SparkSession.Builder().GetOrCreate();
var tweets = spark.Read().Schema("date STRING, time STRING, author STRING, tweet STRING").Format("csv").Load(inputfile);
tweets = tweets.GroupBy(Lower(Col("author")).As("author")).Agg(Count("tweet").As("tweetcount")).OrderBy(Desc("tweetcount"));
tweets.Write().SaveAsTable("tweetcount");
spark.Sql(@"SELECT * FROM tweetcount").show();
  • 能够使用 .NET 用户自定义函数(UDF)编 写Apache Spark 应用程序。例如:

// Define and register UDF
var concat = Udf<int?, string, string>((age, name)=>name+age);// Use UDF
df.Filter(df["age"] > 21).Select(concat(df["age"], df["name"]).Show();
  • 提供 API 扩展框架以添加对其他 Spark 库的支持。当前包括对 Linux foundation Delta Lake、Microsoft OSS Hyperspace、ML.NET、以及对 Apache Spark’s MLLib functionality 的支持。

  • 在 Spark 运行时和 .NET UDFs 之间移动数据的性能工作和改进 pickling interop 以及对 Apache Arrow 的支持。

  • 竞争优势:没有使用 UDF 的 .NET for Apache Spark 程序与基于 Scala 和 PySpark 的非 UDF Spark 应用程序显示出相同的速度。如果应用程序包含UDF,.NET for Apache Spark 程序的速度至少和 PySpark 程序一样快,一般来说更快。

下载地址:https://www.nuget.org/packages/Microsoft.Spark

.NET for Apache Spark 1.0 版本发布相关推荐

  1. Apache Kafka 3.0 版本发布

    Apache Kafka 3.0 发布, 发布日志:Kafka 我很高兴代表 Apache Kafka® 社区宣布 Apache Kafka 3.0 的发布.Apache Kafka 3.0 是一个涉 ...

  2. Apache Spark 3.0 预览版正式发布,多项重大功能发布

    今天早上 06:53(2019年11月08日 06:53) 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0预览版正式发布,这个版本主要是为了对即将发布 ...

  3. 微信团队回应“部分用户朋友圈无法刷新”;罗永浩:准备做综艺节目;Apache Spark 3.0 发布| 极客头条...

    整理 | 屠敏 头图 | CSDN 下载自东方 IC 快来收听极客头条音频版吧,智能播报由出门问问「魔音工坊」提供技术支持. 「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极 ...

  4. 云栖大会 | Apache Spark 3.0 和 Koalas 最新进展

    本资料来自2019-09-26在杭州举办的云栖大会的大数据 & AI 峰会分会.议题名称<New Developments in the Open Source Ecosystem: A ...

  5. spark python_Python、流、SQL 有更新!耗时两年,Spark 3.0 重磅发布!

    2020 年 6 月 19 日,经过近两年的开发之后,Apache Spark TM 3.0.0 版本终于面世了.据官方介绍,此次 Spark 3.0.0 版本更新了 3,400 多个补丁程序,将使 ...

  6. 【Cloudaily】Elastic Stack 5.2.0 版本发布,Uber免费开放全球20亿行程数据

    Cloudaily网罗新鲜要闻,每日为你呈现大数据和云计算领域热点新闻.本次内容播报如下: Apache Storm 1.0.3 发布,分布式实时计算 Apache Storm 1.0.3 发布了,A ...

  7. Apache Spark 2.0预览: 机器学习模型持久化

    在即将发布的Apache Spark 2.0中将会提供机器学习模型持久化能力.机器学习模型持久化(机器学习模型的保存和加载)使得以下三类机器学习场景变得容易: \\ 数据科学家开发ML模型并移交给工程 ...

  8. 意料之外,情理之中,Spring.NET 3.0 版本发布-

    意料之外,情理之中,Spring.NET 3.0 版本发布- 备受社区和企业开发者广泛关注的Spring.NET在上周发布了3.0版本,并且目前已经保持着持续的更新,让我们一起来看一看他究竟发布了哪些 ...

  9. Kafka 1.0版本发布

    Kafka 1.0版本发布 1.0.0 2017年11月1日发布 源码下载: kafka-1.0.0-src.tgz(asc,sha512) 二进制下载: Scala 2.11 - kafka_2.1 ...

最新文章

  1. 纠结的名字 - 自动生成apk文件名
  2. ABAP Netweaver和Hybris Enterprise Commerce Platform的登录认证
  3. 真机测试报错ERROR/AndroidRuntime: java.lang.RuntimeException: setParameters failed解决办法
  4. yum更换本地源、yum下载和源码包安装
  5. Netty ChannelBuffer
  6. UWB定位记录二(DWM1000模组介绍)
  7. windows驱动开发4:WDM、WDF等驱动基本概念
  8. spring学习-01编译spring5.0源码(亲测可用)
  9. 不同角度的5S管理作用总结
  10. Android 中的转场动画及兼容处理
  11. i.MX 8M Mini sai_low_power_audio
  12. 学习语言的方法,你了解几种?
  13. file_get_contents获取参数并用file_put_contents保存图片
  14. C语言手机通讯录系统
  15. Cmder | 一款命令行增强工具
  16. Bzoj4763 雪辉
  17. CentOS全版本 阿里云下载详细教程
  18. HYSBZ 2565 Manacher算法
  19. 什么是FEC/NACK/RTX
  20. 东方甄选爆火背后的流量密码

热门文章

  1. 独家 | 蚂蚁金服TRaaS技术风险防控平台解密
  2. java 数组冒泡排序、转置(降序)
  3. C#集合类型——Array、ArrayList、List 之浅谈
  4. vue项目中按需引入viewUI
  5. Web应用架构-Full-text Search Service
  6. ETL工具kettle的组件--生成记录
  7. 拒绝“高冷”词汇!初学C#中的委托
  8. html5 弹性布局
  9. 《HTML5触摸界面设计与开发》——1.4 神秘谷,是什么让触摸界面反应灵敏?...
  10. 【Unity3D基础】让物体动起来②--UGUI鼠标点击逐帧移动