前言

「Java8系列」神秘的Lambda
「Java8系列」神奇的函数式接口
继上两篇之后,本文已经java8系列的第三篇了。本篇文章比较长,但我希望大家都能认真读完。读不完可以先收藏,在找时间读。没看过前两篇的可以点上边的链接看看,前两篇文章算是对是用Stream铺垫的一点基础吧,不过不看也可以学会使用Stream,但看了会有助于更好的理解和使用。在没有深入了解之前,我以为Stream也是数据的载体,但后来发现并不是。那么它到底是什么?听我慢慢道来。

什么是Stream?

Stream它并不是一个容器,它只是对容器的功能进行了增强,添加了很多便利的操作,例如查找、过滤、分组、排序等一系列的操作。并且有串行、并行两种执行模式,并行模式充分的利用了多核处理器的优势,使用fork/join框架进行了任务拆分,同时提高了执行速度。简而言之,Stream就是提供了一种高效且易于使用的处理数据的方式。

  • 特点:
  1. Stream自己不会存储元素。
  1. Stream的操作不会改变源对象。相反,他们会返回一个持有结果的新Stream。
  1. Stream 操作是延迟执行的。它会等到需要结果的时候才执行。也就是执行终端操作的时候。
  • 图解:

一个Stream的操作就如上图,在一个管道内,分为三个步骤,第一步是创建Stream,从集合、数组中获取一个流,第二步是中间操作链,对数据进行处理。第三步是终端操作,用来执行中间操作链,返回结果。

怎么创建Stream?

  • 由集合创建:
    Java8 中的 Collection 接口被扩展,提供了两个获取流的方法,这两个方法是default方法,也就是说所有实现Collection接口的接口都不需要实现就可以直接使用:
  1. default Stream
    stream() : 返回一个顺序流。
  1. default Stream
    parallelStream() : 返回一个并行流。
    例如:List<Integer> integerList = new ArrayList<>();integerList.add(1);integerList.add(2);Stream<Integer> stream = integerList.stream();Stream<Integer> stream1 = integerList.parallelStream();

  • 由数组创建:
    Java8 中的 Arrays 的静态方法 stream() 可以获取数组流:
  1. static
    Stream
    stream(T[] array): 返回一个流
  1. 重载形式,能够处理对应基本类型的数组:
    public static IntStream stream(int[] array)
    public static LongStream stream(long[] array)
    public static DoubleStream stream(double[] array)
    例如:int[] intArray = {1,2,3};IntStream stream = Arrays.stream(intArray);

  • 由值创建:
    可以使用静态方法 Stream.of(), 通过显示值 创建一个流。它可以接收任意数量的参数。
  1. public static
    Stream
    of(T... values) : 返回一个流。
    例如:Stream<Integer> integerStream = Stream.of(1, 2, 3, 4, 5, 6, 7, 8);

  • 由函数创建:创建无限流
    可以使用静态方法 Stream.iterate() 和 Stream.generate()创建无限流。
  1. 迭代
    public static
    Stream
    iterate(final T seed, final UnaryOperator
    f)
  1. 生成
    public static
    Stream
    generate(Supplier
    s)
    例如:Stream.generate(Math::random).limit(5).forEach(System.out::print); List<Integer> collect = Stream.iterate(0,i -> i + 1).limit(5).collect(Collectors.toList());

注意:使用无限流一定要配合limit截断,不然会无限制创建下去。

Stream的中间操作

如果Stream只有中间操作是不会执行的,当执行终端操作的时候才会执行中间操作,这种方式称为延迟加载或惰性求值。多个中间操作组成一个中间操作链,只有当执行终端操作的时候才会执行一遍中间操作链,具体是因为什么我们在后面再说明。下面看下Stream有哪些中间操作。

  • Stream distinct():
    去重,通过流所生成元素的 hashCode() 和 equals() 去除重复元素。
  • Stream filter(Predicate
    predicate):
    Predicate函数在上一篇当中我们已经讲过,它是断言型接口,所以filter方法中是接收一个和Predicate函数对应Lambda表达式,返回一个布尔值,从流中过滤某些元素。
  • Stream sorted(Comparator
    comparator):
    指定比较规则进行排序。
  • Stream limit(long maxSize):
    截断流,使其元素不超过给定数量。如果元素的个数小于maxSize,那就获取所有元素。
  • Stream skip(long n):
    跳过元素,返回一个扔掉了前 n 个元素的流。若流中元素不足 n 个,则返回一个空流。与 limit(n) 互补。
  • Stream map(Function
    mapper):
    接收一个Function函数作为参数,该函数会被应用到每个元素上,并将其映射成一个新的元素。也就是转换操作,map还有三个应用于具体类型方法,分别是:mapToInt,mapToLong和mapToDouble。这三个方法也比较好理解,比如mapToInt就是把原始Stream转换成一个新的Stream,这个新生成的Stream中的元素都是int类型。这三个方法可以免除自动装箱/拆箱的额外消耗。
  • Stream flatMap(Function
    > mapper):
    接收一个Function函数作为参数,将流中的每个值都转换成另一个流,然后把所有流连接成一个流。flatMap也有三个应用于具体类型的方法,分别是:flatMapToInt、flatMapToLong、flatMapToDouble,其作用于map的三个衍生方法相同。

Stream的终端操作

终端操作执行中间操作链,并返回结果。终端操作我们就不一一介绍了,只介绍一下常用的操作。详细可看java.util.stream.Stream接口中的方法。

  • void forEach(Consumer
    action):
    内部迭代(需要用户去做迭代,称为外部迭代。相反,Stream API使用内部迭代帮你把迭代做了)
 users.stream().forEach(user -> System.out.println(user.getName()));

  • R collect(Collector
    collector):
    收集、将流转换为其他形式,比如转换成List、Set、Map。collect方法是用Collector作为参数,Collector接口中方法的实现决定了如何对流执行收集操作(如收集到 List、Set、Map)。但是 Collectors 实用类提供了很多静态方法,可以方便地创建常见收集器实例。例举一些常用的:
 List<User> users = Lists.newArrayList();users.add(new User(15, "A", ImmutableList.of("1元", "5元")));users.add(new User(25, "B", ImmutableList.of("10元", "50元")));users.add(new User(21, "C", ImmutableList.of("100元")));//收集名称到ListList<String> nameList = users.stream().map(User::getName).collect(Collectors.toList());//收集名称到ListSet<String> nameSet = users.stream().map(User::getName).collect(Collectors.toSet());//收集到map,名字作为key,user对象作为valueMap<String, User> userMap = users.stream().collect(Collectors.toMap(User::getName, Function.identity(), (k1, k2) -> k2));

  • 其他终端操作:
  1. boolean allMatch(Predicate
    predicate); 检查是否匹配所有元素。

    1. boolean anyMatch(Predicate
      predicate); 检查是否至少匹配一个元素。
    1. boolean noneMatch(Predicate
      predicate); 检查是否没有匹配所有元素。
    1. Optional findFirst(); 返回当前流中的第一个元素。
    1. Optional findAny(); 返回当前流中的任意元素。
    1. long count(); 返回流中元素总数。
    1. Optional max(Comparator
      comparator); 返回流中最大值。
    1. Optional min(Comparator
      comparator); 返回流中最小值。
    1. T reduce(T identity, BinaryOperator accumulator); 可以将流中元素反复结合起来,得到一个值。 返回 T。这是一个归约操作。

Fork/Join框架

上面我们提到过,说Stream的并行模式使用了Fork/Join框架,这里简单说下Fork/Join框架是什么?Fork/Join框架是java7中加入的一个并行任务框架,可以将任务拆分为多个小任务,每个小任务执行完的结果在合并成为一个结果。在任务的执行过程中使用工作窃取(work-stealing)算法,减少线程之间的竞争。

  • Fork/Join图解
  • 工作窃取图解

Stream是怎么实现的

先看下整体类图:蓝色箭头代表继承,绿色箭头代表实现,红色箭头代表内部类。

实际上Stream只有两种操作,中间操作、终端操作,中间操作只是一种标记,只有终端操作才会实际触发执行。所以Stream流水线式的操作大致应该是用某种方式记录中间操作,只有调用终端操作才会将所有的中间操作叠加在一起在一次迭代中全部执行。这里只做简单的介绍,想详细了解的可以参考下面的参考资料中的链接。

  • 操作怎么记录?
    Stream的操作记录是通过ReferencePipeline记录的,ReferencePipeline有三个内部类Head、StatelessOp、StatefulOp,Stream中使用Stage的概念来描述一个完整的操作,并用某种实例化后的ReferencePipeline来代表Stage,Head用于表示第一个Stage,即调用诸如Collection.stream()方法产生的Stage,很显然这个Stage里不包含任何操作,StatelessOp和StatefulOp分别表示无状态和有状态的Stage,对应于无状态和有状态的中间操作。
  • 操作怎么叠加?
    操作是记录完了,但是前面的Stage并不知道后面Stage到底执行了哪种操作,以及回调函数是哪种形式。这就需要有某种协议来协调相邻Stage之间的调用关系。
    这种协议由Sink接口完成,Sink接口包含的方法如下表所示:
  1. void begin(long size),开始遍历元素之前调用该方法,通知Sink做好准备。
  1. void end(),所有元素遍历完成之后调用,通知Sink没有更多的元素了。
  1. boolean cancellationRequested(),是否可以结束操作,可以让短路操作尽早结束。
  1. void accept(T t),遍历元素时调用,接受一个待处理元素,并对元素进行处理。Stage把自己包含的操作和回调方法封装到该方法里,前一个Stage只需要调用当前Stage.accept(T t)方法就行了。

每个Stage都会将自己的操作封装到一个Sink里,前一个Stage只需调用后一个Stage的accept()方法即可,并不需要知道其内部是如何处理的。有了Sink对操作的包装,Stage之间的调用问题就解决了,执行时只需要从流水线的head开始对数据源依次调用每个Stage对应的Sink.{begin(), accept(), cancellationRequested(), end()}方法就可以了。

  • 操作怎么执行?

Sink完美封装了Stream每一步操作,并给出了[处理->转发]的模式来叠加操作。这一连串的齿轮已经咬合,就差最后一步拨动齿轮启动执行。是什么启动这一连串的操作呢?也许你已经想到了启动的原始动力就是结束操作(Terminal Operation),一旦调用某个结束操作,就会触发整个流水线的执行。

参考资料

https://ifeve.com/streamhttps://www.ibm.com/developerworks/cn/java/j-lo-java8streamapi/

https://segmentfault.com/a/1190000016781127

https://github.com/CarpenterLee/JavaLambdaInternals/blob/master/6-Stream%20Pipelines.md

java8 lambda maplist排序_「java8系列」流式编程Stream相关推荐

  1. java8堆内存模型_「GC系列」JVM堆内存分代模型及常见的垃圾回收器

    1. 内存分代模型 为什么要说JVM的内存分代模型呢,因为内存分代和垃圾回收器的运行是有关系的. 现在大部分用到的垃圾回收器在逻辑上是分代的,除了G1之外的其他垃圾回收器在逻辑上和物理上都是分代的. ...

  2. mongdb 建立了索引唯一性还能重复插入?_「数据库系列」Postgres性能调优——Index...

    在本文中,我们将探讨如何通过使用Explain和Analyze来分析慢查询,以及使用索引来修改和增强查询时间来解决慢查询. Postgres支持在表上使用各种索引,以加快查询速度. 多列索引 多列B树 ...

  3. flask中文文档_「Flask系列」 初识Flask

    引子 作者有多年的编程打杂经验,之前一直参与基于Java的各种项目以及产品规划与设计,后因自己创业维持一家小公司,有些项目与产品,想降低开发成本,故在公司内部推行基于Python Flask的后端开发 ...

  4. python文件之间的相互调用_「Python 系列」 Python 生成器函数详解

    Python的生成器函数提供了一种强大的机制来管理数据和计算资源,但是对于Python的新手来说,它们不一定直观.在本文中,我将分解生成器的机制,同时还介绍我希望是一个有启发性的示例:用于管理和流传输 ...

  5. golang 接口_「Golang系列」 深入理解Golang Empty Interface (空接口)

    空接口可用于保存任何数据,它可以是一个有用的参数,因为它可以使用任何类型. 要理解空接口如何工作以及如何保存任何类型,我们首先应该理解名称背后的概念. 接口 这是Jordan Oreilli对空接口的 ...

  6. arcpy实现空间查询_「实战系列」GP+Roaringbitmap,亿级会员十万级标签毫秒级查询...

    在大数据处理和应用场景中经常需要从亿级甚至十亿级会员中搜索出符合特定标签的会员.很多企业都会使用 HBase 或者 Hive + Hadoop 的方式,这样的方式查询效率非常慢,在标签非常多的情况下计 ...

  7. mysql显示表已存在_「Docker系列」 如何在Docker中部署MySQL数据库?

    Docker为部署和测试应用程序和数据库提供了许多优势,这些应用程序和数据库是应用程序不可或缺的一部分,因此很值得学习如何在Docker容器中部署和运行数据库. 本文中,我们会重点关注如下重点: 为M ...

  8. springboot配置文件加载顺序_「SpringBoot系列」配置文件加载优先级解析

    SpringBoot提供了外部分配置功能,可以使用属性文件(properties).YAML(yml)文件.环境变量和命令行参数来进行处部参数配置,并t以特定的顺序来处理配置,以便于允许合理的覆盖值. ...

  9. java8 lambda map排序_Android兼容Java 8语法特性的原理分析

    本文主要阐述了Lambda表达式及其底层实现(invokedynamic指令)的原理.Android第三方插件RetroLambda对其的支持过程.Android官方最新的dex编译器D8对其的编译支 ...

最新文章

  1. 碎片Fragment
  2. webpack之optimization.runtimeChunk作用
  3. Mysql在Windows上离线安装与配置
  4. 动态规划——背包问题升级
  5. Python list去重,去掉list中元素为字典的且字典部分key相同的list元素(列表去重、字典去重)
  6. 小程序 bindtouchmove 使用拖动按钮 页面跟着滑动并拖动卡顿感 问题
  7. docker安装hbase
  8. ELK下钉钉邮件告警通知
  9. python3 redis长链接超时_Python3 连接Redis字符串和字节问题探究
  10. kettle增加字段报错_【Kettle 多文件】Excel/MySQL文件传入解决方案
  11. 数据结构与算法之符号表
  12. 笔记本电脑热点手机无法连接解决方案
  13. 数据结构——递归算法、递推算法、穷举算法、分治算法
  14. 基于访客的网络(VBN)
  15. cout和cin后面跟指针的问题
  16. 微信公众平台开发(PHP)(二) 微信公众平台示例代码分析
  17. excel文件无法打印提示内存不足_Mac应用程序无法打开提示不明开发者或文件损坏的处理方法...
  18. 【WLAN】【测试】WLAN相关测试软件一览
  19. Linux驱动设计——硬件基础
  20. vue实现仿网易云音乐客户端

热门文章

  1. 引出发射和什么是反射和Class类和Class实例、基本类型的字节码对象
  2. Mr. Bender and Square
  3. 阿里云:构建全球企业内外安全网络最佳实践
  4. “智慧停车+智慧交通”提高市民出行效率和体验
  5. 闲鱼如何高效承接并处理用户纠纷
  6. 阿里巴巴飞天大数据架构体系与Hadoop生态系统
  7. 浅析基于 Serverless 的前后端一体化框架
  8. 这是一段关乎你的代码:你的未来 我们正在参与
  9. 从日志入手,保障 Kubernetes 稳定性
  10. 别傻了,90%的开发者都没有做好它