比RNN快136倍!上交大提出SRNN,现在RNN也能做并行计算

论文和开源代码地址:

https://arxiv.org/pdf/1807.02291.pdf

https://github.com/zepingyu0512/srnn

在许多NLP任务中,循环神经网络(RNN)取得了巨大的成功。但是,这种循环的结构使它们难以并行化,因此,训练RNN需要大量的时间。

上海交通大学的Zeping Yu 和Gongshen Liu,在论文“Sliced Recurrent Neural Networks”中,提出了全新架构“切片循环神经网络”(SRNN)。SRNN可以通过将序列分割成多个子序列来实现并行化。SRNN能通过多个层获得高级信息,而不需要额外的参数。

研究人员证明了当使用线性激活函数时,标准RNN是SRNN的一个特例。在不改变循环单元的情况下,SRNN的速度是标准RNN的136倍,并且当训练更长的序列时可能会更快。对六个大型情绪分析数据集的实验表明,SRNN的性能优于标准RNN。

提高RNN训练速度的多种方法

循环神经网络(RNN)已经被广泛用于许多NLP任务,包括机器翻译、问题回答、图像说明和文本分类。RNN能够获得输入序列的顺序信息。最受欢迎的两个循环单元是长短期记忆(LSTMÿ

比RNN快136倍!上交大提出SRNN,现在RNN也能做并行计算了相关推荐

  1. 比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 神经架构搜索一直被认为是高算力的代表,尽管可微架构搜索的概念非常吸引人,但它目前的 ...

  2. 【CVPR 2020】弱监督怎样做图像分类?上交大提出自组织记忆网络

    点击上方"视学算法",选择"星标"公众号 重磅干货,第一时间送达 本文转载自机器之心 近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6656 ...

  3. CVPR | 让合成图像更真实,上交大提出基于域验证的图像和谐化

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6 ...

  4. 机器也学会如何做「阅读理解」了? 云从科技上交大提出的DCMN+ 模型为你解答!!!...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转自机器之心 2020 年 2 月 7 日-2 月 12 日,AAAI 2020 ...

  5. 云从科技上交大提出DCMN+ 模型,在多项阅读理解数据集上成绩领先

    2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办.不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇, ...

  6. 【CVPR 2020】让合成图像更真实,上交大提出基于域验证的图像和谐化

    本文转载自机器之心(公众号ID:almosthuman2014),未经许可请勿二次转载. 近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文 ...

  7. 上交大博导:写给不想做学术的你

    这是在毕业时节最想说的话.近些年各地走走,学界朋友聚在一起,谈得最多的还是对学生的感慨,无非是说,现在认真读书的人太少了.到了学生这边,觉得自己的论文一定是能通过的,不如把时间花来考CPA和CFA.一 ...

  8. 傅里叶变换取代Transformer自注意力层,谷歌这项研究GPU上快7倍、TPU上快2倍

    视学算法报道 转载自:机器之心 机器之心编辑部 来自谷歌的研究团队表明,将傅里叶变换取代 transformer 自监督子层,可以在 GLUE 基准测试中实现 92% 的准确率,在 GPU 上的训练时 ...

  9. 傅里叶变换才是本质?谷歌这项研究GPU上快7倍、TPU上快2倍

    转载自:机器之心 来自谷歌的研究团队表明,将傅里叶变换取代 transformer 自监督子层,可以在 GLUE 基准测试中实现 92% 的准确率,在 GPU 上的训练时间快 7 倍,在 TPU 上的 ...

最新文章

  1. Android-NDK-audio-echo
  2. urlrewrite 地址重写
  3. 计划任务中allow和deny的优先级
  4. 电路中的这些符号标识,你真的明白吗?
  5. 札记__ADT:URL,Lua:strlen方法
  6. laravel框架制作缩略图和水印
  7. 总谐波失真计算公式_新能源汽车技术|车用轮毂电机转矩谐波协同控制策略
  8. arm ubuntu 编译boost_使用yocto工具编译qt5.9.6总结
  9. 【easy!】LeetCode 14. Longest Common Prefix
  10. 北大生物信息学公开课学习(1)
  11. BZOJ 2754 喵星球上的点名(后缀数组)
  12. Windows 10 超过Windows 7成为最受欢迎的操作系统
  13. 线材下料优化python算法_深度学习中的优化算法(Optimizer)理解与python实现
  14. 又一场“人机大战”?来自AI open无情碾压!
  15. [FROM WOJ]#4479 长跑
  16. Linux磁盘列阵(RAID),包括RAID详解、Linux磁盘列阵和mdadm命令的相关操作
  17. nginx配置反向代理和负载均衡完结篇
  18. 基于 LSTM 的分布式能源发电预测(Matlab代码实现)
  19. 一个典型的语音识别系统
  20. 数字游戏(东华大学OJ练习题)

热门文章

  1. kali Linux metasploit进入msfgui
  2. 跳表SkipList
  3. Linux内存管理原理
  4. variable java_在XSLT中使用Variable Argument调用Java方法
  5. java 线程组和线程_Java多线程 线程组原理及实例详解
  6. java面向对象认定的特征_Java面向对象的三大特征(一)
  7. 解决IndexClosedException: closed
  8. if not exist Oracle,oracle 兑现 if not exist 方法
  9. html tfoot标签,HTML tfoot 标签
  10. php 安装oracle扩展,win PHP7安装oracle扩展