比RNN快136倍!上交大提出SRNN,现在RNN也能做并行计算了
比RNN快136倍!上交大提出SRNN,现在RNN也能做并行计算
论文和开源代码地址:
https://arxiv.org/pdf/1807.02291.pdf
https://github.com/zepingyu0512/srnn
在许多NLP任务中,循环神经网络(RNN)取得了巨大的成功。但是,这种循环的结构使它们难以并行化,因此,训练RNN需要大量的时间。
上海交通大学的Zeping Yu 和Gongshen Liu,在论文“Sliced Recurrent Neural Networks”中,提出了全新架构“切片循环神经网络”(SRNN)。SRNN可以通过将序列分割成多个子序列来实现并行化。SRNN能通过多个层获得高级信息,而不需要额外的参数。
研究人员证明了当使用线性激活函数时,标准RNN是SRNN的一个特例。在不改变循环单元的情况下,SRNN的速度是标准RNN的136倍,并且当训练更长的序列时可能会更快。对六个大型情绪分析数据集的实验表明,SRNN的性能优于标准RNN。
提高RNN训练速度的多种方法
循环神经网络(RNN)已经被广泛用于许多NLP任务,包括机器翻译、问题回答、图像说明和文本分类。RNN能够获得输入序列的顺序信息。最受欢迎的两个循环单元是长短期记忆(LSTMÿ
比RNN快136倍!上交大提出SRNN,现在RNN也能做并行计算了相关推荐
- 比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 神经架构搜索一直被认为是高算力的代表,尽管可微架构搜索的概念非常吸引人,但它目前的 ...
- 【CVPR 2020】弱监督怎样做图像分类?上交大提出自组织记忆网络
点击上方"视学算法",选择"星标"公众号 重磅干货,第一时间送达 本文转载自机器之心 近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6656 ...
- CVPR | 让合成图像更真实,上交大提出基于域验证的图像和谐化
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6 ...
- 机器也学会如何做「阅读理解」了? 云从科技上交大提出的DCMN+ 模型为你解答!!!...
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转自机器之心 2020 年 2 月 7 日-2 月 12 日,AAAI 2020 ...
- 云从科技上交大提出DCMN+ 模型,在多项阅读理解数据集上成绩领先
2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办.不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇, ...
- 【CVPR 2020】让合成图像更真实,上交大提出基于域验证的图像和谐化
本文转载自机器之心(公众号ID:almosthuman2014),未经许可请勿二次转载. 近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文 ...
- 上交大博导:写给不想做学术的你
这是在毕业时节最想说的话.近些年各地走走,学界朋友聚在一起,谈得最多的还是对学生的感慨,无非是说,现在认真读书的人太少了.到了学生这边,觉得自己的论文一定是能通过的,不如把时间花来考CPA和CFA.一 ...
- 傅里叶变换取代Transformer自注意力层,谷歌这项研究GPU上快7倍、TPU上快2倍
视学算法报道 转载自:机器之心 机器之心编辑部 来自谷歌的研究团队表明,将傅里叶变换取代 transformer 自监督子层,可以在 GLUE 基准测试中实现 92% 的准确率,在 GPU 上的训练时 ...
- 傅里叶变换才是本质?谷歌这项研究GPU上快7倍、TPU上快2倍
转载自:机器之心 来自谷歌的研究团队表明,将傅里叶变换取代 transformer 自监督子层,可以在 GLUE 基准测试中实现 92% 的准确率,在 GPU 上的训练时间快 7 倍,在 TPU 上的 ...
最新文章
- Android-NDK-audio-echo
- urlrewrite 地址重写
- 计划任务中allow和deny的优先级
- 电路中的这些符号标识,你真的明白吗?
- 札记__ADT:URL,Lua:strlen方法
- laravel框架制作缩略图和水印
- 总谐波失真计算公式_新能源汽车技术|车用轮毂电机转矩谐波协同控制策略
- arm ubuntu 编译boost_使用yocto工具编译qt5.9.6总结
- 【easy!】LeetCode 14. Longest Common Prefix
- 北大生物信息学公开课学习(1)
- BZOJ 2754 喵星球上的点名(后缀数组)
- Windows 10 超过Windows 7成为最受欢迎的操作系统
- 线材下料优化python算法_深度学习中的优化算法(Optimizer)理解与python实现
- 又一场“人机大战”?来自AI open无情碾压!
- [FROM WOJ]#4479 长跑
- Linux磁盘列阵(RAID),包括RAID详解、Linux磁盘列阵和mdadm命令的相关操作
- nginx配置反向代理和负载均衡完结篇
- 基于 LSTM 的分布式能源发电预测(Matlab代码实现)
- 一个典型的语音识别系统
- 数字游戏(东华大学OJ练习题)
热门文章
- kali Linux metasploit进入msfgui
- 跳表SkipList
- Linux内存管理原理
- variable java_在XSLT中使用Variable Argument调用Java方法
- java 线程组和线程_Java多线程 线程组原理及实例详解
- java面向对象认定的特征_Java面向对象的三大特征(一)
- 解决IndexClosedException: closed
- if not exist Oracle,oracle 兑现 if not exist 方法
- html tfoot标签,HTML tfoot 标签
- php 安装oracle扩展,win PHP7安装oracle扩展