No.02

智源社区

AI系统组

A

I

 统

研究

观点

资源

活动

关于周刊

AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,为了帮助研究与工程人员了解这一领域的进展和资讯,我们“AI系统”兴趣组整理了第2期《AI系统周刊》,从论文推荐、研究动态、学术资源等几个维度推荐近期 AI系统领域值得关注的信息,内容主要包括模型加速、智能体系架构与芯片以及软硬件系统。周刊采用社区协作的模式产生,欢迎感兴趣的朋友们加入我们,一同推动AI系统社群学习与交流。扫描文末二维码申请加入智源社区AI系统研究组。

(本期贡献者:Juli、ghwang、梁小伟、王欢)

论文推荐

标题:互补关系对比蒸馏(Complementary Relation Contrastive Distillation )了解详情

简介:2021年ICLR的CRD (Contrastive Relation Distillation)首次把contrastive learning的思想用到了KD中, 并取得了当时最好的结果. 相比于CRD, 论文将样本之间的距离引入了进来;在CIFAR100和ImageNet数据集上均比CRD和SSKD方法效果更好.

论文地址:https://arxiv.org/abs/2103.16367

标题:硬件支持的Tensor-train分解与高效数据处理(Hardware-Enabled Efficient Data Processing with Tensor-Train Decomposition)了解详情

简介: 为了应对TTD存在的问题,论文提出了第一个为有效执行TTD算法进行算法-硬件协同设计的定制架构(即TTD  Engine)。利用特殊的高阶张量数据结构以及数据稀疏性和对称性对原始的TTD算法进行了调整。并提出了一种分解计算方式进行逐元素操作,利用借助TTD  Engine解决阶增长问题。并在TTD引擎的基础上对TT格式的数据实施卷积运算。

论文地址:https://ieeexplore.ieee.org/document/9351565

标题:使用基于位级稀疏性优化和可变精度的Tensor-train内存计算处理器(15.4  A 5.99-to-691.1TOPS/W Tensor-Train In-Memory-Computing Processor Using  Bit-Level-Sparsity-Based Optimization and Variable-Precision  Quantization)了解详情

简介:TT分解引入了多个串行矩阵乘法(MM),从而产生了更多的MAC操作。为了解决该挑战,论文提出了一种TT @ CIM处理器,实现了5.99~691.13TOPS /  W的能量效率。采用基于MM融合和数据重用的CIM维度匹配TTI数据流;基于查找表(LUT)的MAC单元的可变精度量化方法等创新方法。

论文地址:https://ieeexplore.ieee.org/document/9365989

标题:基于多样化样本生成的无数据量化(Diversifying Sample Generation for Accurate Data-Free Quantization)了解详情

简介:研究发现现有的基于BN层统计量的无数据量化方法中,生成的数据存在显著的同质化问题。本文的DSG方案包括两个技术贡献:(1)松弛分布对齐(SDA):松弛BN层特征统计量,松弛统计分布约束;(2)分层样本增强( LSE):对不同的数据样本,采用分层增强的方法对特定层增强。这两种方法缓解了同质化问题,使得生成的数据更具多样性,在进行量化时可以获得与真实数据接近的效果。

论文地址:https://ieeexplore.ieee.org/document/9365989

标题:MSAD:用于低分辨率检测任务的多尺度对齐蒸馏(Multi-Scale Aligned Distillation for Low-Resolution Detection)了解详情

简介:本文首先将知识蒸馏应用于以不同输入分辨率起作用的师生网络的挑战上。为了解决这个问题,文章探索了通过移动特征金字塔位置在不同输入分辨率的模型之间空间对齐特征图的想法,并引入对齐的多尺度训练。此外,本文提出交叉特征级别融合以动态融合教师的多分辨率特征,以更好地指导学生。

论文地址:https://jiaya.me/papers/msaligndistill_cvpr21.pdf

标题:通过知识蒸馏压缩视觉语言模型(Compressing Visual-linguistic Model via Knowledge Distillation)了解详情

简介:本文以目标检测器的 proposal 作为迁移学习的中间表征,设计了能够对齐学生网络和教师网络隐藏表征和注意力分布的视觉-语言跨模态知识蒸馏框架,在图像描述和视觉问答问题上取得了出色的效果。

论文地址:https://arxiv.org/pdf/2104.02096.pdf

标题:基于有效权重卷积和误差压缩预测的28nm 12.1TOPS/W 双模CNN处理器(A 28nm 12.1TOPS/W Dual-Mode CNN Processor Using Effective-Weight-Based Convolution and Error-Compensation-Based Prediction)

了解详情

简介:为了在端侧设备上高效部署CNN模型本文通过挖掘量化后CNN模型权值大量冗余的特征,提出基于有效权重的卷积计算(EWC),通过预先合并相同权重的运算,可以减少大于90%的乘法运算;引入基于误差补偿的预测技术,大幅减少激活函数低阶bit的运算量;提出专用的流水结构,减少残差结构中大量的片外访存操作。

论文地址:https://ieeexplore.ieee.org/document/9365943

研究动态

清华大学吴文斐研究组深度学习系统研究获得NSDI最佳论文奖了解详情

近日,交叉信息研究院助理教授吴文斐等作者合作完成的论文《ATP:面向多租户的深度学习训练聚合传输协议》获得第18届USENIX网络系统设计与实现年会(Symposium on Network System Design and  Implementation)最佳论文奖。

时隔半年,中国龙芯的自主指令系统架构LoongArch终于来了!了解详情

龙芯是近年来国产自主程度相对较高的芯片,曾支撑 2015 年中国发射的北斗卫星。2020 年 8 月份,龙芯曾宣布放弃所有美国技术,转而研发一套完全采用中国技术的指令集 ,离自主可控更进一步。如今,龙芯正式推出自主指令系统架构,相应芯片已成功流片。

 CPU比GPU训练神经网络快十几倍,英特尔:别用矩阵运算了了解详情

近日,莱斯大学、蚂蚁集团和英特尔等机构的研究者发表了一篇论文,表明了在消费级CPU上运行的AI软件,其训练深度神经网络的速度是GPU 的15倍。

天数智芯7纳米GPU云端训练芯片BI正式发布了解详情

作为天数智芯推出的首款旗舰产品,BI是国内第一款全自研、真正基于通用GPU架构的GPGPU云端高端训练芯片,采用业界领先的7纳米制造工艺、2.5D  CoWoS封装,容纳240亿晶体管,支持FP32、FP/BF16、INT32/16/8等多精度数据混合训练,集成32GB  HBM2内存、存储带宽达1.2TB,单芯每秒可进行147万亿次FP16计算(147TFLOPS@FP16)。

学术资源

机器学习硬件加速器 | Hardware Accelerators for Machine Learning (CS 217)了解详情

深入介绍机器学习系统中设计训练和推理加速器的架构技术。课程涵盖经典的ML算法,用于ML模型推理和训练的加速器设计等,提供专业材料和PPT,近期更新了GitHub网站内容并提供部分学生实验代码。

课程网站:https://cs217.stanford.edu/

GitHub链接:https://github.com/cs217

Awesome Tensor Compilers:深度学习编译器资源列表了解详情

TVM小组成员郑怜悯的项目。他现在是伯克利的博士生。包括开源项目、论文、教程三部分。

GitHub网址:https://github.com/merrymercy/awesome-tensor-compilers

如果你正在从事或关注 AI 系统研究、实现与应用,欢迎加入“智源社区-AI 系统-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

请扫描下方二维码加入。

《AI系统周刊》第2期:硬件支持的Tensor-train分解与高效数据处理、清华吴文斐研究组获得NSDI最佳论文奖相关推荐

  1. 《AI系统周刊》第5期:Cerebras发布可运行120万亿参数AI模型的CS-2芯片

    No.05 智源社区 AI系统组 A I 系  统 研究 观点 资源 活动 关于周刊 AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,为了帮助研究与工程人员了解这一领域的进展和资讯,我们 ...

  2. 《AI系统周刊》第4期:DNN模型压缩之剪枝(Pruning)

    No.04 智源社区 AI系统组 A I 系  统 研究 观点 资源 活动 关于周刊 AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,为了帮助研究与工程人员了解这一领域的进展和资讯,我们 ...

  3. 《AI系统周刊》第1期:社群招新,打通智能计算软硬件“任督二脉”

    No.01 智源社区 AI系统组 A I 系  统 研究 观点 资源 活动 关于周刊 AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,为了帮助研究与工程人员了解这一领域的进展和资讯,智源 ...

  4. GPT-3等三篇论文获NeurIPS2020最佳论文奖 | AI日报

    为 AI 内行人定制资讯, 帮你一篇尽览 AI 行业要闻. GPT-3等三篇论文获NeurIPS2020最佳论文奖 今日NeurIPS 2020 公布了最佳论文奖和时间检验奖.OpenAI 等提出的语 ...

  5. INFOCOM 2021最佳论文奖:一种新颖的分布式算法提高在GPU集群上训练大型AI模型的效率

    INFOCOM 2021最佳论文:Exploiting Simultaneous Communications to Accelerate Data Parallel Distributed Deep ...

  6. 一分钟AI | Numpy将放弃Python2.7全面支持Python3,柯洁苦战终结AI41连胜深夜失眠发文感慨

    一分钟AI 柯洁深夜发微博,庆祝自己击败已经41连胜的新锐围棋AI"符合预期" <时代>杂志评选 2017 年最佳发明榜单发布:iPhone X,特斯拉Model 3, ...

  7. AI 创业周报第4期:AI芯片创企重磅发力,左手医生完成亿元 B 轮融资

    智源社区 AI 创业周报关注早期有潜在影响力的AI创业团队,挖掘新的场景和技术应用范式,同时希望通过采访和其他信息聚合的方式搜集创业观点,为AI创业者提供更有价值的行业洞察. 在过去的一周里,投融资消 ...

  8. CVPR华人包揽最佳论文,中国AI未来可期

    近日,计算机视觉和模式识别的顶级学术会议,CVPR 2019 会议开幕式暨颁奖仪式在美国洛杉矶举行,经过 CVPR 2019 专门的最佳论文奖评选委员会(Best Paper Award Commit ...

  9. 李德毅获吴文俊人工智能最高成就奖 | AI日报

    为了方便大家及时了解国内外AI领域的重要事件.科研进展.相关讨论等,我们智源社区推出了<AI日报>系列,以飨诸位. 2020年度第十届吴文俊人工智能科学技术奖获奖名单出炉!李德毅院士获最高 ...

最新文章

  1. 声智科技完成2亿元B轮融资,将持续拓展语音交互产品的规模化落地
  2. linux nfs 进程,【Linux】 nfs 故障处理
  3. 无需服务器的个人博客 (2018.5.22更新)
  4. idea 查看jsp是否被引用_全网最全的IDEA热部署方案,看完再也不用加班了!
  5. 《LeetCode力扣练习》第17题 电话号码的字母组合 Java
  6. 江西财经大学第一届程序设计竞赛 G题小Q的口袋校园
  7. C和指针之动态内存分配堆、栈、全局区(静态区)、常量区对比总结学习笔记
  8. 树莓派搭建私人服务器
  9. 图论算法——无向图的深度优先搜索和广度优先搜索
  10. mysql 5.5.32备份数据库_十六、mysql的备份与恢复(二)--mysqldump
  11. 与其他库一起使用jQuery
  12. Atitit 计算机网络体系结构原理与实践attilax总结 目录 1.  计算机网络体系结构 1 1.1. Wmi 1 1.2. IPMI与BMC 1 1.3. Tcp/udp 2 1.4. 代理
  13. 会玩弹珠也可以拿来炫了?是的,这个技能燃爆了!
  14. Q116:PBRT-V3场景描述文件.pbrt格式解析
  15. Studio 3T 使用教程 mogodb
  16. 多线程----使用线程池爬取二手房信息
  17. 【深度完美精简版 5.10】 Deepin-LiteXP-5.10
  18. html视频如何转换成mp4视频格式,将MP4、MPEG、MOV等格式的视频转换成WEBM格式的方法...
  19. 双十一数码产品哪些值得买?双十一好物产品分享
  20. 基于ListView的滑动删除、添加、修改

热门文章

  1. java combinationsum_Leecode39 combination-sum
  2. php个人中心代码,wordpress个人中心页author_user的相关判断处理php代码
  3. java write_java中write(byte[] b)与write(byte[] b,int off,int len)区别
  4. java数组的协变_Java数组协变与范型不变性
  5. spring aop 之链式调用
  6. 本地MySQL数据库要访问远程MySQL数据库的表中的数据的实现
  7. 《剑指offer》写一个函数,求两个整数之和,要求在函数体内不得使用+、-、*、/四则运算符号。...
  8. 50篇经典珍藏 | Docker、Mesos、微服务、云原生技术干货
  9. 如何查看和停止Linux启动的服务
  10. Android SDK国内更新