1. 高端GPU禁售传闻声起,BAT们遭遇紧张时刻

互联网企业成为此次制裁波及的主要对象。行业人士指出,互联网厂商出于对性能等因素考虑,对国产CPU、GPU普遍接纳度不高,此次事件应为互联网厂商预警,加速CPU、GPU等核心芯片的国产替代应受到重视,希望有助于互联网厂商加速推进服务器核心芯片国产替代的导入和验证,提升自主可控能力。

链接:

https://www.laoyaoba.com/html/share/news?source=app_android_v90&news_id=831093&fromShare=android&utm_source=utm_source_sharewxm

2. 陈天奇CMU新课程线上免费听,剖析DL框架底层原理

9月13日开课,线上免费注册参与,主要面向高年级本科到博士在读阶段的学生。需要参与者有基本的数学背景,对机器学习有一定的了解,掌握系统编程(Python和C/C++ )和线性代数。

链接:https://zhuanlan.zhihu.com/p/558676179

3. 旷视天元MegEngine开源CUDA INT4量化源码实现

为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了INT4的源码实现,这也让MegEngine成为首个开源CUDA INT4源码实现的深度学习框架。MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种INT4的数据类型,同时通过算子融合优化、kernel优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以ResNet-50为例,INT4相比INT8有1.3倍的加速。

链接:https://mp.weixin.qq.com/s/zJPagx0FFN5lGltWgSJDXg

4. OneFlow源码解析:Tensor类型体系与Local Tensor

tensor和op是神经网络模型最基本的组件:op是模型的节点,tensor是连接节点的边。然而,构建一个tensor并不仅仅是构造一个对象那么简单,至少要考虑以下问题:要支持节点本地的local tensor,以及分布式的global tensor;要支持eager和lazy执行模式;要支持不同的数据类型,包括float、double、int等;要支持不同设备。

链接:https://mp.weixin.qq.com/s/eB5TP9f8LQOzW7sDgUhGJQ

5. 深入了解MindSpore训练推理框架设计

作者将围绕MindSpore的Model类的相关代码,对MindSpore的训练流程设计和推理流程设计进行深入的解读,并且结合相应的代码,以分割任务为例,介绍如何使用Model.train和Model.eval构建复杂任务的训练测试流程设计。

链接:https://zhuanlan.zhihu.com/p/559357242

6. 从Core Dump中提取CUDA的报错信息

近期,Meta AI团队在生产PyTorch AI模型时遇到了一个难题。这一问题由CUDA非法内存访问引起,号称集结了Meta全公司最牛的AI工程师才搞定,这篇博客记录了他们使用CUDA的core dump来确定报错位置所使用的技巧和实践。

链接:https://mp.weixin.qq.com/s/OkHCFVCPLNJCG-f_eARn5w

7. 简单谈谈CUDA的访存合并

学习CUDA的人肯定会经常听到“访存合并”这个词,作者主要从基础概念、向量化的错误做法导致的未合并访存进行介绍。

链接:https://zhuanlan.zhihu.com/p/559957579

8. MLIR-Playground: 探索下一代编译软件栈工程的新范式

MLIR中国社区的一些开发者利用个人业余时间,开发了MLIR-Playground,一个可以直接在浏览器里利用MLIR开发编译逻辑的云端应用。此举主要是受到了设计软件Figma是如何利用Web技术重新定义了UI设计协作,以及OpenAI是如何利用简单的网页Playground大幅降低了超大AI模型尝试门槛的启发。

链接:https://zhuanlan.zhihu.com/p/560810344

9. TVM入门学习指南

作者结合TVM Unify相关的抽象以及之前的一些积累重新梳理一下TVM的整体流程。他从前端,中端(图优化Pass机制),代码生成(Schedule),Runtime,开发工具几个角度进行了介绍。本文将尽量避免涉及到底层C++代码的细枝末节,而是从较为宏观的视角来讲清楚目前TVM的架构,希望对入门TVM的读者有帮助。

链接:https://zhuanlan.zhihu.com/p/560210215

10. 通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统”

微软亚洲研究院联合微软图灵团队推出了最新升级的BEiT-3预训练模型,在广泛的视觉及视觉-语言任务上,包括目标检测(COCO)、实例分割(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图片描述生成(COCO)和跨模态检索(Flickr30K,COCO)等,实现了SOTA的迁移性能。BEiT-3创新的设计和出色的表现为多模态研究打开了新思路,也预示着 AI 大一统渐露曙光。

链接:https://mp.weixin.qq.com/s/PIzTxwsojUSEf_8PtB2jig

11. 扩散模型背后数学太难了?谷歌用统一视角讲明白了

很多研究者认为,基于扩散模型的文本图像生成模型不但参数量小,生成的图像质量却更高,大有要取代GAN的势头。不过,扩散模型背后的数学公式让许多研究者望而却步,众多研究者认为,其比VAE、GAN要难理解得多。

近日,来自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》,本文以极其详细的方式展示了扩散模型背后的数学原理,目的是让其他研究者可以跟随并了解扩散模型是什么以及它们是如何工作的。

链接:https://mp.weixin.qq.com/s/v14V_sMPhMVrtw2EKMISQQ

12. 深势科技联手阿里云,AI蛋白质预测再下一城

深势科技与阿里云机器学习PAI团队联手,通过全新的蛋白质结构预测推理加速方案FoldAcc,结合深势Uni-Fold最新模型代码和参数,将单次预测能支持的最大氨基酸序列长度提升至6.6k,覆盖99.992%已知的蛋白序列,同时推理速度显著提升,达到目前已知的最佳推理优化效果,将为AI预测蛋白质结构落地应用提供重要助力。

链接:https://mp.weixin.qq.com/s/oSZ2hmWifiN5fIWRST2Dtw

13. 线上活动报名 | AI思享会:中国AI基础软件发展探讨

时间:9月8日(本周四)14:30

TensorFlow和PyTorch等已经被广泛应用,但随着AI技术的进一步发展,在分布式训练、高性能计算和高效编译等方面都有了新的需求,AI基础软件的发展也有了新的要求和方向。

本期AI思享会邀请了几位从事AI基础软件研究和创业的清华校友和老师等,分享各自在AI基础软件方面的成果和进展,及共同探讨和展望新一代AI基础软件发展的情况。

链接:https://mp.weixin.qq.com/s/WUNiNFCPBJg9IigAHtjvQQ

题图源自Dimitris Vetsikas, Pixabay

其他人都在看

  • OneFlow v0.8.0正式发布

  • 9篇分布式机器学习系统经典论文

  • 深度学习硬件的过去、现在和未来

  • 从Core Dump中提取CUDA的报错信息

  • 源码解析:Tensor类型体系与Local Tensor

  • OneEmbedding:单卡训练TB级推荐模型不是梦

  • 大模型训练难?效率超群、易用的“李白”模型库来了

欢迎体验OneFlow v0.8.0:GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. - GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.https://github.com/Oneflow-Inc/oneflow/

探索编译软件栈新范式;高端GPU禁售的影响;陈天奇DL系统免费课程|AI系统前沿动态相关推荐

  1. 华盛顿大学成立SAML实验室:陈天奇参与,推进未来AI系统全栈研究

    安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI △ 陈天奇 昨天,TVM.XGBoost.cxxnet等机器学习工具的作者陈天奇宣布,自己所在的华盛顿大学新成立了一个实验室,组织代号& ...

  2. 新世代高端旅行六大偏好:Bleisure、场景感、体验感成趋势

    上海2021年10月29日 /美通社/ -- 万豪旅享家旗下奢华品牌丽思卡尔顿于近日发布<新世代高端旅行偏好洞察>,通过研究由千禧一代(1986-1995年出生).Z世代(1996-200 ...

  3. 北航软件李卫国:打造高端实用型国际化IT人才

    新浪科技讯12月23日消息,北京航空航天大学软件学院党委书记李卫国近日对新浪科技表示,北航软件学院成立8年来,按照"人才需求牵引.市场导向.校企合作和开放办学"的办学宗旨,致力于打 ...

  4. 美通社企业新闻汇总 | 2019.1.8 | 海信在CES发布100吋三色激光电视,良品铺子品牌新定位高端零食...

    要闻 调查显示,全国25岁青年人群实际月薪中位数税前仅为5276元 良品铺子请吴亦凡代言,将定位为"高端零食" 海信集团在2019年CES展发布70吋与100吋三色激光电视 华大智 ...

  5. 国产高端GPU,国产替代加速(附国产厂家汇总)

    前言 2022年8月9日,壁仞科技在上海发布首款通用GPU芯片BR100,标志着中国企业第一次打破了此前一直由国际巨头保持的通用GPU全球算力纪录: 8月31日,美国政府命令芯片厂商英伟达(NVIDI ...

  6. 专精特新、高端领航 中交华安核心技术及产品介绍第1期:单侧型桥墩防护解决方案——SA级高强型低变形量护栏...

    来源:中交华安 导读 1.大型车辆撞击桥墩可能引发重特大交通事故,造成严重事故后果和不良社会影响. 2.目前国内外鲜少有专门用于桥墩防护的安全设施,可用于路侧距离较近桥墩或中分带内薄壁墩的安全设施仍处 ...

  7. unity 可视化渲染管线_如何为高端可视化设置Unity的高清渲染管道

    unity 可视化渲染管线 Prior to Unite Copenhagen in September 2019, Unity collaborated with Lexus and its age ...

  8. OPPO Find X3通过网站推广正式官宣,打破常规探索高端旗舰新突破!

    早在三月初OPPO就已经开始针对OPPO Find X3新系列产品做出预热,从选择姜文作为新系列高端旗舰产品的代言人就可以看出,此次OPPO有着全新的考量.借用姜文经典电影中的台词"什么TM ...

  9. Valve开发校准软件,LCD屏也能与高端VR头显适配了

    Valve开发了全新核心虚拟现实技术组件,让LCD和OLED都可被用于高端VR头显当中. Valve正在为下一代VR头显研发全新透镜.如今,Valve表示,LCD技术的最新进展以及VR专属校准软件可以 ...

最新文章

  1. Git远程仓库Github
  2. IntelliJ IDEA - 热部署插件JRebel 安装使用教程
  3. python语言格式化输出_Python | 格式化输出字符串
  4. WampServer修改端口及菜单Localhost
  5. 试图加载格式不正确的程序
  6. CCF-CSP认证201312-1(出现次数最多的数)
  7. 单片机、ARM、DSP与CPU之间的关系大揭秘
  8. Google Maps Android API v2 (2)- 地图对象
  9. 半导体明珠 ASML 是如何炼成的?
  10. BIND9源码分析之 多个view的情况下如何做dynamic update
  11. mysql 楼层_MySQL 8.0.0 发布!
  12. 计算机Excel运行环境,Excel Server Tutorial
  13. 甲乙2个人去买冬瓜,甲买差7元,乙买差9元,合买差1元,冬瓜多少钱?
  14. win10一共几个版本,有什么区别?win10版本区别
  15. 使用MinMaxScaler 中scaler.inverse_transform不能返回原来数据的原因
  16. Dynamics CRM调用选择用户弹窗
  17. 电子白板功能的设计与实现
  18. pcm数据编码成为aac格式文件(可以在酷狗播放)
  19. twr java_Java7新特性 - TWR(try-with-resources)
  20. 【Shader进阶】Shader的Lod

热门文章

  1. 监督,无监督以及自监督之间的区别
  2. 东南计算机考研生源,生源信息丨东南大学2019届毕业生生源信息情况发布!
  3. JS随机生成ID 以及随机生成坐标
  4. Calca for Windows(文本编辑器/符号计算器)
  5. 99%的人将沦为无用阶层,你会是那1%吗
  6. 为什么我是不合格的高校机器人工程专业讲师?
  7. 理解GO语言make 和 new 的区别
  8. 矩形可以切割多少个最大的正方形
  9. 搭建可视化管理DNS服务器
  10. OV7670 的SCCB (I2C)波形记录