点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】微信技术交流群

转载自:机器之心

从此,大模型可以在任何设备上编译运行。

「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」

五一假期还没过半,大模型领域的技术就已经发展到了这种程度。

对于陈天奇等人开源的新技术,大家一致的评论是「Amazing」。

最近人们都在研究 ChatGPT,大语言模型(LLM)彻底改变了科技领域的格局,但对于 AI 开发者来说,并不是人人都有上万块 A100 的。为了跑得起大模型,就要寻找各种优化方法。

在让大模型变小这条路上,人们做了很多尝试,先是 Meta 开源了 LLaMA,让学界和小公司可以训练自己的模型。随后斯坦福研究者启动了 Lamini,为每个开发者提供了从 GPT-3 到 ChatGPT 的快速调优方案。

最近这个叫 MLC LLM 的项目可谓一步登天,因为它能让你「在任何设备上编译运行大语言模型。

MLC LLM 为我们在各类硬件上原生部署任意大型语言模型提供了解决方案,可将大模型应用于移动端(例如 iPhone)、消费级电脑端(例如 Mac)和 Web 浏览器。

该项目是由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇等多位研究者共同开发的,参与者来自 CMU、华盛顿大学、上海交通大学、OctoML 等院校机构,同时也获得了开源社区的支持。

  • 项目地址:https://github.com/mlc-ai/mlc-llm

  • Demo:https://mlc.ai/mlc-llm/

借助 MLC LLM 方案,我们可以在移动端部署和运行大型语言模型,例如在 iPhone 上运行聊天机器人:

在 Web 浏览器上运行聊天机器人:

当然,在 Windows 和 Linux 上本地运行也是肯定可以的,聊天机器人应用程序能通过 Vulkan 平台在 GPU 上运行:

MLC-LLM 推出不到两天,GitHub 的 Star 量已经接近一千。在社交网络上人们纷纷点赞,表示 MLC-LLM 让我领教了低精度跑 AI 的可怕程度:

也有人晒出了自己的使用体验,iPhone 飞行模式本地跑大语言模型:

简单来说,MLC LLM 是一种通用解决方案,它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上。此外,MLC LLM 还提供了一个高效的框架,供使用者根据需求进一步优化模型性能。

MLC LLM 旨在让每个人都能在个人设备上本地开发、优化和部署 AI 模型,而无需服务器支持,并通过手机和笔记本电脑上的消费级 GPU 进行加速。具体来说,MLC LLM 支持的平台包括:

  • iPhone

  • Metal GPU 和英特尔 / ARM MacBook;

  • 在 Windows 和 Linux 上支持通过 Vulkan 使用 AMD 和 NVIDIA GPU;

  • 在 Windows 和 Linux 上 通过 CUDA 使用 NVIDIA GPU;

  • 浏览器上的 WebGPU(借助 MLC LLM 的配套项目 Web LLM)。

项目概览

为了实现在各类硬件设备上运行 AI 模型的目标,研究团队首先要解决计算设备和部署环境的多样性问题,主要挑战包括:

  • 支持不同型号的 CPU、GPU 以及其他可能的协处理器和加速器;

  • 部署在用户设备的本地环境中,这些环境可能没有 python 或其他可用的必要依赖项;

  • 通过仔细规划分配和积极压缩模型参数来解决内存限制。

  • MLC LLM 提供可重复、系统化和可定制的工作流,使开发人员和 AI 系统研究人员能够以 Python 优先的方法实现模型并进行优化。MLC LLM 可以让研究人员们快速试验新模型、新想法和新的编译器 pass,并进行本地部署。

原生部署

为了实现原生部署,研究团队以机器学习编译(MLC)技术为基础来高效部署 AI 模型。MLC LLM 借助一些开源生态系统,包括来自 HuggingFace 和 Google 的分词器,以及 LLaMA、Vicuna、Dolly 等开源 LLM。

MLC LLM 的主要工作流基于 Apache TVM Unity,通过扩展 TVM 后端使模型编译更加透明和高效。

  • Dynamic shape:该研究将语言模型烘焙(bake)为具有原生 Dynamic shape 支持的 TVM IRModule,避免了对最大输入长度进行额外填充的需要,并减少了计算量和内存使用量。

  • 可组合的 ML 编译优化:MLC LLM 可以执行许多模型部署优化,例如更好的编译代码转换、融合、内存规划和库卸载(library offloading),并且手动代码优化可以很容易地合并为 TVM 的 IRModule 转换,成为一个 Python API。

  • 量化:MLC LLM 利用低位量化来压缩模型权重,并利用 TVM 的 loop-level TensorIR 为不同的压缩编码方案快速定制代码生成。

  • 运行时(Runtime):TVM 编译生成的库能够通过 TVM runtime 在设备的原生环境中运行,TVM runtime 支持 CUDA/Vulkan/Metal 等主流 GPU 驱动以及 C、JavaScript 等语言的绑定。

此外,MLC 还为 CUDA、Vulkan 和 Metal 生成了 GPU shader,并通过 LLVM 支持多种 CPU,包括 ARM 和 x86。通过改进 TVM 编译器和运行时,使用者可以添加更多支持,例如 OpenCL、sycl、webgpu-native。

MLC-LLM 的发布让我们再次感受到了陈天奇 TVM 的力量。

陈天奇是机器学习领域知名青年学者,2019 年任卡耐基梅隆大学机器学习、计算机科学系助理教授。早在 2017 年,他和他的同时开源了著名深度学习框架 TVM,对业界产生了深远的影响。利用这一工具,机器学习算法可以自动编译成可供下层硬件执行的机器语言,从而可以利用多种类型的算力。

在人们的努力下,我们或许很快就能看到云 + 端侧分别部署大模型的下一代应用。

参考链接:

https://zhuanlan.zhihu.com/p/625959003

https://mlc.ai/mlc-llm/

https://mlc.ai/web-llm/

https://github.com/mlc-ai/web-llm/tree/main

点击进入—>【Transformer】微信技术交流群

最新CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

陈天奇等人新作引爆AI界!手机原生跑大模型,算力不是问题了相关推荐

  1. iPhone直接跑大模型!陈天奇等人新作引爆AI界,算力不是问题了

    ©作者 | 机器之心编辑部 来源 | 机器之心 从此,大模型可以在任何设备上编译运行. 「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」 五一假期还没过完,大模型领域的技术就已经发展到 ...

  2. 陈天奇等人新作引爆AI界

    来源:机器之心 「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」 对于陈天奇等人开源的新技术,大家一致的评论是「Amazing」. 最近人们都在研究 ChatGPT,大语言模型(LLM ...

  3. 陈天奇:我的 iPhone可以跑大模型了!

    Datawhale开源 开源:陈天奇,CMU,编辑:机器之心 从此,大模型可以在任何设备上编译运行. 「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」 五一假期还没过半,大模型领域的技 ...

  4. (十三)AI作画、AI绘画、AIGC本地大模型

    (十三)AI作画.AI绘画.AIGC本地大模型 AI作画近期很火,涌现出了很多AIGC(AI内容生成)的网站.平台,但这些平台都是使用的云上的算力,基本都有使用的各种限制等. 一.本代码自动将大模型下 ...

  5. 《达摩院2023十大科技趋势》发布,生成式AI、多模态预训练大模型入选

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 1月11日,达摩院发布<达摩院2023十大科技趋势>,生成式AI.多模态预训练大模型等技术入选. 达摩院认为,AI正在加速奔 ...

  6. 自动生成硬件优化内核:陈天奇等人发布深度学习编译器TVM

    有了 TVM,业界与学界开发者们可以快速.轻松地在各个系统(包括手机.嵌入式设备与低功耗芯片)上部署深度学习应用程序,同时无须担心资源与速度的限制.「TVM 作为神经网络和硬件后端之间的共同层,消除了 ...

  7. ChatYuan元语AI: 类似ChatGPT功能型对话大模型 部署实践

    个人使用感受 1.中英翻译超越了翻译软件,变成本地翻译最好软件了,回答英文时 有时单词之间没有空格 2.中文对话能基本理解意图,回答时会出现搜索式回答.相关内容,照抄网页相关内容原封不动显示出来,不精 ...

  8. AI Code Generation:人工智能LLM大模型对编程的影响

    目录 AI代码生成已经成为了编程领域的一个重要趋势 Context loading beats fine tuning- for now上下文加载胜过微调...目前

  9. 复旦邱锡鹏新作:单机微调650亿参数大模型,业内人士:对大模型普及意义重大...

    鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 单台机器,就能微调全参数羊驼大模型! 这一令开源党狂喜的最新成果,来自复旦邱锡鹏团队. 具体而言,研究人员提出了名为LOMO(低内存优化)的新优化 ...

最新文章

  1. 微软宣布MySQL和PostgreSQL的Azure数据库服务正式可用
  2. mysql释放表空间
  3. python 动态调整控件大小_python PyQt5如何让窗口控件与窗口大小同步变化?
  4. android view setleft,android – 在新textview上使用setLeft / setRight方法
  5. pom.xml中依赖的optionaltrue/optional标签
  6. Vim安装YouCompleteMe自动补全插件
  7. 视频专家之路【三】:Vs开发环境的搭建
  8. python输入路径读取文件-python获取程序执行文件路径的方法(推荐)
  9. 记我的一次重构——希望对新人有所帮助
  10. Linux常用的查找命令总结
  11. 做一个简易jsp项目的详细开发流程及步骤
  12. 大数据开发之CDH篇----cloudera-scm-agent启动不了后的一堆事
  13. CCFCSP 201803-2碰撞的小球
  14. 使用来自文件“***.snk”的公钥对输出签名时出错
  15. 精神小伙儿探秘JVM( 六)
  16. linux系统文件颜色含义
  17. iQOO Z3、OPPOK9和小米11青春版的区别 哪个好
  18. XP下安装IIS6.0的办法
  19. Python爬虫开源项目代码(爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网 等等)...
  20. 怎么把部分jsp代码嵌入另一个jsp页面里面

热门文章

  1. gitlab 分支合并 冲突处理
  2. c语言指针程序找错题,C语言指针错题
  3. 告诉你一个朴素的上海(中/食)
  4. c语言编程实现二维数组的蛇形矩阵,蛇形矩阵 - 作业部落 Cmd Markdown 编辑阅读器...
  5. Squish — 基于Qt的HMI自动化测试工具
  6. php 位运算符的实际应用(权限判断)
  7. 实现顺序栈各种基本运算的算法
  8. unity3d 气泡效果_unity游戏水泡气泡肥皂泡粒子特效Jiggly Bubble v1.31
  9. 【蓝桥杯】Python实现蛇行矩阵
  10. 泰拉瑞亚手机版html,泰拉瑞亚房子设计图 手机版房子造型推荐