全球首个完全开源的指令跟随大模型;T5到GPT-4最全盘点
1. Dolly 2.0:世界上第一个完全开源的指令跟随LLM
两周前,Databricks发布了类ChatGPT的大型语言模型 (LLM)Dolly,其训练成本不到 30 美元。今天,他们发布了 Dolly 2.0,这是业内第一个开源的指令跟随LLM,并根据高质量的人类生成的指令数据集(15000个prompt/response pairs)进行了微调。Dolly 2.0 基于EleutherAI pythia模型系列,是一个具有12B参数的语言模型。
他们正在完全开源 Dolly 2.0,包括训练代码、数据集和模型权重,这些都可以商用。这意味着,任何组织都可以创建、拥有和定制强大的 LLM,并且无需支付 API 访问费用或与第三方共享数据。
链接:
1. https://huggingface.co/databricks;
2. https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm
2. 大型语言模型综述全新出炉:从T5到GPT-4最全盘点
考虑到 LLMs 的快速技术进步,中国人民大学的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展,尤其关注 LLMs 的预训练、自适应调优、使用和能力评估。此外他们还总结和开发 LLMs 的可用资源,讨论了未来发展方向等问题。对于领域内研究人员和工程师而言,这份综述是一份极其有用的学习资源。
链接:
https://mp.weixin.qq.com/s/7HRr55Md2Wl6EHQMGioumw
3. OpenAI创始人:GPT-4的研究起源和构建心法
GPT模型所取得的成就令人艳羡,不过这建立在OpenAI数年的技术探索和坚定信念上。作为深度参与了GPT模型从0到1生产过程,以及推动GPT研究和工程落地的主要“幕后推手”,Brockman对此深有体会,“它并非试图像快速致富那样昙花一现,而是一直在缓慢积累价值,才有了指数级增长带来的巨大回报。”
链接:
https://mp.weixin.qq.com/s/hO1ZdqgOjpA328luobQ9eg
4. ChatGPT作者John Schulman:我们成功的秘密武器
新增的对话数据固然重要,不过,让ChatGPT更容易推断出用户的意图,产生质变的根本原因是已在InstructGPT使用的“人类反馈的强化学习(RLHF)”技术,OpenAI联合创始人、研究科学家John Schulman认为,RLHF才是ChatGPT的秘密武器(secret sauce)。本文中,我们可以看到ChatGPT技术演进的脉络和不曾在论文中被描述的细节,以及OpenAI团队的下一步研究方向。
链接:
https://mp.weixin.qq.com/s/sDeBYMvAwbJr5_tj7Q20-w
5. 千亿参数开源大模型BLOOM背后的技术
近年来,语言模型越训越大已成为常态。大家通常会诟病这些大模型本身的信息未被公开以供研究,但很少关注大模型训练技术这种背后的知识。本文旨在以 1760 亿参数的语言模型 BLOOM 为例,阐明训练此类模型背后的软硬件工程和技术要点,以促进大家对大模型训练技术的讨论。
链接:
https://zhuanlan.zhihu.com/p/615839149
6. 分布式训练的十大常见错误和解决方案
大型语言模型 (LLM)时代,分布式训练势在必行,因为数据和模型权重很少能同时放到一张卡上。然而,ML 中的分布式训练非常复杂且容易出错,其中隐藏着许多陷阱,可能会在模型训练过程中引发巨大问题。本文将介绍分布式模型训练中十个最常见的错误,并将针对每个错误提出解决方案。
链接:
https://neptune.ai/blog/distributed-training-errors
6.5. AutoGPT太火了,无需人类插手自主完成任务
近日,AI 界貌似出现了一种新的趋势:自主人工智能。这不是空穴来风,最近一个名为 AutoGPT 的研究开始走进大众视野。特斯拉前 AI 总监、刚刚回归 OpenAI 的 Andrej Karpathy 也为其大力宣传,并在推特赞扬:「AutoGPT 是 prompt 工程的下一个前沿。」
链接:
https://mp.weixin.qq.com/s/bV1tPc7hNn2z06YOpzyanw
7. 理解大型语言模型(入门阅读清单)
由于Transformer对每个人的研究工作产生了如此大的影响,作者罗列了一个阅读清单供机器学习研究人员和从业者入门LLM。
链接:
https://sebastianraschka.com/blog/2023/llm-reading-list.html?
8. 大模型汇总(10亿级参数规模以上)
大模型(大型语言模型,LLMs)是当下AI和NLP研究与产业中最重要的方向之一。本文将对当下的主流大模型进行总结。参数规模在1B以上的模型视为大模型。
链接:
https://zhuanlan.zhihu.com/p/611403556
9. ML系统入门资料整理(tvm&mlir&llvm)
对于想入门mlsys或者想深入学习某种编译器的开发者来说,希望这个资料可以成为不错的起点。
链接:
https://zhuanlan.zhihu.com/p/618229430
10. 谈谈对OpenAI Triton的一些理解
Triton应该算是笔者看到的基于MLIR编译技术路径实现,性能和功能均可满足一部分实际需求且得到了生产检验,并且在主流AI加速器上解决了计算密集算子开发需求的第一个开源工作。
链接:
https://zhuanlan.zhihu.com/p/613244988
11. mperf:移动/嵌入式平台算子性能调优利器
在移动/嵌入式平台,为了最大程度发挥硬件算力,对算子极致性能的追求变成必然,不同于桌面/服务器平台,移动/嵌入式平台在算子性能调优方面可选择的工具很少。mperf 是一个微架构层次的算子性能调优工具箱,主要面向移动/嵌入式平台的 CPU/GPU 核心,目标是“为构建一个更接近闭环的算子调优反馈回路”提供系列基础工具。
链接:
https://zhuanlan.zhihu.com/p/610346564
12. 小型Python编译器项目入门
适合对编译优化、高性能计算、GPU编程感兴趣,完全零基础的同学也没问题,但是需要熟悉Python编程。
编译器和测试部分代码完全用Python编写,算子的部分使用cupy的rawKernel功能将cuda代码编译成一个Python函数。目前已完成了第一个模块的代码部分,共分为5天,每一天的所有代码加起来不超过100行,简单易懂。
链接:
https://zhuanlan.zhihu.com/p/603352525
13. CUDA编程:常用技巧/方法
不管你是在学习CUDA,还是在优化算子,掌握一些CUDA编程技巧,能够提升你的工作效率,甚至找到更优解。本文主要是介绍一些常用的技巧/方法,并配上实践code,希望对读者有所帮助。
链接:
https://zhuanlan.zhihu.com/p/584501634
14. NCCL源码解析①:初始化及ncclUniqueId的产生
NCCL是英伟达开源的GPU通信库,支持集合通信和点对点通信。
链接:
https://mp.weixin.qq.com/s/_SOmkGoo9DblXb8ddyEeaQ
15. 适配PyTorch FX,OneFlow让量化感知训练更简单
OneFlow紧随其后添加了针对OneFlow的fx,即One-fx,在安装One-fx之后,用户可以直接调用oneflow.fx,也可以直接通过import onefx as fx进行使用。
链接:
https://mp.weixin.qq.com/s/O8yGUuTL-o_gHQV4xez_nQ
16. One-YOLOv5 v1.2.0发布:支持分类、检测、实例分割
新版本同步了Ultralytics YOLOv5的上游分支v7.0,同时支持分类、目标检测、实例分割任务;支持flask_rest_api;支持使用 wandb 对实验跟踪和可视化功能;oneflow_hub_support_pilimage;为每个batch的compute_loss部分减少一次h2d和cpu slice_update操作 ;优化 bbox_iou 函数和模型滑动平均部分,大幅提升训练性能;
兼容FlowFlops,训练时可以展示模型的FLOPs
链接:
https://mp.weixin.qq.com/s/bkEkInaF7Ht7KsdXUFkw-Q
其他人都在看
“ChatGPT们”的淘金时代
大型语言模型的推理演算
GPT-4创造者:第二次改变AI浪潮的方向
谷歌科学家:ChatGPT秘密武器的演进与局限
比快更快,开源Stable Diffusion刷新作图速度
OneEmbedding:单卡训练TB级推荐模型不是梦
GLM训练加速:性能最高提升3倍,显存节省1/3
欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/
全球首个完全开源的指令跟随大模型;T5到GPT-4最全盘点相关推荐
- 哈工大团队开源医学智能问诊大模型 | 华佗: 基于中文医学知识的LLaMa指令微调模型
原文: CVHub 门头沟学院AI视觉实验室御用公众号 | 学术 | 科研 | 就业 185篇原创内容 公众号 Title: HuaTuo: Tuning LLaMA Model with Chine ...
- 清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[多模态和扩散模型]微信技术交流群 转载自:机器之心 该论文提出了一个为多 模态设计的概率 ...
- 首个中文版ChatGPT来了:大模型的中国元“Yuan”
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 国内某公司的功能型对话大模型Ch ...
- 全球首个无人驾驶政策颁布,各大巨头并不完全买账
美国联邦政府出台<联邦自动驾驶汽车政策>,可是Uber等开发巨头并不满意. 近日,美国交通部出台了<联邦自动驾驶汽车政策>,主要针对自动驾驶汽车安全问题作出规范要求,也为发展自 ...
- AI同传效果媲美人类,百度翻译出品全球首个上下文感知机器同传模型
鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI同传领域又有新进展,这次突破来自百度. 百度机器翻译团队创新性地提出了全球首个感知上下文的机器同传模型,并基于此发布了最新的语音到语音 ...
- 仅用 480 块 GPU 跑出万亿参数!全球首个“低碳版”巨模型 M6 来了
继今年 3 月阿里达摩院发布国内首个千亿参数多模态大模型 M6(MultiModality-to-MultiModality MultitaskMega-transformer,以下简称 M6) 之后 ...
- 摩根大通打造ChatGPT式人工智能服务;度小满开源金融大模型“轩辕”;2022年中国数字孪生市场规模超100亿元丨每日大事件...
数据智能产业创新服务媒体 --聚焦数智 · 改变商业 企业动态 阿里巴巴:网传裁员为谣言,今年预估新招15000人 5月25日,阿里巴巴集团官微宣布,2023年六大业务集团总计需新招15000人 ...
- 智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会...
萧箫 整理自 AIGC峰会 量子位 | 公众号 QbitAI ChatGPT引爆了大模型,也彻底将大模型相关的AI产业生态带到了新的阶段-- 大模型的"涌现能力",让AI真正展现出 ...
- 《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...
No.08 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期< ...
最新文章
- 将DBF,XLS,XML,MDB文件导入C#DataGrid的方法
- php减少损耗的方法之一 缓存对象
- JavaHelp软件的一个定制实用程序类
- python求组合数c_【Python】算法之求组合
- 实验技术杂志文献20180126
- cocoaPod集成9大环境以及报错项目问题
- python-主成分分析-降维-PCA
- 从零开始开发JVM语言(七)语义分析的起步
- 一般用法(IPG写)
- html 文字过多如何显示,当页面文字过多时,怎么用css使超出部分显示省略号?(单/多行代码演示)...
- 输入函数的区别C++
- 性能VS功能,同为测试又有哪些不一样?
- ICLR最佳论文“彩票假设”:如何通过彩票假设构建轻量化模型(上)
- 借助Haproxy_exporter实现对MarathonLb的流量和负载实例业务的可用状态监控-续
- 计算机与电视如何通过网络连接,怎么设置电脑和电视共用一根网线上网
- 秦俊东北计算机博士,秦 俊 教授-云南大学省部共建教育部自然资源药物化学重点实验室...
- python3字符串详解速查,新手流泪,老手顿悟
- Java并发指南6:Java内存模型JMM总结
- Ant Design + react-drag-listview实现Table拖拽变换列位置
- 狗狗的年龄的python编程_狗狗与人年龄换算表,终于知道狗狗多大了!