知乎:张俊林
链接:https://zhuanlan.zhihu.com/p/622365988
编辑:深度学习自然语言处理 公众号

先说第一个现象。

自从LLaMA和ChatGLM开源后,再加上各种五花八门的“Self Instruct”数据在网上逐渐汇合,大模型两大要素都齐备了,基座模型有了,命令调教数据也越来越多了。于是,最近新冒出的大模型与日俱增。也许,我们可以重新定义新阶段的大模型“涌现能力”:当开源模型与instruct数据数量小于一定规模的时候,就几乎看不到新的大模型出现,而当开源模型及instruct数据数量达到一定规模,新的“大模型”数量就会以指数速度增长,进而达到“人手一个大模型”的阶段。现在大家发愁的不是没有”大模型“,而是发愁给大模型起个啥名字才好,起名字的时间成本可能要高于炼大模型的时间成本,貌似动物园里动物的名字快被用光了,需要换个赛道起名字了。

当然,我是举双手赞成大模型的各种形式的开源的,开源促进生态繁荣,毫无疑问是个好事情,虽然我不认为通过开源可以复制出GPT 4这种水准的大模型。但是,对于目前每天一个大模型的现象,个人感觉”既有意义也没意义“,要分两头来看。”有意义“之处在于:每个人都能通过这种方式来练练手试试水,感知下大模型这个新物种,而且可以利用这种方式,去构建或测试一些对模型能力要求不那么高的垂直场景的应用效果。“没有意义”之处在于:如果大家都是拿个LLaMA 7B/ChatGLM 6B基座,之后再从网上下载instruct数据去instruct fine-tune模型,然后起个名字发出来,作为新的开源模型。这种做法意思不大,自己练练手就得了,没必要起个名字再发出来,除非与当前已经开源的模型比真有独特的优点,或新的增益。

我觉得可以做下面几件事情,然后开源出来,意义相对比较大:

其一,最起码的,把基座模型规模再往大放一放,比如把LLaMA放到30B甚至65B,再加上目前能收集到最全的instruct,再把模型推理方面对资源需求降低些,起个名字,开源放出来,也有意义;

其二,在LLaMA这种中文支持不太好的模型,加上一个中文数据继续预训练过程(很可能会损害基座模型的能力),把中文能力做个大幅提升,再加上最全的Instruct去Fine-tune。通过这种方式,构建一个虽然小,但是中文能力相对比较强的大模型,也挺有意义;

其三,在当前开源的大模型基础上,结合某些垂直领域的数据,改造出开源的领域大模型,这个很有意义;

其四,在LLaMA+instruct之后,或者ChatGLM基础上,探索点新的技术改进路线,为LLM社区提供些技术启发,这个是很有意义的;

接下来说第二个现象。

目前来看,构建全面的权威中文LLM评测集合,是个当务之急。正因为不存在这种评测数据,再加上上面说的第一个现象,复现出一个看着貌似效果还可以的大模型成本很低,才会出现我们现在看到的现象:每天一个新模型冒出来,很多都说自己效果特别好,反正没有标准答案,我就挑自己的一两个优点来说,或者自己挑选几个比ChatGPT回答得好的例子发出来,然后说自制的大模型效果接近于ChatGPT的效果,别人除了说“没毛病”外,确实也说不出啥。这个现象好吗?肯定是不好的,因为对于那些真正效果好的大模型来说很不公平,它们会被淹没在众多嘈杂的声音中,完全得不到本该有的关注度,而且公众的热情也会被消耗殆尽。比如,现在您看看,还有多少人有热情去参与各种新模型的公测?我估计已经不太多了,这对于真正效果好的大模型后续收集用户反馈进一步迭代,冲击是很大的。

如果有一个权威的LLM中文评测集,我相信对于解决目前的现象是有极大帮助的,估计再过两个月会出来一批中文评测集,而再过一阵子,估计下半年,那个或那几个好的评测集合会跑出来。新的大模型效果好不好,大家都拿权威评测集合来说话,而不是目前自说自话的状态。

当然,构建好的LLM评测集合,本身其实也很有难度,比如选择哪些评测维度?评测指标怎么设计?评测数据如何而来?怎样保证这些评测数据不会出现在大模型的预训练数据里?而当你发布评测结果的时候,评测例子要不要给出来?如果给出来,那么下一个新的大模型会不会把它拿来放到训练数据里?或者专门拿这种类型的数据去强化自己的模型?这都是问题,也很考验LLM评测设计者的水平。

而且最好是有两套评测数据,一套是评测基座模型各项能力的,另外一套是测试带上instruct调试之后能力的。因为根据目前的情况看,如果只能测试带Instruct之后的模型,就像上面提到的,很可能很多基座能力强的模型,都没机会和足够的关注度,去拿到用户的反馈数据,都走不到第二阶段。如果能有单独的一个基座能力测试,就会好很多,起码基座能力强的,可能还有些机会。否则,大家做大模型,很可能即使基座大模型效果很强,但没法拿到用户反馈数据进入第二阶段,就只能落入拿GPT 4接口收集”Self Instruct“的怪圈,如果那样,恐怕想赶上GPT 4,难比登天。

无论如何,目前百花齐放的情景总体而言还是挺好的,虽然有些混沌,但是大概也是作为技术追赶者必经的阶段。

进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

加入星球,你将获得:

1. 每日更新3-5篇论文速读

2. 最新入门和进阶学习资料

3. 每日1-3个AI岗位招聘信息

张俊林:当前炼制“大语言模型”的两个现象相关推荐

  1. 新浪张俊林:大语言模型的涌现能力——现象与解释

    内容来源:ChatGPT 及大模型专题研讨会 分享嘉宾:新浪新技术研发负责人.中国中文信息学会理事 张俊林 分享主题:<大型语言模型的涌现能力:现象与解释> 转载自:https://zhu ...

  2. 大语言模型中的涌现现象是不是伪科学?

    Datawhale干货 作者:平凡@知乎,诺桑比亚大学 ,在读博士 今天晚上,花了一点儿时间看了两篇文章: <Emergent Abilities of Large Language Model ...

  3. ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?

    作者 | 张俊林    责编 | 王子彧 出品 | CSDN(ID:CSDNnews) 如今,大语言模型已经彻底改变了自然语言处理 (NLP)的研发现状.众所周知,增加语言模型的规模能够为一系列下游 ...

  4. 大语言模型的多语言机器翻译能力分析

    来自:南大NLP 进NLP群->加入NLP交流群 01 研究动机 以ChatGPT为代表的大语言模型(Large Language Models, LLM)在机器翻译(Machine Trans ...

  5. 张俊林:由ChatGPT反思大语言模型(LLM)的技术精要(2)

    原文:张俊林:由ChatGPT反思大语言模型(LLM)的技术精要(2) 02 学习者:从无尽数据到海量知识 从目前研究结果看,Transformer是足够强大的特征抽取器,尚不需要做特别的改进.那么通 ...

  6. 张俊林:万字长文讲述由ChatGPT反思大语言模型的技术精要

    每天给你送来NLP技术干货! 作者:张俊林 新浪微博 新技术研发负责人 来源:知乎@张俊林 排版:DataFunTalk 导读:ChatGPT出现后惊喜或惊醒了很多人.惊喜是因为没想到大型语言模型(L ...

  7. 张俊林:由ChatGPT反思大语言模型(LLM)的技术精要

    文|张俊林 源|知乎@张俊林 导读:ChatGPT出现后惊喜或惊醒了很多人.惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这样:惊醒是顿悟到我们对LLM的认 ...

  8. 张俊林:ChatGPT 会成为下一代搜索引擎吗

    文|张俊林@知乎 这是「进击的Coder」的第 774 篇技术分享 作者:张俊林 来源:知乎 " 阅读本文大概需要 9 分钟. " 本文将从以下几个方面展开: 引言 ChatGPT ...

  9. 由ChatGPT反思大语言模型(LLM)的技术精要

    人工智能与算法学习 作者:张俊林,   编辑:夕小瑶的卖萌屋 导读:ChatGPT出现后惊喜或惊醒了很多人.惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这 ...

最新文章

  1. GC-ALLOC 的另一个重要作用,查内存泄漏
  2. 救命代码_救命! 如何选择功能?
  3. P6800-[模板]Chirp Z-Transform【NTT】
  4. IIS6.0应用程序池回收和工作进程【转:http://www.cnblogs.com/freshman0216/archive/2008/06/02/1212460.html】...
  5. Git相关整理以及学习
  6. 将txt文件转换成xlsx文件及用matlab读取xlsx
  7. 找高清壁纸,没有那么麻烦,高图网帮你搞定!
  8. stlink 升级固件以后失败_用户必看 | 直玩小程序发布!固件更新通知!
  9. 免费学python的网课-学习python的时候观看网课学习还是买书学习效率高?
  10. 国内免费汉语语料库-NLP
  11. MacBookPro 键盘映射
  12. REST及RESTful原则
  13. C#RSACryptoServiceProvider加密
  14. 塔勒布《反脆弱》读后感
  15. iphone模拟器的安装
  16. FPGA图像处理的仿真测试激励该如何写?
  17. spanning-tree portfast default
  18. 计算机科学湖北的大学排行,2015年湖北省大学最佳专业排行榜
  19. 为什么大厂们 一边裁员,一边招人。。
  20. mysql必知必会第5版pdf_sql必知必会

热门文章

  1. 系统设定工具(网络、打印机)与硬件侦测
  2. matlab 对矩阵进行复制 || repmat
  3. 1.11CSS的基本语法
  4. Intel汇编-带符号乘法
  5. Java Semaphore实现高并发场景下的流量控制(附源码) | 实用代码架构
  6. oracle distinct 多个,oracle distinct多字段去重
  7. 【译】将字符转换为双精度浮点型
  8. 不只是休闲:关于体感游戏的一些思考(一)--- 开篇和“随身”物件
  9. C语言中int、long等类型所占的字节数
  10. Qt学习笔记(二十七):QLabel 的常用方法