来源 | 澜舟科技

01

由游戏出发的计算机之路

大家好!我叫张倬胜,是上海交通大学20级博士研究生,去年3月来到澜舟科技实习,从事「孟子」预训练模型的技术研发及其在中文语言理解任务的应用

性格读博前ENTJ,读博后INTJ的我兴趣广泛,喜欢旅游、摄影,更是二十多年重度游戏爱好者,致力于保持游戏生活与学习工作的平衡状态:自打小学二年级,计算机专业毕业的舅舅为我打开了「新世界大门」,教我装系统、修复bug,甚至包括一些C++基础;星际争霸、魔兽争霸、红色警戒、跑跑卡丁车等名噪一时的经典游戏更是样样精通。游戏对我不仅仅是消遣,更像是「头脑风暴」,也是我与计算机缘分的开始。此外,我最近又喜欢上了运动,经常游泳和玩健身环大冒险,游戏+锻炼「二者合一」。

左右滑动查看

生活态度上,我喜欢尝试新鲜事物,面临选择的时候相信缘分,追求快速决定,并坚信自己的选择,努力让自己的选择正确。

这一点也反映到了学术道路上——在2016年硕士入学的第一天,我怀揣着突然产生的训练机器参加考试的兴趣,走到了导师办公室,一番讨论后便确定并坚持了从事了五年有余的研究方向,在实验室率先开展机器阅读理解方向的研究,经历了最开始两年颗粒无收的煎熬后,逐渐找到适合自己的节奏。

02

一封邮件开始的实习历程

「相信缘分」所带来的魔力,也体现在了我与澜舟科技的故事上。

春归大地,我在澜舟科技的实习已满一载,回望当时,与大多数同学去企业实习时投简历-面试-入职的流程有所不同,我加入澜舟的过程是一场神奇的「机缘巧合」

2021年初,完全意料之外地,我挂在arXiv的长文吸引到周明老师这样学术大拿的注意;周老师当时主动发来邮件询问我的学术兴趣与发展目标,向我介绍澜舟。经过一通电话交流,我发现自己的研究与工作方向和澜舟的发展目标十分契合——我与整个澜舟团队一样,都对未来轻量化模型的发展充满期待:AI大模型的发展并非一味追求参数量大,而是聚焦模型的高性能,在让大模型学习和掌握更大量数据的同时,尽可能让大模型参数相对轻量化,在「减负」的同时提高能效。

我与导师赵海教授进行了一番探讨,导师也对我的选择给予了肯定和支持。经一番协调后,我便快速开启了实习流程,作为澜舟第一个「线上」实习生,远程开启了我这极具挑战且充实的一年;而这期间,我也有幸见证了澜舟科技从零起步、乘风破浪的峥嵘岁月;见证了蓬勃朝气的团队齐心协力,在技术研究、产品落地、项目开源、人才培养等方面实现的惊人突破。‍‍‍‍

03

最重要的是匹配

团队成员的匹配、人和业务的匹配是工作高效推进的关键。

博士生来到创业公司最大的担忧或许是目标匹配问题——发论文还是落地?然而,与澜舟团队的几次沟通迅速打消了我的顾虑。为了更好地进行团队合作,且让我没有后顾之忧,周老师很耐心地向我介绍了澜舟的发展宏图,并探讨了我的博士课题和规划,力图找到最匹配的部分。因此,我很快确定了自己在澜舟的研究方向——从事轻量化预训练模型的算法研究以及微调技术,与预训练团队一起攻关。

我们的轻量化中文预训练模型名为「孟子」「以力服人者,非心服也,力不赡也;以德服人者,中心悦而诚服也,如七十子之服孔子也。」是周明老师把模型命名为「孟子」的初心。「孟子」实现了用更小的模型规模(十亿参数量)比肩超大模型的性能,并且具备灵活的领域和场景适应能力,更有利于快速、低成本地落地现实业务场景

由于学校地域限制,我无法像其他实习同学一样base在北京办公;然而幸运的是,这一年实习期间,澜舟给了我最大化的「自由」,让我能沉下心去只攻算法。我与预训练组的同事们紧密配合、共同攻坚,在这样年轻化且目标坚定的团队中,一切挑战都不会由于线上交流而增加难度:只要大家「心」在一起,必定无惧风浪、所向披靡。

04

我们的目标是拿第一

「尽心而勿追昔,欲达则争朝夕」。我个人始终秉持的处事原则便是如此——把事情做到极致,比他人多一份心。我与我的导师都是注重细节、追求完美的「强迫症患者」,而这也与澜舟预训练组确立的首个目标不谋而合:拿下中文通用语言理解评测CLUE榜单的第一名

有了明确目标后,我们分别从预训练和微调技术进行广泛的验证,结合实际问题不断探讨改进。预训练方面,我参与设计了轻量化预训练技术的总体研究框架,分别从训练效率优化和预训练知识增强两个方面进行了初步的探索,撰写了相应的学术论文和发明专利;微调技术方面,我们重点探索了如何将预训练模型更好地适用于求解下游任务,使用了数据增强、对抗训练、知识蒸馏、迁移学习等多项实用技术

最终,我们以十亿参数规模的「孟子」模型,刷新了此前百亿、千亿级别参数模型轮番霸榜的中文语言理解权威评测基准CLUE榜单——

点击查看大图

在足够优秀的团队中做出成绩实现自我价值,更让我确信这份「缘分」的宝贵与值得。

05

新环境、新突破、新收获

「站得高」、「决策快」是高效工作的保障。实习期间,令我感触最深的,便是澜舟团队对最新技术的即时讨论和快速决策:我们学习最前沿的知识,快速验证和提炼有效成分,并将其积极应用到实际工作之中。澜舟的工作节奏也让我保持着规律的工作状态,效率得到大幅提升;而团队对科研方向的宽容度也使得我有着良好的试错空间,敢于探索不确定的方向。

科学来源于生活,也将应用于生活。在公司实习的一大优势是团队互补——研发的模型交由业务团队使用,获得实际反馈,进而不断迭代优化。在这段实习中,我深刻体会到要从实际场景中提炼科学问题,提出方案解决问题。

同时,在这一年,我也有幸经历了创业公司的整体工作流程,在框架设计、算法研究、业务应用、知识科普各个阶段中都得到了丰富锻炼,最后更是荣幸获选了澜舟科技的优秀实习生

此外,我也有幸跟周老师一起在智源的预训练模型研讨会介绍轻量化预训练模型、一同出席第十届全国社会媒体处理大会(SMP 2021)并作报告。除去线下学术会议,我更在澜舟公众号撰写了多篇预训练模型解读和技术展望文章,包括「孟子」模型技术解读2022预训练模型研究十大趋势亮点预测等(点击绿字查看相关推文)。

除去以上种种收获,在澜舟的实习经历更是帮助到我入围2021百度奖学金十强——作为面向全球顶级高校人工智能专业中国学生的奖学金激励计划,百度奖学金是AI领域资助金额与含金量最高的奖项之一

06

结语

我始终坚信,一位真正有价值的大学生,应该勇于跳出自己的舒适圈,才能进入更广阔的天地。回顾这充满挑战的一年,我与秉持相同理念的团队不断磨合、彼此成就、共同成长,一起「第一个吃螃蟹」;这期间的每个日夜,都值得珍惜与品味。

左右滑动查看

漫无目的的忙碌其实是一种空虚,真正的充实是专注自己所热爱的事物并为之不遗余力。在澜舟,我的每一步都无比坚实;澜舟孵化一周年聚餐时,我虽没能亲自前往北京参与,但地理距离并不影响我发自内心为团队迈出的每一步感到骄傲。周老师切下蛋糕的一刻,我也感到了同等的喜悦——

再次感谢周老师的悉心指导,感谢澜舟的实习机会与每一位同事,也感谢我的导师在我实习期间给予的高度支持;很高兴能跟极具多样性的团队并肩作战,祝愿澜舟虎虎生风,无往不胜,也欢迎更多同学加入澜舟,向着最高目标进发!

觉得还不错就给我一个小小的鼓励吧!

实习生风采 · 贰 | 张倬胜同学:攻关「孟子」轻量化预训练模型相关推荐

  1. 【华人学者风采】张利军 南京大学

    [华人学者风采]张利军,南京大学计算机科学与技术系副教授.主要研究方向为机器学习及优化.曾担任CCF-A类会议IJCAI 2017领域主席,多次担任CCF-A类会议的程序委员会委员或高级委员,以及CC ...

  2. 【华人学者风采】张殷乾 南方科技大学

    [华人学者风采]张殷乾,南方科技大学计算机科学与工程系教授.研究领域为体系结构安全.软件和系统安全.分布式系统和应用安全.安全与人工智能.安全系统的形式化验证等.研究目标为解决云计算.物联网.区块链等 ...

  3. 凉了!张三同学没答好「进程间通信」,被面试官挂了....

    前言 开场小故事 炎炎夏日,张三骑着单车去面试花了 1 小时,一路上汗流浃背. 结果面试过程只花了 5 分钟就结束了,面完的时候,天还是依然是亮的,还得在烈日下奔波 1 小时回去. 面试五分钟,骑车两 ...

  4. 一口气搞懂「文件系统」,就靠这 25 张图了

    前言 不多 BB,直接上「硬菜」. 正文 文件系统的基本组成 文件系统是操作系统中负责管理持久数据的子系统,说简单点,就是负责把用户的文件存到磁盘硬件中,因为即使计算机断电了,磁盘里的数据并不会丢失, ...

  5. 张三同学没答好「进程间通信」,被面试官挂了....

    前言 开场小故事 炎炎夏日,张三骑着单车去面试花了 1 小时,一路上汗流浃背. 结果面试过程只花了 5 分钟就结束了,面完的时候,天还是依然是亮的,还得在烈日下奔波 1 小时回去. 面试五分钟,骑车两 ...

  6. 不带头节点的链表有哪些缺点_23张图!万字详解「链表」,从小白到大佬!

    链表和数组是数据类型中两个重要又常用的基础数据类型. 数组是连续存储在内存中的数据结构,因此它的优势是可以通过下标迅速的找到元素的位置,而它的缺点则是在插入和删除元素时会导致大量元素的被迫移动,为了解 ...

  7. 复旦邱锡鹏超全NLP预训练模型综述论文:两张图带你梳理完整脉络

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 超全预训练语言模型概览,入门学习.搭建知识体系.找文献资料.找资源代码,这里有 N ...

  8. 「杂谈」同学聚会最悲哀的事情

    「杂谈」同学聚会最悲哀的事情 大学毕业至今近乎20年了,期间参加过几次规模或大或小的同学聚会,有高中同学会聚会,初中同学聚会,也有大学同学聚会.这些同学聚会上,笔者发现其实体验都还很不错,基本没有发现 ...

  9. 25 张图读懂「文件系统」

    作者 | 小林coding 来源 | 小林coding(CodingLin) 文件系统的基本组成 文件系统是操作系统中负责管理持久数据的子系统,说简单点,就是负责把用户的文件存到磁盘硬件中,因为即使计 ...

最新文章

  1. Mybatis缓存机制理解及配置
  2. Octavia Rocky UDP 负载均衡功能试验
  3. iis7 php安装教程,iis7 php安装方法详解
  4. HACMP 认证学习系列,第 2 部分:计划与设计
  5. 基于Nginx的https服务
  6. LeetCode 1718. 构建字典序最大的可行序列(贪心+回溯)
  7. mysql的int多少溢出_mysql 整型(int)数字溢出在程序和数据库设计中的考虑
  8. Oracle中索引位图转换的优势
  9. php border-style,border-style
  10. 苹果Mac经典办公套件:Microsoft 365 支持辅助功能,高效工作
  11. C#.Net 扩展方法
  12. 数学建模算法学习——各类模型算法汇总
  13. 整理农行面试软开最常问到的题---------操作系统
  14. 批量下载微软官网上的桌面壁纸图片
  15. Python之numpy 中linspace函数
  16. exchange创建邮箱组_Exchange 2013学习笔记四:新建用户邮箱
  17. 前端组件库自定义主题切换探索-02-webpack-theme-color-replacer webpack 的实现逻辑和原理-01
  18. not executable: 64-bit ELF file 已解决
  19. cuda编程与gpu并行计算(六):图稀疏矩阵转为CSR结构并传入gpu
  20. Python之爬虫 搭建代理ip池

热门文章

  1. 如何将Word转化为Markdown文本
  2. 【Linux操作系统应用T1】
  3. android 友盟微信授权2002,友盟 2002错误
  4. 神经网络应用较多的算法,图卷积神经网络应用
  5. 网站制作中关于版权声明的写法
  6. xshell个人免费版下载使用
  7. Android短信之SmsManager类,flutter推送通知
  8. 打印机显示扫描到当前计算机不可用,打印时显示当前打印机不可用
  9. TCP/IP 完成端口
  10. 全国计算机等级考试二级Java模拟试卷