陈雨强:GPT等大模型应用落地需关注内容可信、数据安全、成本可控
近日,由《麻省理工科技评论》、清华工研院联合主办的全球青年科技领袖峰会召开,包括6位院士在内的国内外顶级学者、科技领袖展示了最具前沿科技成果及产业化进程。第四范式联合创始人、首席科学家陈雨强受邀出席活动并围绕AIGC、大模型等话题分享了创新技术在产业应用中的趋势与实践。
在起起伏伏的发展过程中,人工智能一直在朝着解决更为复杂问题的方向演进和迭代。这背后,除了外在的数据、算法、算力等三要素协同发展以外,内在的根本原因在于模型维度持续不断的提升。
业界评判模型维度的标准是VC维理论,是由早期统计学的两位创始人提出,类似于脑容量,VC维越大则模型或函数越复杂,机器智力水平就越高,学习能力越强。
从持续不断提升VC维这一视角看,人工智能发展是不断提升模型维度和大小的历史。不管是决策类AI、视觉类AI还是NLP(自然语言处理)领域,都经历了四大阶段:
第一阶段是由人制定规则来构建专用小模型,优点是可解释、易干预,最早应用在专业领域,但随着写的规则增多会失真、失效,应用效果未能达到当时的预期。
第二阶段是让机器写少量规则,受限于机器的数据、算力、算法能力,人工智能写的规则并不多,所以模型规模仍然维持在专用小模型的阶段;
第三阶段是机器写大量规则构建了专用大模型,其背后源于深度学习、海量数据、算力水平的飞速发展,这让人工智能在视觉、语音、搜索、推荐等领域构建了千亿级专用大模型,能力逐渐达到了超越人的水平。但这些专用大模型只能解决单一问题。
第四阶段是通用大模型阶段,通过多任务学习的方式,让一个模型拥有非常多的能力,将应用于各个领域的专用大模型变成一个通用大模型。
GPT就是NLP领域的通用大模型典型代表,核心解决从海量的数据中学习人的语感。语感是学习语文的一项重要基础能力,不管是认字、组词、造句、写文章都要建立在好的语感基础上。
GPT在学习了五千亿个单词后,训练出了更加接近人的语感和生成式语言的能力。相较于传统的NLP技术,GPT可以通过更长的上下文来进行推断。
此外,光靠语感做到表达自然、逻辑通顺还不够,好的文章还需要基于事实表达正确的观点、言之有物。因此,GPT以学语文的方式学习了数学、化学、地理、写代码等众多其他学科知识。其学习方式并不是直接讲解数理化公式、历史事件背景或是代码的语法逻辑,而是通过看大量的文章、形成自有的知识库,且随着参数越大,其覆盖领域和能力范畴越来越广。
然而,拥有任何领域的知识往往意味着在任何专业领域都不够专业。GPT会因为没有看到过专业领域的数据,出现“胡编乱造”的情况。
所以,以GPT为代表的大模型技术真正应用于企业中,亟需解决内容可信、数据安全、落地成本高等三大挑战。
首先是内容可信。很多情况下,企业必须要甄别内容是不是编的,并确保生成内容真实、可靠。要解决这个问题,大模型必须要引入企业内部高质量的数据,生成的每句话都能溯源。
其次是数据安全。最近有很多企业限制员工使用ChatGPT,每一个问题都有可能泄露核心机密,所以私有部署对企业来说至关重要,确保关键信息不被泄露。
第三是成本可控。落地成本是一个重要的考虑因素,企业并不需要所有GPT的知识,可以根据企业自身的需要适当减小模型规模,以降低应用落地成本。
为此,第四范式推出了企业级生成式AI产品——式说,它在满足企业部署大模型所需的内容可信、数据安全、成本可控三大要求的同时,具备了生成式对话能力、多模态输入输出能力、企业级Copilot能力。在与企业内部应用库、私有数据打通后,自动对信息和数据进行分析,回答员工的问询或执行相关任务。
式说在门店管理中的应用实践
式说在物流管理中的应用实践
式说在工业设计中的应用实践
式说在仓库管理中的应用实践
我们深知,大模型产业应用不止于此。未来,第四范式将持续与客户携手探索更加广阔的应用场景,帮助企业享受到新技术带来的生产力提升,共同迈向AIGC时代。
陈雨强:GPT等大模型应用落地需关注内容可信、数据安全、成本可控相关推荐
- GMIS 2017 大会陈雨强演讲:机器学习模型,宽与深的大战
GMIS 2017 大会陈雨强演讲:机器学习模型,宽与深的大战 2017-05-27 19:15:36 GMIS 2017 1 0 0 5 月 27 日,机器之心主办的为期两天的全球机器 ...
- 深聊丨第四范式陈雨强:如何用AI大模型打开万亿规模传统软件市场?
"GPT大模型到底能不能用?用在哪里?" 这是目前中国大型企业一把手最关心的问题之一.AI大模型也被媒体称为"一把手"工程. 大型企业会非常认真地考虑大模型的应 ...
- 第四范式陈雨强:万字深析工业界机器学习最新黑科技 By 机器之心2017年7月25日 16:38 近日,全球最顶级大数据会议 Strata Data Conference 在京召开。Strata 大
第四范式陈雨强:万字深析工业界机器学习最新黑科技 By 机器之心2017年7月25日 16:38 近日,全球最顶级大数据会议 Strata Data Conference 在京召开.Strata 大会 ...
- GMIS 2017 | 第四范式首席研究科学家陈雨强:机器学习模型,宽与深的大战
本文转载自机器之心 机器之心编辑部 原文链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650727205&idx= ...
- 每日新闻:第四范式陈雨强:AI落地有两大瓶颈;日本拟研发新一代超算 比世界第一快100倍...
点击关注中国软件网 最新鲜的企业级干货聚集地 趋势洞察 2018中国软件生态大会 西安站就要与您见面啦! 点击文末[阅读原文]了解更多喔 趋势洞察 第四范式陈雨强:AI落地有两大瓶颈 第四范式联合创始 ...
- 第四范式陈雨强:万字深析工业界机器学习最新黑科技
雷锋网(公众号:雷锋网)按:近日,全球最顶级大数据会议Strata Data Conference在京召开.Strata大会被<福布斯>杂志誉为"大数据运动的里程碑", ...
- 第四范式陈雨强:做机器学习平台天然就是新基建丨新基建50人
作者 | 刘燕 采访嘉宾 | 陈雨强,第四范式联合创始人.首席研究科学家 InfoQ 特别面向新一代信息技术领域技术中坚群体正式推出的 「中国技术力量」 之「新基建 50 人」栏目持续进行中,本期嘉宾 ...
- 第四范式陈雨强:如何利用高维度的AI解决商业难题?
雷锋网(公众号:雷锋网)按:4月21日,中国证券投资基金业协会主办的2017金融科技高峰论坛在杭州召开."人工智能赢在维度."第四范式联合创始人.首席研究科学家陈雨强在会议上讲道, ...
- 第四范式陈雨强:企业智能决策的下一代技术「强化学习 + 环境学习」
机器之心报道 以下文章转载自机器之心 过去数年,以强化学习为代表的决策智能技术战胜人类玩家的新闻屡屡进入人们的视野,直观地展示了这种技术赋予 AI 的强大智能.同时,业界也开始思考,该技术能否像之前的 ...
最新文章
- OpenERP与Python 元编程
- 平面法向量,点云法向量估计及可视化
- php 字符串拼接效率,php中3种字符串连接的效率比较实例详解
- CodeDom Assistant CodeDom的强大工具, 有些BUG修正了下,发到CodePlex,大家有需要的可以看看...
- 【Hadoop Summit Tokyo 2016】企业数据分类和治理
- 机器学习中如何解决数据不平衡问题?
- linux shutdown 命令
- 微软vc运行库地址VC9VC11
- 【金融财经】金融市场一周简报(2017-08-25)
- WebView启动支付宝客户端支付失败的解决办法
- usr目录linux,linux系统/usr目录的意义与内容
- Consul 注册中心介绍以及搭建
- 计算机硬件知识应用,计算机硬件知识 (很详细)
- 线上插画培训班有用吗,教你选靠谱的插画课程
- 怎么提高服务器的性能?
- 深度学习图像标注软件LabelMe使用方法
- 史上最全手机简史,无线通讯佳话还在持续...
- 第028讲:文件:因为懂你,所以永恒 | 学习记录(小甲鱼零基础入门学习Python)
- python 文字转表格 openpyxl
- 高采样率 高截止频率 水声 信号 水声通信 采集
热门文章
- PDF去水印的方法有哪些?怎么去除PDF文件中的水印
- 读曾仕强的《易经的奥秘》简摘
- 简练软考知识点整理-项目人力资源管理之马斯洛需要层次理论
- LED显示行业之上位机软件使用篇
- anaconda创建环境为空、修改默认环境位置
- 为什么失业的程序员不联合起来躺平半年,让市场招不到人,大家再出来找工作时就可以要高工资!...
- 【跨专业or实力不强】考哪些学校?只考【数据结构】和不考【机试】的985院校汇总...
- 服务器 多显卡 显示器,Win10新正式版发布:解决多显示器花屏
- 水仙花数的判断C语言,+最终代码优化
- 浏览器视窗内纯CSS的层固定位置及发现的一个针对IE6的怪癖问题