近期由 OpenAI 团队发布的聊天机器人软件 ChatGPT,凭借类人的语言理 解和表达能力,引发 AI 产业范式革命。

OpenAI 是一家世界领先的非营利性人工智能研究公司。

OpenAI 于 2015 年在旧金山成立, 是一家非营利的人工智能研究公司,公司的目标是以最有可能造福全人类的方式推进人工 智能,而不受财务回报需求的约束。OpenAI 创始人背景深厚,由埃隆·马斯克与硅谷孵化器 Y Combinator 投资人山姆·阿尔特曼等人联合创立。公司研究人员经验丰富,包括前 Google Brain 研究科学家伊利亚·苏茨凯弗与前 Stripe 首席技术官格雷格·布罗克曼等世 界一流研究工程师与科学家。

微软持续增资,布局生成式 AI 技术。

2018 年,随着特斯拉对 AI 的应用深入,为避免潜在利益冲突,马斯克主动离任董事会,仅保留捐资人和顾问的身份。由于 AI 训练花费金额巨大,2019 年公司从非营利性公司转向部分盈利公司,成立了 OpenAI LP 利润上限子公司,即任何对 OpenAI LP 投资的收益都将统一转移至一家非盈利公司,回报达到投资的 100 倍后进行利润分配。

同年,OpenAI 收到微软注资 10 亿美元,就 Azure 业务开发人工智能技术。2020 年发布 GPT-3 语言模型,由微软获得独家授权。2022 年发布 ChatGPT 的自然语言生成式模型,带来更大潜在应用空间。2023 年,微软拟对 OpenAI 追加数十亿美元投资,利用自身算力基础设施资源发挥与 OpenAI 业务协同效应,深入布局生成式 AI 技术。

OpenAI 当前盈利主要通过付费 API 接口,并尝试拓展盈利模式。

目前,OpenAI 提供API 数据接口根据类型不同以流量收费。OpenAI API 盈利情况较好,据路透社数据,OpenAI 2022 年收入数千万美元,公司预计 2023 与 2024 年收入分别为 2 亿美元和 10 亿美元。同时,OpenAI 正尝试拓展自身盈利模式,2023 年 1 月试点推出订阅制 ChatGPT Plus,收取每月 20 美元的会员费以得到各类优先服务。

原理:AI 大模型里程碑式的胜利

ChatGPT 采用监督学习+奖励模型进行语言模型训练。

ChatGPT 使用来自人类反馈的强化学习 (RLHF) 来训练该模型。首先使用监督微调训练了一个初始模型:人类 AI 训练员提供对话,他们在对话中扮演双方——用户和 AI 助手。其次,ChatGPT 让标记者可以访问模型编写的建议,以帮助他们撰写回复。最后,ChatGPT 将这个新的对话数据集与原有数据集混合,将其转换为对话格式。具体来看,主要包括三个步骤:

1)第一阶段:训练监督策略模型。在 ChatGPT 模型的训练过程中,需要标记者的参与监督过程。首先,ChatGPT 会从问题数据集中随机抽取若干问题并向模型解释强化学习机制,其次标记者通过给予特定奖励或惩罚引导 AI 行为,最后通过监督学习将这一条数据用于微调 GPT3.5 模型。

2)第二阶段:训练奖励模型。这一阶段的主要目标,在于借助标记者的人工标注,训练出合意的奖励模型,为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步:1、抽样出一个问题及其对应的几个模型输出结果;2、标记员将这几个结果按质量排序;3、将排序后的这套数据结果用于训练奖励模型。

3)第三阶段:采用近端策略优化进行强化学习。近端策略优化(Proximal Policy Optimization)是一种强化学习算法,核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为Off-policy,即将在线学习转化为离线学习。具体来说,也就是先通过监督学习策略生成 PPO模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代原有的 PPO 模型参数。往复多次第二阶段和第三阶段,从而得到参数质量越来越高的 ChatGPT 模型。

以上内容截取自:《华泰证券:ChatGPT:深度拆解 》

ChatGPT:深度拆解(24H限时下载)相关推荐

  1. 东数西算(24H限时下载)

  2. 解读华为数据治理方法论及最佳实践(24H限时下载)

    华为数据治理方法论 一.数据治理框架 数据治理主要专注于如下模块域: 数据集成数据集成用来完成数据入湖动作,不是简单的数据搬家,而是按照一定的方法论进行数据备份.数据入湖的前提条件是满足6项数据标准, ...

  3. ChatGPT深度体验记录,期待GPT-4(测试各领域知识,正常聊天,写代码,写诗歌,模拟人格,机器翻译,语法改错等)

    ChatGPT深度体验 返回论文和资料目录

  4. 国内外深度学习开放数据集下载集合(值得收藏,不断更新)

    国内外深度学习开放数据集下载集合(值得收藏,不断更新) 一.Image processing data set 1.MNIST ,是最流行的深度学习数据集之一.这是一个手写数字数据集,包含一个有着 6 ...

  5. Apple第一款家用计算机,这可真是个古董:苹果第一代Mac深度拆解

    这可真是个古董:苹果第一代Mac深度拆解 出处:快科技 2014-01-25 12:35:53     作者:小路 编辑:小路[爆料] 收藏文章 1984年产苹果Macintosh 128K(麦金塔1 ...

  6. 初入深度学习1——如何下载与打开一个Github深度学习库

    初入深度学习1--如何下载与打开一个Github深度学习库 学习前言 下载一个仓库 一.Github 1.Download Zip(不推荐,但可用) a.打开网址 b.下载文件 c.下载与解压文件 2 ...

  7. ChatGPT怎么突然变得这么强?华人博士万字长文深度拆解GPT-3.5能力起源

    文章目录 一.2020 版初代 GPT-3 与大规模预训练 二.从 2020 版 GPT-3 到 2022 版 ChatGPT 三.Code-Davinci-002和 Text-Davinci-002 ...

  8. 产品深度拆解:Puzzle Dragon

    文/ 沙滩小子(sinadesigngroup@vip.qq.com) 本文目录-游戏概述 1.1.   总体概述 1.2.   游戏发展 1.2.1.  游戏版本发布频率及内容变化 1.2.2.  ...

  9. ChatGPT深度研究:细探商业模式与供给端决定因素

    来源:(报告出品方/作者:海通国际) 1.ChatGPT:以GPT-3.5架构革新AI对话模型,商业化前景仍需探索 ChatGPT 是美国 OpenAI 公司研发的对话 AI 模型,是由人工智能技术支 ...

最新文章

  1. flex伸缩布局盒模型总结
  2. 低代码、RPA 和 AI,有什么区别
  3. 动态链接到MFC的DLL(转)
  4. MFC 使用datetimepicker获取时间
  5. mongoDB - 日常操作四
  6. PHP Parse error: parse error, unexpected T_OBJECT_OPERATOR
  7. matlab编写数字基带信号程序,数字基带信号的系统仿真与设计matlab程序
  8. 知识图谱最新权威综述论文解读:关系抽取
  9. 【LeetCode笔记】88. 合并两个有序数组(Java、双指针)
  10. 鸿蒙初开踏青时主要内容,鸿蒙初开踏青时
  11. 人脸方向学习(十五):Face Detection-RetinaFace解读
  12. python随机抽号_Python基础:手把手以实例教你学随机数产生和字符/ASCII码转换
  13. php和apache配置 LoadModule php5_module D:/php/php5apache2.dll
  14. java基础12 IO
  15. 关于初高中虚拟仿真实验室解决方案
  16. 靠谱的社交app有哪些
  17. 中高级iOS大厂面试宝典,拿到offer率80%,金三银四将是你的新起点
  18. PhpMyWind储存型XSS漏洞练习(CVE-2017-12984)
  19. 解决Duplicate entry '……
  20. 韩国三星现原形,不如华为有储备能抗压力,所谓技术大佬名不副实

热门文章

  1. 电脑上计算机软件一直自动弹出,WinXP光驱总是自动弹出来怎么办?电脑光驱老是自动弹出解决方法...
  2. oracle 行转列字符拼接,oracle 行转列,用特殊符号拼接
  3. word里面做交叉引用办法
  4. 如何设置一个叫号排队系统?
  5. 苹果14promax配置参数表 iphone14promax是双卡双待吗
  6. ZJCOJ L先生与质数V3/V4 (Meisell-Lehmer算法)
  7. Linux镜像run起来,六、Docker run 运行镜像
  8. Linux系统查询电脑主机生产日期和主机序列号
  9. FiddlerScript详解
  10. 深度学习AI美颜系列----AI美发算法(美妆相机/天天P图染发特效)