厉害了,比Transformer还好用!
点上方计算机视觉联盟获取更多干货
仅作学术分享,不代表本公众号立场,侵权联系删除
转载于:新智元
985人工智能博士笔记推荐
周志华《机器学习》手推笔记正式开源!附pdf下载链接,Github2500星!
NLP模型提供商Cohere宣布获得4000万美元A轮融资。该公司由谷歌大脑前员工创立,核心模型源自Transformer,并获得了Geoffrey Hinton,李飞飞等AI界重量人物的支持。
近日,自然语言处理 (NLP) 预训练模型提供商 Cohere 宣布了 4000 万美元的 A 轮融资。此次融资由 Index Ventures 领投,Section 32、Radical Ventures等参投。Index 合伙人 Mike Volpi 加入 Cohere 董事会。
Cohere在业界源自名门,其核心NLP模型正是源自Google Brain开发的Transformer,它可以理解、比较和生成复杂的文本,并不断改进训练数据。
Cohere的主要服务是提供预训练模型,模型已经过数亿份网页的阅读训练,能理解我们使用的词语的含义、情感和语气。用户无需超算基础设施,也不需要AI专业知识,就能通过API实现最先进的NLP 功能。
此外,Cohere还获得了多位人工智能界的重量级人物的支持,包括AI先驱人物、图灵奖获得者 Geoffrey Hinton,以及李飞飞、Pieter Abbeel 和 Raquel Urtasun 等。
Hinton就此表示了支持,他表示:“超大语言模型让计算机能够更好地理解人类交流, Cohere 的团队正在构建的技术,将使自然语言理解的这场革命获得更加广泛地应用。”
Cohere由两位前 Google Brain 研究人员Aidan Gomez 和 Nick Frosst和前Cortex工程师Ivan Zhang创立,其使命是制造能够“理解世界”的机器,并让所有人都能安全地获取这种服务。
源自Transformer:尖端NLP模型,拿来即用,安全方便
Cohere 现任CEO Gomez认为,Transformer 模型的问题之一,就是需要大量的训练数据和算力。
“没有人可以方便访问这些高质量的自然语言模型;即使是Facebook、亚马逊、苹果、Netflix 和谷歌等科技巨头也不行。我们想要做的是,支付这台超级计算机的成本,并让所有人都可以访问,否则这些技术就得不到真正利用。”
Gomez表示,在架构层面,这些模型的设计不仅可以收集单个单词的含义,还可以收集这个单词在其他单词的上下文中的含义。
在Transformer架构的基础上,性能更强大的BERT诞生了,它可以用于理解几乎所有 Google 搜索功能中的查询结果。
BERT的模式是,首先通过处理来自网络的大量文本来训练 Transformer 模型,然后输入完整的句子,但故意省略一些单词,然后让模型找到最合适的单词来填空。
“这种模型真正学会了理解语言,因为需要学习在上下文中理解适合该句子的内容。”在找词填空时,模型必须学会区分大量候选词之间的细微差别。在此过程中,模型学习了大量关于候选词及其所代表的事物和想法的有关知识。
Gomez 说:“在另一端,BERT对单词含义和特征的编码表示形式是非常丰富的,因为模型的全部目的就是要预测这些空白,这真的需要了解这些候选词到底是什么。”
GPT-3是“作文机器”,Cohere是“全能机器”
而与另一个广受欢迎的NLP模型GPT-3相比,Cohere也有一些相似之处,GPT-3在去年发布时凭借其显示出了令人惊叹的文本生成能力。该模型由OpenAI 开发,两者都使用来自网络的大量文本进行了预训练,并且都通过 API形式提供。
而据Gomez介绍,二者之间的主要不同在于,GPT-3 是一种“生成”模型,旨在根据用户提供的提示,创建出从左到右移动的文本——类似于一台强大的自动写作机器。但其实,文本生成只是NLP的众多应用方向之一,Cohere 提供的是一个类似“全栈”NLP功能的平台,包括情感分类、问答和文本分类等。
如何防止NLP模型“学坏”
去年,大型 NLP 模型的批评者对网络上的大量文本进行了训练,结果发现模型在学习中学会了训练数据中的人或观点的固有偏见,随后引发了大量争议。
Gomez并不回避这个问题,他坦言,训练模型确实可能会学会不该学的东西。除了会吸收互联网文本中的固有偏见之外,还可能吸收不经意间包含在训练数据中的错误信息。
为此,Cohere开发了新工具,并投入大量时间来确保模型不会摄取到这些不良数据。Cohere在模型发布前会实施质量控制测试,查找问题,在模型发布后也会继续监控。此外还将发布“数据声明”,内容包括有关训练数据、其局限性和任何风险的信息。
目前,李飞飞领导下的斯坦福大学的一个新团队已经成立,主要就是研究与 BERT 和 GPT-3 等“基础”技术相关的风险。
参考链接:
https://financialpost.com/globe-newswire/cohere-raises-40-million-in-series-a-financing-to-make-natural-language-processing-safe-and-accessible-to-any-business-led-by-index-ventures-other-investors-include-p-32-ai-focused-radical-ve
https://www.fastcompany.com/90670635/ex-googlers-raise-40-million-to-democratize-natural-language-ai
-------------------
END
--------------------
我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!
我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...
这是我的私人微信,位置有限,一起进步!
王博的公众号,欢迎关注,干货多多
手推笔记:
思维导图 | “模型评估与选择” | “线性模型” | “决策树” | “神经网络” | 支持向量机(上) | 支持向量机(下) | 贝叶斯分类(上) | 贝叶斯分类(下) | 集成学习(上) | 集成学习(下) | 聚类 | 降维与度量学习 | 稀疏学习 | 计算学习理论 | 半监督学习 | 概率图模型 | 规则学习
增长见识:
博士毕业去高校难度大吗? | 研读论文有哪些经验之谈? | 聊聊跳槽这件事儿 | 聊聊互联网工资收入的组成 | 机器学习硕士、博士如何自救? | 聊聊Top2计算机博士2021年就业选择 | 非科班出身怎么转行计算机? | 有哪些相见恨晚的科研经验? | 经验 | 计算机专业科班出身如何提高自己编程能力? | 博士如何高效率阅读文献 | 有哪些越早知道越好的人生经验? |
厉害了,比Transformer还好用!相关推荐
- CV卷得厉害,研究机器学习还能做什么?
不知道大家发现没,近几年,国内对数据分析类人才需求越来越大了. 这点从国家开始批准大学设立数据分析相关专业就能看出来.2016年2月,教育部公布新增"数据科学与大数据技术"专业,北 ...
- 散点图 横纵坐标_厉害了,Matplotlib还能这样画散点图!
在数据可视化中,二维散点图的应用范围很广,比如用来观测两个变量之间的相关性.展示销量的的走势等等,这些是散点图的常规用法. 然而,这篇文章想讲的是,二维散点图能够展现的信息远不止两个维度.Matplo ...
- 李沐论文精读系列一: ResNet、Transformer、GAN、BERT
文章目录 一. ResNet 1.0 摘要,论文导读 1.1 导论 1.1.1 为什么提出残差结构? 1.1.2 实验验证 1.2 相关工作 1.3 实验部分 1.3.1 不同配置的ResNet结构 ...
- 追溯XLNet的前世今生:从Transformer到XLNet
作者丨李格映 来源 | 转载自CSDN博客 导读:2019 年 6 月,CMU 与谷歌大脑提出全新 XLNet,基于 BERT 的优缺点,XLNet 提出一种泛化自回归预训练方法,在 20 个任务上超 ...
- 复旦邱锡鹏团队:Transformer最新综述!
Datawhale干货 编辑:Liyuan.杜伟,来源:机器之心 自提出至今,Transformer 模型已经在自然语言处理.计算机视觉以及其他更多领域「大展拳脚」,学界也提出了各种各样基于原始模型的 ...
- 华为诺亚最新视觉Transformer综述
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 华为诺亚方舟实验室联合北大和悉 ...
- 替代离线RL?Transformer进军决策领域,「序列建模」成关键
机器之心报道 机器之心编辑部 Transformer 开始进军决策领域了,它能否替代离线强化学习呢?近日,UC 伯克利.FAIR 和谷歌大脑的研究者提出了一种通过序列建模进行强化学习的 Transfo ...
- CV业务落地用Transformer吗?
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨花花,OLDPAN 来源丨知乎问答 编辑丨极市平台 导读 众所 ...
- Transformer模型有多少种变体?复旦邱锡鹏教授团队做了全面综述
视学算法报道 转载自:机器之心 编辑:Liyuan.杜伟 自提出至今,Transformer 模型已经在自然语言处理.计算机视觉以及其他更多领域「大展拳脚」,学界也提出了各种各样基于原始模型的变体.但 ...
最新文章
- 腾讯公布 23 年前第一间办公室照片,太有年代感了
- 微信小程序的多选改变样式_微信小程序button选中改样式-实现单选/多选
- java第二天_进制转换原理和补码存储方式作业
- 皮一皮:当有人在我身边时...
- jdbc之防sql注入攻击
- java线程:互斥锁与读写锁
- C++中operator的两种用法
- ftp服务器文件名存在,有什么办法根据已知文件名来检测FTP服务器上是否存在该文件? 急...
- jenkins集成钉消息通知
- 克鲁斯卡尔重构树小结
- linux java解压文件怎么打开,linux下面的解压缩文件的命令
- 拆箱装箱有什么作用JAVA_基础--最简单明了的拆箱装箱解释,带实例
- [总结]RTMP流媒体技术零基础学习方法
- Julia :where
- matlab2014如何获得hostid,关于如何修改hostid的问题
- RESTfull API简单项目的快速搭建
- Message类的Msg属性所关联的所有ID
- 加州房价预测项目详细笔记(Regression)——(1)研究数据获得灵感
- 2022.11.05 第六次周报
- 苹果2019年财报数据:年收入2600亿美元,市值1.3万亿美元
热门文章
- 电脑磁盘清理_软件 | 功能强大的电脑磁盘清理工具中文优化版,有了它,你的电脑就像德芙巧克力一般丝滑...
- 班志杰内蒙古大学计算机学院,内蒙古大学计算机学院研究生导师简介-班志杰(博士)...
- java list map 去重复_如何过滤ListMapString,Object 中的重复Map
- linux 文件查找_Linux文件查找
- 武汉大学计算机控制考试卷子,武汉大学计算机学院微机接口0809试题及答案.doc...
- php 新建 mysql用户_php为什么选mysql作为数据库? Mysql 创建用户方法
- include php 相对路径_PHP include_path 分析
- oracle中获取列的值,oracle - Oracle-SQL从具有特定列和值的所有表中获取数据 - SO中文参考 - www.soinside.com...
- docker 改host_所以到底该如何修改 docker 容器的端口映射!!!
- c语言与64位windows不兼容_微软发布可模拟 64 位 x86 程序的 ARM 版 Windows 10