点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:新智元

985人工智能博士笔记推荐

周志华《机器学习》手推笔记正式开源!附pdf下载链接,Github2500星!

NLP模型提供商Cohere宣布获得4000万美元A轮融资。该公司由谷歌大脑前员工创立,核心模型源自Transformer,并获得了Geoffrey Hinton,李飞飞等AI界重量人物的支持。

近日,自然语言处理 (NLP) 预训练模型提供商 Cohere 宣布了 4000 万美元的 A 轮融资。此次融资由 Index Ventures 领投,Section 32、Radical Ventures等参投。Index 合伙人 Mike Volpi 加入 Cohere 董事会。

Cohere在业界源自名门,其核心NLP模型正是源自Google Brain开发的Transformer,它可以理解、比较和生成复杂的文本,并不断改进训练数据。

Cohere的主要服务是提供预训练模型,模型已经过数亿份网页的阅读训练,能理解我们使用的词语的含义、情感和语气。用户无需超算基础设施,也不需要AI专业知识,就能通过API实现最先进的NLP 功能。

此外,Cohere还获得了多位人工智能界的重量级人物的支持,包括AI先驱人物、图灵奖获得者 Geoffrey Hinton,以及李飞飞、Pieter Abbeel 和 Raquel Urtasun 等。

Hinton就此表示了支持,他表示:“超大语言模型让计算机能够更好地理解人类交流, Cohere 的团队正在构建的技术,将使自然语言理解的这场革命获得更加广泛地应用。”

Cohere由两位前 Google Brain 研究人员Aidan Gomez 和 Nick Frosst和前Cortex工程师Ivan Zhang创立,其使命是制造能够“理解世界”的机器,并让所有人都能安全地获取这种服务。

源自Transformer:尖端NLP模型,拿来即用,安全方便

Cohere 现任CEO Gomez认为,Transformer 模型的问题之一,就是需要大量的训练数据和算力。

“没有人可以方便访问这些高质量的自然语言模型;即使是Facebook、亚马逊、苹果、Netflix 和谷歌等科技巨头也不行。我们想要做的是,支付这台超级计算机的成本,并让所有人都可以访问,否则这些技术就得不到真正利用。”

Gomez表示,在架构层面,这些模型的设计不仅可以收集单个单词的含义,还可以收集这个单词在其他单词的上下文中的含义。

在Transformer架构的基础上,性能更强大的BERT诞生了,它可以用于理解几乎所有 Google 搜索功能中的查询结果。

BERT的模式是,首先通过处理来自网络的大量文本来训练 Transformer 模型,然后输入完整的句子,但故意省略一些单词,然后让模型找到最合适的单词来填空。

“这种模型真正学会了理解语言,因为需要学习在上下文中理解适合该句子的内容。”在找词填空时,模型必须学会区分大量候选词之间的细微差别。在此过程中,模型学习了大量关于候选词及其所代表的事物和想法的有关知识。

Gomez 说:“在另一端,BERT对单词含义和特征的编码表示形式是非常丰富的,因为模型的全部目的就是要预测这些空白,这真的需要了解这些候选词到底是什么。”

GPT-3是“作文机器”,Cohere是“全能机器”

而与另一个广受欢迎的NLP模型GPT-3相比,Cohere也有一些相似之处,GPT-3在去年发布时凭借其显示出了令人惊叹的文本生成能力。该模型由OpenAI 开发,两者都使用来自网络的大量文本进行了预训练,并且都通过 API形式提供。

而据Gomez介绍,二者之间的主要不同在于,GPT-3 是一种“生成”模型,旨在根据用户提供的提示,创建出从左到右移动的文本——类似于一台强大的自动写作机器。但其实,文本生成只是NLP的众多应用方向之一,Cohere 提供的是一个类似“全栈”NLP功能的平台,包括情感分类、问答和文本分类等。

如何防止NLP模型“学坏”

去年,大型 NLP 模型的批评者对网络上的大量文本进行了训练,结果发现模型在学习中学会了训练数据中的人或观点的固有偏见,随后引发了大量争议。

Gomez并不回避这个问题,他坦言,训练模型确实可能会学会不该学的东西。除了会吸收互联网文本中的固有偏见之外,还可能吸收不经意间包含在训练数据中的错误信息。

为此,Cohere开发了新工具,并投入大量时间来确保模型不会摄取到这些不良数据。Cohere在模型发布前会实施质量控制测试,查找问题,在模型发布后也会继续监控。此外还将发布“数据声明”,内容包括有关训练数据、其局限性和任何风险的信息。

目前,李飞飞领导下的斯坦福大学的一个新团队已经成立,主要就是研究与 BERT 和 GPT-3 等“基础”技术相关的风险。

参考链接:

https://financialpost.com/globe-newswire/cohere-raises-40-million-in-series-a-financing-to-make-natural-language-processing-safe-and-accessible-to-any-business-led-by-index-ventures-other-investors-include-p-32-ai-focused-radical-ve

https://www.fastcompany.com/90670635/ex-googlers-raise-40-million-to-democratize-natural-language-ai

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

手推笔记:

思维导图  |  “模型评估与选择”  |  “线性模型”  |  “决策树”  |  “神经网络”  |  支持向量机(上)  |  支持向量机(下)  |  贝叶斯分类(上)  |  贝叶斯分类(下)  |  集成学习(上)  |  集成学习(下)  |  聚类  |  降维与度量学习  |  稀疏学习  |  计算学习理论  |  半监督学习  |  概率图模型  |  规则学习

增长见识:

博士毕业去高校难度大吗?  |  研读论文有哪些经验之谈?  |  聊聊跳槽这件事儿  |  聊聊互联网工资收入的组成  |  机器学习硕士、博士如何自救?  |  聊聊Top2计算机博士2021年就业选择  |  非科班出身怎么转行计算机?  |  有哪些相见恨晚的科研经验?  |  经验 | 计算机专业科班出身如何提高自己编程能力?  |  博士如何高效率阅读文献  |  有哪些越早知道越好的人生经验?  |

其他学习笔记:

PyTorch张量Tensor  |  卷积神经网络CNN的架构  |  深度学习语义分割  |  深入理解Transformer  |  Scaled-YOLOv4!  |  PyTorch安装及入门  |  PyTorch神经网络箱  |  Numpy基础  |  10篇图像分类  |  CVPR 2020目标检测  |  神经网络的可视化解释  |  YOLOv4全文解读与翻译总结  |

点分享

点收藏

点点赞

点在看

厉害了,比Transformer还好用!相关推荐

  1. CV卷得厉害,研究机器学习还能做什么?

    不知道大家发现没,近几年,国内对数据分析类人才需求越来越大了. 这点从国家开始批准大学设立数据分析相关专业就能看出来.2016年2月,教育部公布新增"数据科学与大数据技术"专业,北 ...

  2. 散点图 横纵坐标_厉害了,Matplotlib还能这样画散点图!

    在数据可视化中,二维散点图的应用范围很广,比如用来观测两个变量之间的相关性.展示销量的的走势等等,这些是散点图的常规用法. 然而,这篇文章想讲的是,二维散点图能够展现的信息远不止两个维度.Matplo ...

  3. 李沐论文精读系列一: ResNet、Transformer、GAN、BERT

    文章目录 一. ResNet 1.0 摘要,论文导读 1.1 导论 1.1.1 为什么提出残差结构? 1.1.2 实验验证 1.2 相关工作 1.3 实验部分 1.3.1 不同配置的ResNet结构 ...

  4. 追溯XLNet的前世今生:从Transformer到XLNet

    作者丨李格映 来源 | 转载自CSDN博客 导读:2019 年 6 月,CMU 与谷歌大脑提出全新 XLNet,基于 BERT 的优缺点,XLNet 提出一种泛化自回归预训练方法,在 20 个任务上超 ...

  5. 复旦邱锡鹏团队:Transformer最新综述!

    Datawhale干货 编辑:Liyuan.杜伟,来源:机器之心 自提出至今,Transformer 模型已经在自然语言处理.计算机视觉以及其他更多领域「大展拳脚」,学界也提出了各种各样基于原始模型的 ...

  6. 华为诺亚最新视觉Transformer综述

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 华为诺亚方舟实验室联合北大和悉 ...

  7. 替代离线RL?Transformer进军决策领域,「序列建模」成关键

    机器之心报道 机器之心编辑部 Transformer 开始进军决策领域了,它能否替代离线强化学习呢?近日,UC 伯克利.FAIR 和谷歌大脑的研究者提出了一种通过序列建模进行强化学习的 Transfo ...

  8. CV业务落地用Transformer吗?

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨花花,OLDPAN 来源丨知乎问答 编辑丨极市平台 导读 众所 ...

  9. Transformer模型有多少种变体?复旦邱锡鹏教授团队做了全面综述

    视学算法报道 转载自:机器之心 编辑:Liyuan.杜伟 自提出至今,Transformer 模型已经在自然语言处理.计算机视觉以及其他更多领域「大展拳脚」,学界也提出了各种各样基于原始模型的变体.但 ...

最新文章

  1. 腾讯公布 23 年前第一间办公室照片,太有年代感了
  2. 微信小程序的多选改变样式_微信小程序button选中改样式-实现单选/多选
  3. java第二天_进制转换原理和补码存储方式作业
  4. 皮一皮:当有人在我身边时...
  5. jdbc之防sql注入攻击
  6. java线程:互斥锁与读写锁
  7. C++中operator的两种用法
  8. ftp服务器文件名存在,有什么办法根据已知文件名来检测FTP服务器上是否存在该文件? 急...
  9. jenkins集成钉消息通知
  10. 克鲁斯卡尔重构树小结
  11. linux java解压文件怎么打开,linux下面的解压缩文件的命令
  12. 拆箱装箱有什么作用JAVA_基础--最简单明了的拆箱装箱解释,带实例
  13. [总结]RTMP流媒体技术零基础学习方法
  14. Julia :where
  15. matlab2014如何获得hostid,关于如何修改hostid的问题
  16. RESTfull API简单项目的快速搭建
  17. Message类的Msg属性所关联的所有ID
  18. 加州房价预测项目详细笔记(Regression)——(1)研究数据获得灵感
  19. 2022.11.05 第六次周报
  20. 苹果2019年财报数据:年收入2600亿美元,市值1.3万亿美元

热门文章

  1. 电脑磁盘清理_软件 | 功能强大的电脑磁盘清理工具中文优化版,有了它,你的电脑就像德芙巧克力一般丝滑...
  2. 班志杰内蒙古大学计算机学院,内蒙古大学计算机学院研究生导师简介-班志杰(博士)...
  3. java list map 去重复_如何过滤ListMapString,Object 中的重复Map
  4. linux 文件查找_Linux文件查找
  5. 武汉大学计算机控制考试卷子,武汉大学计算机学院微机接口0809试题及答案.doc...
  6. php 新建 mysql用户_php为什么选mysql作为数据库? Mysql 创建用户方法
  7. include php 相对路径_PHP include_path 分析
  8. oracle中获取列的值,oracle - Oracle-SQL从具有特定列和值的所有表中获取数据 - SO中文参考 - www.soinside.com...
  9. docker 改host_所以到底该如何修改 docker 容器的端口映射!!!
  10. c语言与64位windows不兼容_微软发布可模拟 64 位 x86 程序的 ARM 版 Windows 10