大模型已成兵家必争之地。

训练模型,最关键的环节之一是投喂数据。

那么训练AI的数据由谁提供,AI成长的养分,又从何而来?

在东西竞跑之下,迭代大模型是核心根本,而标注中文数据,同等重要。

1

使用英文和其他语言的ChatGPT时,体验有差别吗?

有,ChatGPT英文确实比其他语言表现更好。

这种差异除了ChatGPT英文在使用过程中受到的训练更多,同时也要归功于模型创建时期的资料投喂。

2020年,OpenAI在投喂海量数据、更接近人脑的超大基础模型GPT-3模型上持续提升,终于在2022年11月,ChatGPT诞生。

ChatGPT足够智能,是因为它的核心任务是将一个文本进行合理性延续,即根据已有的文本,生成一个符合上下文背景和书写习惯的合理内容。

因此,前期的海量资料投喂与模型训练才是其后期使用过程中最大的差异原因。

据悉,ChatGPT的大模型数据主要来自以下几方面:

维基百科:ChatGPT使用了英文版维基百科的数据,包含了超过640万篇文章,超过40亿个词。

书籍:ChatGPT使用了ProjectGutenberg和BookCorpus的数据,包含了超过10万本书籍,超过20亿个词。

期刊:ChatGPT使用了PubMedCentral和arXiv的数据,包含了超过100万篇期刊文章,超过10亿个词。

Reddit链接:社交媒体网站Reddit上的各种帖子和评论,包含了用户之间的对话和互动。ChatGPT使用了Reddit的数据,包含了超过18亿条链接和评论,超过100亿个词。

CommonCrawl:包含超过31亿个网页内容,超过4100亿个词。

其他数据集:ChatGPT使用了GitHub的代码仓库、WebText2的新闻文章、OpenSubtitles的电影字幕等数据。

从ChatGPT资源投喂上可以看出,ChatGPT获得了更多的英文数据,大模型训练时,也更多地使用英文,而非中文。

所以,在现实使用过程中,ChatGPT英文将比中文反应更快,更智能。反过来,中国大厂创建的人工智能大模型,中文版应比英文版反应更快,更智能。

据悉,目前中国大厂创建的人工智能大模型,数据投喂资源主要分为三类:

公开数据集,如中文维基百科、中文新闻语料库、中文问答语料库等;自有数据集,这些数据集是由各个大厂自行收集、整理、标注的,包括用户行为数据、搜索引擎数据、社交媒体数据、电商平台数据等;合作数据集,这些数据集是由各个大厂与其他机构或组织合作获取的,包括政府部门数据、行业协会数据、科研机构数据等。

一个人工智能大模型的创建,不仅需要超高的运算能力,也需要海量数据投喂和大量的数据标注员。

2

人工智能为什么需要数据标注员?

在人工智能大模型投入海量的数据后,还需要像人一样,辨别、理解这些数据,才能成长,成熟,而这个过程离不开数据标注员。

对于人工智能而言,有标签的数据才是有用的数据。

例如人脸识别,人工智能本身不会识别物体,只有当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。

对数据进行标注是人工智能的一个必须过程。

可以说,数据标注员就是人工智能的老师,帮助人工智能成长。那么,数据标注员每天都如何调校人工智能呢?

数据标注员身上的标签是“互联网民工”、“赛博流水线”。他们每天的日常工作,就是坐在一间如同初代网吧的屋子里,每天对着电脑划拉鼠标几千次。不停地对海量数据进行清洗、分类、画框、注释、标记等操作。

他们将大量的文字、语音、图像打上标记,例如“眼珠”、“四川话”、“绿化带”等。只有被标注过的数据,才能被人工智能模型识别,训练出它的分辨能力。

例如标记道路图片,标注道路图片上的物体名称、颜色等信息。业内人士称这种工作位“拉框”。

他们或许并不明白“什么是人工智能”,但却实实在在是人工智能的老师。

2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度写的是“初中毕业”。

这意味着,标注员是一份几乎没有门槛的职业。

美国《时代》杂志曾发表过一份调查,OpenAI为训练ChatGPT使用了非洲肯尼亚外包劳工。

据悉,肯尼亚首都内罗毕有30多名ChatGPT的数据标注员,他们每天工作9个小时,阅读150-200段文字。

标注员需要从这些文字中标注出包含性、暴力与仇恨言论的内容,由于每天阅读大量极具冲击力的文字,有人会连续做噩梦。

欠发达地区的标注员不在少数。肯尼亚、乌干达和印度,有不少人是谷歌、Meta和微软等硅谷企业的数据标注员。

这些数据标注员的实得工资约为每小时1.32美元至2美元。这在当地已经算得上中产收入,所以数据标注员虽然会因工作而做噩梦,但他们并没有讨厌这份工作。

而在BOSS直聘等招聘网站上,数字标注员的公司月工资大都在3K-5K,岗位要求在大专及以上学历,专业不限。在贵州、西安等地的县城里,数据标注员的工资仅仅过千。

人工智能快速成长的背后,数据标注员像一群卑微的工蚁,默默地搬运着过冬的食物。

3

中国的数据标注公司主要分为两类,一是人工智能公司内部的标注公司,二是商务流程外包公司。

大厂内部标注公司有京东的京东众智,百度的百度众测,网易的网易有数,阿里的阿里数据标注、腾讯的腾讯数据标注,这些大厂都已经拥有自己的标注平台和工具。

其他新兴的国内数据标注公司,有龙猫数据、Testin云测、倍赛BasicFinder、数据堂等,这些公司都具有相当的规模。

截至2021年初,数据标注企业分布的top5城市是:北京185家,上海84家,成都68家,深圳63家,杭州46家。

这5个城市都是人工智能技术发展和应用的重要区域,拥有大量的需求方和合作伙伴,同时拥有较为完善的政策支持和产业环境。

此外,新疆和田、山西太原、山东济南、河北保定、安徽合肥等地的数据标注产业都在不断成长。

贵州是全国首个大数据综合试验区,而惠水县百鸟河数字小镇也则是贵州首个县级大数据产业园区。

目前,百鸟河数字小镇已培育了迦太利华、金百合、黔南即富、梦动科技、金信大数据等重点企业。

其中,贵州梦动科技员工超过500人,其中的一半人,是附近盛华职业学院的学生。该公司曾入选2020全国数据标注公司排行榜前10强。

郑成安是一名大三在校学生,目前在梦动科技实习,公司全职员工只有十多人,管理层大都是学校里的老师,对他而言上课就是上班,老师就是经理。

郑成安出身农村,上高职前没碰过电脑,现在凭借电脑前的兼职,一个月能拿到1500元以上的收入,他感到非常满足。

有时候,他为了多挣一些生活费,碰上紧急的项目,会主动加班。但郑成安很清楚,标注员的工作很难一直做下去。

2022年6月,美国加州圣马特奥县的特斯拉办公室,200员工被裁员,其中大多数都是数据标注员。

裁员背后,是因为特斯拉正在研发计算机Dojo,采用自监督学习技术,用于训练人工智能模型,对数据标注的需求正越来越低。

不仅如此,国内腾讯、阿里、字节跳动等一众大厂都在研发自监督学习技术。

可以说,随着人工智能的不断成长,数据标注员的工作,也变得岌岌可危。这些曾经教会了人工智能“思考”的人,同样正面临被人工智能取代的风险。

我是聂风,欢迎加我vx   niefeng1005深入交流

Chatgpt如此博学,他有老师吗相关推荐

  1. 如果把ChatGPT和“挖呀挖”的黄老师结合起来,她可以为你做什么事情?

    ChatGPT曾经2个月用户过亿的事情已成为过去,虽然我也成为了其中的一份子,感受着他的无所不能,但从中也的确发现了他的一些不能做的事情.而近期爆火的"挖呀挖"的黄老师,几天粉丝疯 ...

  2. 学生用ChatGPT拿下全班最高分!教授惊呆!全美高校打响AI反击战...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 转载自:新智元  | 编辑:好困 Aeneas [导读]ChatGPT ...

  3. ChatGPT将颠覆我们生活?

    一款由OpenAI开发的消费级别的强人工智能应用ChatGPT横空出世! ChatGPT推出仅两个月,月活用户突破1亿,成为史上用户增长速度最快的消费级应用程序. 关于ChatGPT,马斯克在去年12 ...

  4. 银行数字化转型导师坚鹏:ChatGPT解密与银行应用案例

    ChatGPT解密与银行应用案例 --开启人类AI新纪元 打造数字化转型新利器 课程背景: 很多企业和员工存在以下问题: Ø 不清楚ChatGPT对我们有什么影响? Ø 不知道ChatGPT的发展现状 ...

  5. 《花雕学AI》22:一种让AI模拟虚拟角色方法,足以更多创造力的ChatGPT角色扮演

    一.什么是ChatGPT的角色扮演? ChatGPT是一种基于GPT-3模型的人机对话技术,它可以实现自然语言和计算机之间的交互.ChatGPT的角色扮演指的是让模型扮演一个虚构的人物,与用户进行设定 ...

  6. ChatGPT开始颠覆学习方式,应试教育面临哪些挑战?

    ChatGPT爆火几个月,整个教育系统都在被颠覆.全球范围内,不少大学教授.系主任和管理人员,都在对课堂进行大规模的调整,以应对ChatGPT对教学活动造成的巨大冲击. 国内传统应试教育选出的分霸.考 ...

  7. 美学生用ChatGPT写论文被识破,导师:好到不符合我对学生的预期

    据央视网快看微博3月20日消息,北密歇根大学的教授奥曼在学生作业中发现了一篇关于世界宗教的"完美论文". "这篇文章写得比大多数学生都要好......好到不符合我对学生的 ...

  8. 计算机大赛主题板报,中小学电脑制作大赛电子板报优秀作品国学.ppt

    与国学同行 国学经典是中华民族生生不息的精神细带,是炎黄 1子孙奋斗不息的力量源泉 卷首篇 !从仨字经>到论语>,从<第孑规)劉饮 我们的孔子盛 学>---部部匡学经典,在一所 ...

  9. 计算机社团动员大会发言稿,代表发言稿

    时间总是在不经意间悄悄溜走,新的学期马上又要开始了,在即将召开的开学典礼上,为今后的学习生活给同学们加油打气吧.下面是由出国留学网小编为大家整理的"小学六年级开学典礼学生代表发言稿" ...

最新文章

  1. 通信测试:5G 时代的“卖水人”
  2. android floatingactionbutton样式,Android 之 FloatingActionButton
  3. Delphi控制Excel输出上标示例
  4. 使用8位字节的编码格式将字节流安全的转换成String
  5. 【Android】获取控件的宽和高
  6. http --- 基本认证与摘要认证
  7. 动态引入js只能生效一次_动态插入的script脚本执行时间
  8. uart ttl通讯测试可以短接吗_精讲!UART、RS232、RS422、RS485,绝了
  9. 好好活着就是一场博弈
  10. 怎么快速了解自己的MySQL服务器
  11. 我用10张图总结出了这份并发编程最佳学习路线!!(建议收藏)
  12. Deepin深度操作系统安装 索尼Eye Toy摄像头,教程
  13. 李南江老师的视频资源
  14. 使用alter database create datafile恢复丢失数据文件
  15. CSS常见 属性 框架 及常用选择器
  16. 组装办公室用计算机,(需要组装一批电脑,用于办公。多运用于普通办公软件,WORD、EXCEL、PPT、PS等。 要求实惠,可用集成显卡。)组装电脑excle模板...
  17. php实现addon安装卸载,插件Addon文件
  18. 与领导喝酒的18个应紧记的诀窍
  19. [1.24] T3-人品问题
  20. xgboost的使用简析

热门文章

  1. php.net国内镜像及php源码下载[非常快]
  2. 第二十二天:期末考前整理的20条好句子
  3. mysql面试题:什么是存储过程?用什么来调用?
  4. nuke12安装不了?nuke12 mac 安装教程 nuke12安装步骤教程分享
  5. 【已完结】【悲报】pip search 报错
  6. cookie、session与token之间的关系
  7. matlab openblas,armadillo + openblas
  8. 谈谈我对NLP文档级关系抽取中Ign_F1指标的理解(Ign_F1与F1的关系)
  9. GUI 界面的免费音乐下载 支持批量下载
  10. 如何写MySQL存储引擎