本公众号已经改版,推出了线上线下课程,并且推出免费2个月广告服务业界优质产品。


提到数据需求,张晴晴并不认同,明年整个市场的数据需求将会是今年的5-6倍这一说法。她解释道:“当前市场的核心问题是客户的需求服务不过来,可能现在的需求已经百万倍,千万倍,而是我们现有的数据不足以满足客户的需求。”

初见张晴晴,眉清目秀,笑容可掬,干练又不失优雅,但很难将她和“技术专家”这一称谓联想到一起。在我们心中,技术专家应该是严肃古板,外加一副黑色镜架。然而,张晴晴作为爱数智慧科技的创始人兼CEO,在语音识别领域已有十余年研究及工作经验。

缘起数据,创业不易

女性创业本就不多,在数据处理服务领域则更是凤毛麟角。

张晴晴从2005年就加入中国科学院声学研究所,专注于研究语音识别领域。在为Baidu、腾讯、阿里、360、UCweb、蚂蚁金服等各大互联网公司搭建语音识别的baseline声学建模系统过程中,不断意识到数据质量的重要性。

对人工智能公司而言,高质量的数据是根本。实际上,很多AI公司把大量时间和精力都花费在信息的获取和处理数据上。而且,行业内缺失“有价值”的一手数据。面对数据获取难、质量和价值不高的行业痛点,张晴晴深深意识到专业数据处理公司对AI行业发展的必要性和迫切性。

2016年,张晴晴正式创办爱数智慧。爱数智慧作为一家人工智能大数据处理服务企业,致力于为智能语音、自然语言理解、智能图像等领域的客户提供一站式数据服务,包括数据方案设计、数据采集,数据标注/转写等。

谈到创业,张晴晴会心一笑。小到保洁、组装电脑,大到团队组建、公司运营,都要亲力亲为。她表示,尤其是在团队组建方面,数据处理服务需要很多专业的语音技术和其他算法技术人才。而行业内,人才竞争十分激烈,很多就职于大公司的技术人才并不会轻易跳到一家初创企业重新开始。但截至目前,团队内研发人员已经达到50多人,不亚于其他大规模的甲方公司。

从行业痛点出发,保证数据质量

据中商产业研究院发布的《2017年中国人工智能产业研究报告》显示,2016年中国人工智能市场规模已达到96.61亿元,增长率为37.9%,人工智能市场规模持续增长,预计2017年将超130亿元,并有望在2018年突破200亿元。而未来,通过对话展开交互的技术将成为一种常态。从远场语音的市场来看,2017年,全世界只有1600万台AI语音助手出货。但据IDC的研究报告指出,在2020年前,这个数据将会达到1.5亿,增长近110%。从传统的文本输入向效率更高的语音输入转化,这为从事语音数据采集、清洗、挖掘带来了更大的市场空间。

而做数据处理服务,自然离不开最关键的要素——数据。爱数智慧既然看到了行业内所面临的数据痛点,又是如何解决的呢?

首先,如何解决数据获取渠道的问题。目前,市场上确实存在一些数据,可以通过微博知乎抓取,也可以通过大学或研究机构获取公开数据,但这样的数据量并不能满足AI公司的需求,而且数据的价值也并不是很大。爱数智慧则偏向采用众包模式,通过APP上开放式的标注界面,用户可以领取数据和标注。这样既保证了数据来源的隐私性及安全性,也丰富了数据来源的广泛性。

其次,如何保证数据的质量和处理速度。数据采集会形成海量数据,但如何筛选出优质数据也是一项难题。爱数智慧凭借一套自有的核心算法,对其供应商进行质量分层,通过算法将任务与团队进行匹配,提高数据的获取速度和质量。

最后,如何处理数据标注与劳动密集型的问题。张晴晴认为,数据标注不会完全脱离劳动密集型。一方面,现有的机器不可能实现完全的自动化标注,所谓的无监督或弱监督形成的数据标注结果,其性能相对较差,而人工标注的数据,其精准度则可以达到99%以上;另一方面,数据标注也为传统工业企业的员工带来新的转型就业机会。

语音切入,外延图像和文本

爱数智慧的核心业务是数据处理,包括数据采集,自有版权设计以及数据标注和转写等,为客户提供定制化和标准化数据库。其中,标准化数据库通过前期的调研和足够的专业度,形成成品数据库,经过清洗和标定提供给众多企业。初创企业用标准数据库来搭建baseline的模型,大企业则用来作为补充,优化其性能。

除张晴晴在语音识别领域有十几年的研究和工作经验之外,团队内其他核心成员也大多都是语音技术背景。鉴于团队和自身的技术背景,张晴晴表示,爱数智慧以语音为切入点,初期客户以语音领域为主。但随后她补充道:“其实,不能把语音作为划分客户的标准,因为所有的客户其实都是多模态的。可以说,我们把语音做好之后,再广泛辐射到图像和文本领域。

目前,爱数智慧的语音数据库已涵盖多个中英文语料库和语音数据库,此外还具有维语、粤语、日语、韩语和越南语等多个丰富的语音数据库。图像是除语音之外主推的另一个领域,目前主要聚焦于三个方向:人脸识别、视频监控和辅助驾驶,其合作伙伴有中科视拓。文本则是相对于语音和图像更难的一个层面,语音和图像有标准的准则定义正确与否,而文本理解层面则是见仁见智。针对其应用场景,张晴晴表示,最大的场景则是客服,即自动应答机器人。通过对文章的标记,提取出中心思想,然后上升到问答层面,所涉及的自然语言理解技术还是相当难的。

刚性需求,获客不难

提到数据需求,张晴晴并不认同,明年整个市场的数据需求将会是今年的5-6倍这一说法。她解释道:“当前市场的核心问题是客户的需求服务不过来,可能现在的需求已经百万倍,千万倍,而是我们现有的数据不足以满足客户的需求。”

此外,行业竞争并没有芯片领域那样激烈,龙猫数据CEO昝智也表示还没有到抢市场的时候。很多大公司都是多模态的业务发展模式,数据需求也是刚性的。现有市场内,不可能存在一家数据处理服务企业满足某一领域的所有需求,因此,张晴晴更在意的是行业内各家服务的质量,共同推动行业良性发展。

正如数据处理一样,“Garbage in Garbage out”,服务也是如此。张晴晴表示,爱数智慧正是坚持为客户提供优质数据的理念,其获客难度并没有想象的那么大。很多之前服务过的客户,会推荐给其他数据需求公司,从而形成良性的效应,很大程度上解决获客难的问题。

深耕技术,紧跟海外风向标

爱数智慧目前的研发人员有50多人,未来计划在技术方面储备更多的人才,专注于数据库和数据分析领域,提高数据处理服务的技术支撑能力。此外,张晴晴还表示会开拓更多海外客户,将北美、欧洲作为数据处理服务行业的风向标,制定更精准的标准化数据库。

爱数智慧成立于2016年5月,2017年初就获得明势资本数千万元Pre-A轮融资,预计今年营收在2500万元左右。但张晴晴表示,虽然该行业不是烧钱的行业,但前期研发需要垫付大量资金,做得越好越缺钱,因此未来也会考虑新一轮融资。


可添加本人微信号fpwhljy或扫码一下公众号:可进技术和行业群交流。

专访爱数智慧CEO张晴晴:数据服务刚性需求,获客难度不大相关推荐

  1. python土味情话_爱数智慧推出方言TTS数据 AI也能飚出“土味儿情话”

    一句乡音,承载着浓浓乡情,也是怀旧人的精神故乡.无论叙同乡情还是与父母聊家常,家乡话总有一种亲切感.生活场景中,我们希望车内导航能说出方言,希望智能音箱能听懂父母的话,希望听书软件也能带着乡音说书等等 ...

  2. 技术大咖齐聚爱数智慧人机交互技术论坛 | CNCC2021

    CNCC2021[人机交互技术的机遇与挑战]技术论坛将于2021年10月28日13:00-16:00在深圳国际会展中心CC105B召开,本次论坛由CCF主办,爱数智慧创始人兼CEO张晴晴担任论坛主席, ...

  3. 爱数智慧荣获“阿里云2021年度优秀供应商” | 喜讯

    图:爱数智慧获得"阿里云2021年度优秀供应商" 2021阿里云首届外包管理大会于6月8日在杭州举行,大会以"聚势.创新.共赢"为主题,邀请来自全球的供应商高层 ...

  4. 爱数16周年,从数据备份到全场景数据驱动的“Data+AI”

    时间飞速向前,一转眼,数据厂商爱数已经成立了16周年. 近两年,随着AI等新技术在千行万业的深入应用,对数据价值的挖掘受到重视,数据赛道也迎来了前所未有的快速发展.从备份起家的爱数,从数据保护到数据管 ...

  5. 运营商大数据精准营销获客的优点

    谈起精准营销,咱们自己的竞争对手群体,直接就是为我们提供精准客源渠道的最大资源池! 现阶段最新的获客方式,就是从竞争对手的手中把他们的精准客户资源变为自己的. 2022年最火的运营商大数据精准营销是拒 ...

  6. 专访爱驰汽车李海军:数据资产是整车企业的核心密码

    "[报名]数据猿年度精彩活动推荐:访谈调研+企业盘点+榜奖峰会,与数据猿共筑2021 大数据产业创新服务媒体 --聚焦数据 · 改变商业 近年来,智能汽车热度不减,各路名企纷纷开启造车之路, ...

  7. 数睿通2.0数据服务功能模块发布

    文章目录 引言 API 目录 API 权限 API 日志 结语 引言 数睿通 2.0 之前基本完成了数据集成和数据开发两大模块,也因此得到了一些朋友的帮助和支持,在此由衷的表示感谢,你们的支持便是我们 ...

  8. 运营商大数据,精准获客,降低获客成本

    流量秘笈 大数据模式 在大数据时代,人们的信息越来越透明,留在网络上的各种数据也是企业进行营销的一个重要的生产要素.一直以来,营销的科学性正是因为运用了自然科学中一级互联网中的数据收集手段,严谨的记录 ...

  9. 运营商大数据 | 打造新型获客模式 破除流量困局

    大师彼得.德鲁克曾说,"企业存在的唯一目的就是创造顾客." 互联网时代,维系企业存在的一大动力,就是流量,创造流量,无疑等于是创造顾客. 时下企业竞争的关键,也就是流量的竞争,在生 ...

最新文章

  1. DRF (Django REST framework) 中的视图类
  2. js04--对象与正则表达式
  3. 【十大经典数据挖掘算法】Naïve Bayes
  4. microsoft store打不开,提示代码是: 0x80131500,怎么解决?
  5. 高吞吐、低延迟 Java 应用的 GC 优化实践
  6. Android无需权限保存文件,即使使用用户权限,也无法在外部存储上保存文件[Android]...
  7. 2008哲思自由软件峰会
  8. leetcode953. Verifying an Alien Dictionary
  9. oracle临时表空间占用率过高,ORACLE临时表空间太大,如何处理?
  10. statspack系列7
  11. Word导出PDF后,PDF没有生成Word中对应的目录
  12. Re10:读论文 Are we really making much progress? Revisiting, benchmarking, and refining heterogeneous gr
  13. Python项目分析:预测双色球福利彩票中奖号码(随便玩玩,不要当真)
  14. 精彩回顾 | NDBC 2021华为参会回顾
  15. Elasticsearch 7.7.0 高阶篇-聚合技术
  16. 数据中台建设(三):数据中台架构介绍
  17. 海南考研二战心得体会
  18. 手撸架构,Kafka 面试42问
  19. Python1.语言基本要素上(郭炜老师python大学mooc)
  20. Linux云计算网络服务CentOS7.5

热门文章

  1. 串口服务器与网页通信配置,串口服务器是怎么实现串口通信的
  2. 高等数学:函数连续,可导,可微和偏导数连续的关系(多元)
  3. django项目配置
  4. 【蓝桥杯】2015决赛 四阶幻方
  5. 理解Python元类——e-satis
  6. 自动化测试成长路上必会技巧
  7. 多学女性心理学 远离不良择偶观
  8. 20种拉新方式!——平台运营入门(一)
  9. COO矩阵与CSR矩阵
  10. 截的图片有边框怎么删除_【未解决】mac中去除所有截图工具截图截取窗口时的边框...