在智能座舱中,人机交互是智能座舱与车内人员关联的桥梁,其中的人机交互技术主要涉及语音交互、文本交互。我们在舱内所说的内容,会由交互系统转换成语义文字,然后经过后台算法的决策,给出合理的反馈信息,最终系统才能听懂我们的表达,做出相应指令动作。让我们来看看智能座舱中功能点泛化语料相关的技术应用。

人机交互的核心

人机交互的核心就是自然语言处理(NLP),也就是车载处理器可以理解人类的语言(NLU),并且生成合理的反馈信息(NLG)。

人与汽车最基础的交互就是指令词的使用,但“打开窗户”这一句简单的命令,根据每个人的说话习惯不同,同样的指令可能会有几十甚至几百种表达方式。

如“请打开车窗”、“帮我打开车窗一下”、“开一下窗”、“窗户开开”。可能还会包含方言,如“帮俺打开车窗”、“给俺开下窗户”、“把窗户给俺弄开”。此外也会有中英文混合、以及全英文的情况“帮我Open一下Window啦”、“Open the window please”。语音识别系统需要识别所有的可能性,才能更好的对应到舱内相应的指令,完成指定操作。完整的自然语言人机交互的流程图,如下所示:

上面车载交互中对于天气的询问属于自然语言技术支撑的搜索引擎,能够在一定程度上理解人类的自然语言,从自然语言中抽取出关键内容并用于检索,在两者之间建立起更高效、更深层的信息传递。目前,上述技术主流方法都是基于复杂的神经网络模型,因此需要大量与场景匹配的语音、文本语料库进行训练,以支持大体量数据的学习,从而得到更好的效果。

舱内泛化语料稀缺

智能座舱能够直观地提升视听娱乐和人机交互体验,个性化、定制化的座舱配置和功能将成为车企的特色,提升品牌和车型认知度。因此,智能座舱成为各大整车厂商及零部件供应商的布局重点。但是由于人机交互的深度学习算法,依赖大量的数据训练,而高质量数据的缺乏,是导致目前车载交互成本较高、准确率低的重要原因之一。

由于车载场景的特殊性,导致车载场景的NLP数据非常稀缺,也是目前车载场景交互技术的壁垒。针对目前各智能交互系统普遍存在的冷启动无数据可用、产品车机交互功能覆盖不足、长尾命令识别性能较差等痛点。Magic Data构建了本中文和英文座舱功能点泛化数据集。共有语料90,000+条,其中中文70,000+ 英文20,000+。同步持续更新,确保时效性。

Magic Data数据开源:中英文座舱功能点泛化语料库

Magic Data拥有中文和英文座舱功能点泛化语料库90,000+条,本次开源1000+语料,涉及常见的车载场景的指令词,非常适合车载场景交互的研究与落地。

开源的数据集包含众多舱内功能点,包含了车内外常用部件的关闭与打开等意图。如打开蓝牙、关闭车窗、调节摄像头角度、调节方向盘、通话音量、打开远光灯等等。句式多样性丰富,同时对功能点的多样性表达进行泛化。这些泛化的命令文本具有较强的适用性,对传统车企及新势力车企的部件功能均兼容。

中文座舱功能点泛化语料库  

该开源数据集包含500句中文座舱功能点泛化语料,涵盖10种车载命令控制功能,每个功能相关含10-100种通用语料。

如开启车道保持、开启遮阳帘、打开远光灯、打开蓝牙、打开WiFi、启动ESP等等。句式多样性丰富,在语句结构上充分考虑了动词、实体词、句式及其组合,同时对功能点的多样性表达进行泛化,如车身稳定系统=ESP,延时摄像=缩时录像。在泛化部件功能时文本有预留Slot,涉及槽位有Position、Fraction、Percent等,如position=[前,后,左,右,中,左后方,全部]等。

中文座舱功能点泛化数据集:Chinese Automobile Cabin Command Text Corpus - MagicHub

英文座舱功能点泛化语料库  

开源数据集包含500句英文座舱功能点泛化语料,由具有驾驶经验的以欧洲和美国英语为母语的人提供。涵盖3个领域的16种车载命令控制功能,每个功能相关含2-100种通用语料。

如打开蓝牙Activate Bluetooth、车窗打开百分比Set the window down to a quarter、调大通话音量Turn up the call volume by a notch、打开远光灯Turn on high beam light等等。句式多样性丰富,在语句结构上充分考虑了动词、实体词、句式及其组合,同时对功能点的多样性表达进行泛化,如Panoramic Camera=Omnidirectional Camera=Full View Camera。在泛化部件功能时文本有预留Slot,涉及槽位有Position、Fraction、Percent等,如Position=[Front, Real, Driver, Pilot, Rear Left, Real Right, Left, All]。

英文座舱功能点泛化数据集:English Automobile Cabin Command Text Corpus - MagicHub

海量数据的开源是众多科研工作者的诉求,Magic Data希望通过开源数据激发技术的革新,促进行业进步。

欢迎访问 MagicHub 开源社区:

MagicHub - Datasets Download | Open-Source Datasets

数据开源 | Magic Data中英文座舱功能点泛化语料相关推荐

  1. Magic Data 位列 2022 数据标注公司排行 TOP3

    近日,Magic Data(北京爱数智慧科技有限公司)上榜互联网周刊 2022 数据标注公司排行榜 Top3. 人工智能大道的 "基石" 人工智能的目标指向了对人思维过程的复刻,它 ...

  2. Magic Data入选亿欧智库2022中国语音交互车端应用产业图谱

    Magic Data入选亿欧智库2022中国语音交互车端应用产业图谱 以下文章来源于亿欧网 ,作者李浩诚 2022年3月18日,亿欧智库正式对外发布了<2022中国汽车智能化功能模块系列研究-语 ...

  3. SRPG游戏开发(三十四)第八章 游戏中的数据 - 四 数据编辑器(Data Editor)

    返回总目录 第八章 游戏中的数据(Data in Game) 在之前的章节中,我们进行地图对象的生成,移动等操作. 这一章本来可以进行战斗的编写,不过数据缺失是一个问题. 所以这一章我们先来建立一些数 ...

  4. Magic Data入选艾瑞《中国面向人工智能的数据治理》行业研究报告

    数据治理丨研究报告丨核心摘要: 治理需求热潮:企业在数字化转型过程中先建设后治理的常态,使得数据治理愈发受到企业重视,另一方面,新兴技术与应用场景的快速落地,也带领数据治理需求在加速攀升.未来,随着非 ...

  5. 开源数据 Open/Free Data Sources/Datasets

    最近需要为数据整合准备一些数据源,调研下来可知如今的Open Data Sources可谓五花八门,举不胜数.现将近期整理收集的Open Data Sources罗列如下: Chefmoz http: ...

  6. 史上最全,100+大数据开源处理工具汇总

    本文除了一些常用的大数据工具,还总结汇总了其他大数据工具,几乎是最全的大数据工具的总结. 如果你想入门大数据,可以对他们进行简单的了解. 如果你想学习自己熟悉意外的大数据工具,可以看这篇文章. 如果你 ...

  7. 徒手打造基于Spark的数据工厂(Data Factory):从设计到实现

    在大数据处理和人工智能时代,数据工厂(Data Factory)无疑是一个非常重要的大数据处理平台.市面上也有成熟的相关产品,比如Azure Data Factory,不仅功能强大,而且依托微软的云计 ...

  8. 大数据开源处理工具汇总

    查询引擎 一.Phoenix 贡献者:: Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于 Gi ...

  9. 100+大数据开源处理工具汇总

    本文除了一些常用的大数据工具,还总结汇总了其他大数据工具,几乎是最全的大数据工具的总结. 如果你想入门大数据,可以对他们进行简单的了解. 如果你想学习自己熟悉意外的大数据工具,可以看这篇文章. 如果你 ...

最新文章

  1. oracle10安装网络需求警告,安装oracle10出现的问题,求解!!!!!(在线等)
  2. BOM--location对象、history对象
  3. 全息物体也能触摸到!约翰·霍普金斯大学研究者使用脑机接口让患者感受到全息物体...
  4. ECMAScript——基本数据类型之null和undefined
  5. 【CentOS】安装部署jenkins从git获取代码[转]
  6. java wait源码_Java精通并发-透过openjdk源码分析wait与notify方法的本地实现
  7. 聊聊rocketmq的ConsumerManageProcessor
  8. 【Vue学习】—Vue UI组件库(二十八)
  9. 想赚钱是好事,但盲目创业就容易悲剧
  10. Oracle 取某100天的每一天的日期
  11. PyTorch 中两大核心转置函数 transpose() 和 permute()(类似numpy的交换维度、转置)
  12. java 接收soap_2.技巧: 用 JAXM 发送和接收 SOAP 消息—Java API 使许多手工生成和发送消息方面必需的步骤自动化...
  13. C语言开定时器做呼吸灯程序,用定时器实现呼吸灯程序
  14. mysql8更改区分大小写_mysql 8 大小写修改问题
  15. 今天看continous delivery看到extreme programming
  16. DH算法 | 迪菲-赫尔曼Diffie–Hellman 密钥交换及RSA(学习笔记)
  17. 国产浏览器 html5,老外评测国产浏览器 HTML5性能不俗
  18. 2012-2013年世界大学计算机专业排名
  19. 哈工大软件过程与工具----UML图
  20. 11月末.wang域名总量15强:易名中国榜首 份额涨5%

热门文章

  1. dnf一天能获得多少黑暗之眼_暗魂水晶一天能得多少
  2. matlab 直流-直流变换器毕业论文,基于MATLAB直流-直流变换器的研究---毕业论文.pdf...
  3. 等差数列求前N项的和
  4. Al+行业正在聚焦多元化的应用场景 为人工智能发展提供巨大空间
  5. JEEWX微信企业号管家,开源免费,1.0版本发布
  6. vue vite创建项目的使用(使用技术栈vue3+vuex+router+ts+element plus)
  7. PS5画面不清晰 需要注意HDMI视频输出设置
  8. java抢答器代码_分享一下我的51单片机抢答器代码
  9. android opengles光照效果-散射光
  10. 3318. 【BOI2013】Brunhilda的生日 (Standard IO)