语义漂移

Sometimes your models fail because the world breaks. Sometimes your models die because your observations of the world break. The distinction is harder to discern than you think.

有时您的模型会因为世界崩溃而失败。 有时,您的模型会因为对世界的观察中断而死亡。 这种区别比您想象的要难辨认。

Understanding the difference and how to conquer semantic drift leads to much more powerful models.

了解差异以及如何克服语义漂移会导致功能更强大的模型。

什么是概念漂移? (What Is Concept Drift?)

I see many articles online about concept drift assuming that the reader has a background in statistics. Here’s an alternate approach:

我在网上看到许多关于概念漂移的文章,假设读者具有统计学背景。 这是另一种方法:

A complex world exists outside of your organization. Change in this external world often breaks your models — COVID-19 and our collective response, changes in USA Federal Reserve policy, or the rise of TikTok. We call these changes concept drift.

组织外部存在一个复杂的世界。 外部世界的变化通常会破坏您的模型-COVID-19和我们的集体React,美国联邦储备委员会政策的变化或TikTok的崛起。 我们称这些变化为概念漂移

Concept is the relationship between inputs and outputs of a model, with the outputs often being the model predictions. For example:

概念是模型的输入和输出之间的关系,而输出通常是模型的预测。 例如:

Show a prospective customer two sweaters, sweater A and sweater B. Assuming that this prospect is a female between the ages of 30 and 35 in the Northeast USA in a summer month, the prospect chooses sweater A 82% of the time.

向潜在客户展示两件毛衣,即毛衣A和毛衣B。假设该潜在客户是美国东北部一个夏季月份在30至35岁之间的女性,则该潜在客户在82%的时间内选择了毛衣A。

All of a sudden, the balance between sweater A and sweater B shifts to 27% sweater A and 73% sweater B. What happened?

突然之间,毛衣A和毛衣B之间的平衡转移到毛衣A和毛衣B分别为27%和73%。发生了什么?

In the context of a predictive model, the product choices, demographics, geography, and seasonality are inputs. The output is the predicted likelihood of purchasing each product. This relationship is the concept.

在预测模型的上下文中,产品选择,人口统计,地理和季节性是输入。 输出是购买每种产品的预计可能性。 这种关系就是概念

If this shift in purchasing patterns occurs out of the blue, we assume something unseen about the world has changed. Maybe the color is no longer in vogue. Perhaps animal rights campaigns have affected the consumption of wool. This drift is concept drift.

如果这种购买方式的转变是突然发生的,那么我们就认为世界发生了一些看不见的事情。 也许颜色不再流行。 也许动物权益运动已经影响了羊毛的消费。 这种漂移就是概念漂移

适应不断变化的世界 (Adapting to a Changing World)

When the concept of a model drifts, models have to be rebuilt. There are two options:

当模型的概念发生变化时 ,必须重新构建模型。 有两种选择:

  1. Use the same model type and parameters (and code), and train it from scratch on new data that represents the latest state of the world. This data should be unpolluted by the old world. An analogy is taking an infant and training it on a world that has always had TikTok.使用相同的模型类型和参数(和代码),并从头开始对代表世界最新状态的新数据进行训练。 这些数据应该不受旧世界的污染。 打个比喻是要带一个婴儿,并在一个一直有TikTok的世界上对其进行培训。
  2. Failing the first option, throw away the code and go through the painstaking process of data science research to discover the new model type and parameters that fit the latest state of the world. This is like designing a cyborg optimized for TikTok.如果没有第一个选择,则丢弃代码,并经历数据科学研究的艰辛过程,以发现适合世界最新状况的新模型类型和参数。 这就像设计针对TikTok优化的机器人。

Note that, in both cases, the new model wouldn’t work on the old state of the world. Old world? Old model. New world? New model.

请注意,在两种情况下,新模型都无法在世界的旧状态下使用。 古老的世界? 旧模型。 新世界? 新模型。

The only time to use the same model on both the new world and the old world is when you seek a model that is stable across both. In other words, you desire a model based on inputs unaffected by the shifting winds of TikTok, colors from Milan, or animal rights campaigns.

在新世界和旧世界上都使用同一模型的唯一时间是当您寻求在两者之间都稳定的模型时。 换句话说,您希望模型基于不受TikTok变换风,米兰的颜色或动物权利运动影响的输入。

世界变了吗? (Has the World Changed?)

Whenever models break, data scientists often start with the assumption that the underlying concept must have drifted. After all, it’s easier than trying to gather somehow some magical inputs that may not exist and may be impossible (or too expensive) to acquire.

每当模型破裂时,数据科学家通常会从以下前提开始:基本概念一定已经漂移。 毕竟,这比尝试以某种方式收集一些可能不存在并且可能无法(或太昂贵)的神奇输入要容易。

There is a crucial caveat to this assumption: Most organizations do the bulk of their data science research on data that has to do with a specific product, service, or platform. Often, the product captures that data itself. And when this is the case, changes in the platform and changes in how it captures data about itself can introduce drift that has nothing to do with the outside world.

这个假设有一个重要的警告:大多数组织对与特定产品,服务或平台有关的数据进行大量的数据科学研究。 通常,产品会捕获数据本身。 在这种情况下,平台的变化以及捕获自身数据的方式的变化都可能导致与外界无关的漂移。

This different kind of drift is semantic drift. And it takes a lot of work and discipline to be able to separate this from concept drift.

这种不同的漂移是语义漂移 。 要将其与概念漂移区分开,需要大量的工作和纪律。

什么是语义漂移? (What is Semantic Drift?)

The term semantic drift has applications outside of statistics and machine learning. Here, we refer to the meaning of data:

语义漂移一词在统计和机器学习之外具有其他应用。 在这里,我们指的是数据的含义:

  • What does a variable or feature mean?变量或特征是什么意思?
  • What does the value of a variable or feature mean?变量或特征的值是什么意思?
  • What is an observation?什么是观察?

Let’s take gender identity as the variable in question. Upon registration, an online shopping platform asks prospective customers to identify their gender as either male or female.

让我们将性别认同作为相关变量。 注册后,在线购物平台会要求潜在客户将其性别标识为男性还是女性

If the online shopping platform adds a third gender identity option, unspecified. The meaning, or semantics, of the gender identity variable changes. Let’s set the shifting politics of gender identity aside. Perhaps certain people wish to leave their gender marker unspecified to reduce their personal feeling of being surveilled. The point is that gender identity used to have two choices, and it now has three.

如果在线购物平台添加了第三个性别身份选项,则未指定性别身份变量的含义或语义会发生变化。 让我们抛开性别认同不断变化的政治。 也许某些人希望保留其未指定的性别标记,以减少个人被监视的感觉。 关键是, 性别认同曾经有两个选择,现在有三个选择。

A typical data science use case is separating the population of prospects into partitions to treat differently. I wish to bucket males separately from females for marketing.

一个典型的数据科学用例是将潜在客户群体划分为多个分区,以区​​别对待。 我希望将男性和女性分开进行市场营销。

When the system changes how it defines gender identity, models behave strangely. Individual prospects who answered female in the old data may have chosen unspecified if given a chance. But they responded to that question on registration, and an organization wouldn’t ask them again.

当系统更改定义性别身份的方式时,模型的行为会异常。 如果有机会,在旧数据中回答女性的个别准潜在顾客可能选择了未指定 。 但是他们在注册时回答了这个问题,一个组织不会再询问他们。

Now, data scientists have to deal with a population of prospects where their value for the gender identity variable means something different depending on when the person registered.

现在,数据科学家必须处理大量潜在客户,这些潜在客户的性别认同变量的值根据注册时间的不同而有所不同。

Often data scientists don’t know that their datasets contain multiple semantic versions. And if they do, they have no easy way to tell which prospects are which.

数据科学家通常不知道他们的数据集包含多个语义版本 。 如果这样做的话,他们就没有容易的方法来判断哪个前景是哪个。

克服语义漂移 (Conquering Semantic Drift)

A host of specific best practices for conquering semantic drift exist. This product management and software engineering discipline is rich and is beyond the scope of this post.

存在许多克服语义漂移的特定最佳实践。 该产品管理和软件工程学科内容丰富,超出了本文的范围。

The basics boil down to this:

基础可以归结为:

  • Products, services, and platforms that generate data must product-manage the data they generate as a first-class citizen.生成数据的产品,服务和平台必须对作为一流公民生成的数据进行产品管理。
  • Help data scientists by tagging data with the semantic version, which requires code-as-deployed versioning discipline.通过使用语义版本标记数据来帮助数据科学家,这需要按代码部署的版本控制准则。
  • Ensure data scientists can thoroughly understand how data of a specific semantic version was collected by preserving code-as-deployed such that it is identifiable by version.

    确保数据科学家可以通过保留所部署的代码(按版本进行识别)来彻底了解特定语义版本的数据是如何收集的。

Product managers and product software engineers are not the only ones with work to do. Data scientists and data engineers do as well. The primary task is:

产品经理和产品软件工程师并不是唯一要做的工作。 数据科学家和数据工程师也是如此。 主要任务是:

  • Data infrastructure should be able to rationalize data sets, such as user journeys, that include observations of differing semantic versions.数据基础结构应该能够合理化数据集,例如用户旅程,其中包括对不同语义版本的观察。

Thoughts and feedback, please!

有想法和反馈,请!

翻译自: https://medium.com/swlh/when-concept-drift-is-semantic-drift-be1ac7e1abf5

语义漂移


http://www.taodudu.cc/news/show-4101346.html

相关文章:

  • MCU软件开发——如何设计lifo
  • (js队列,堆栈) (FIFO,LIFO)
  • LIFO栈 ADT接口 链表实现
  • 栈(LIFO)的存储
  • 使用链表实现LIFO栈
  • 栈(LIFO:后进先出)
  • Python数据结构之栈(LIFO)
  • python中栈是先进后出_python中的栈 LIFO类似于堆即先进后出
  • 在Codesys用ST语言基于链表实现栈LIFO数据结构详细说明+代码实例
  • 队列fifo和lifo C语言数组实现
  • 第11篇 zephyr 数据传递之LIFO
  • 在Codesys用ST语言基于数组实现栈LIFO数据结构详细说明+代码实例
  • CSAPP:malloclab (显式空闲链表 LIFO+首次适配)
  • 栈——后入先出的数据结构(LIFO)
  • java中lifo的数组_Java 实现下压(LIFO)栈
  • java lifo_java:stack栈: Stack 类表示后进先出(LIFO)的对象堆栈
  • Zephyr RTOS -- FIFO (LIFO)
  • java fifo lifo_栈方法 LIFO - 队方法 FIFO
  • java fifo lifo_一日一技:Python队列:FIFO 和 LIFO
  • (数据结构)栈(LIFO结构)——概念、进栈、出栈、先进后出的特性
  • 本地缓存之LIFO、LRU、FIFO、LFU实现
  • C语言用数组模拟实现栈(LIFO)
  • 解析LIFO(FILO)结构栈(C语言版)
  • 词霸天下---177 词根 【 -vast- = -wast- 空,荒废 】仅供学习使用
  • 解决开机时出现An operating system wasn‘t found问题
  • 关于运行npm install报[..................] / idealTree:WEB-48403: sill idealTree buildDeps的问题
  • 傻逼修复bug记录
  • weblogic反序列化漏洞修复
  • webpack 报错处理 Error: Cannot find module '@webassemblyjs/wast-parser'
  • 怎样测试服务器压力

语义漂移_当概念漂移是语义漂移时相关推荐

  1. 基于bert的语义匹配_构建基于BERT的语义搜索系统…针对“星际迷航”

    基于bert的语义匹配 If you read my previous article on Towards Data Science you'll know I'm a bit of a Star ...

  2. python语义网络图_知识图谱 语义网络,语义网,链接数据和知识图谱 (二)--基础篇...

    知识图谱 语义网络,语义网,链接数据和知识图谱 (二)--基础篇 发布时间:2018-05-14 16:10, 浏览次数:370 一.语义网络(Semantic Network) 对于初学者来讲,这个 ...

  3. mysql数据漂移_第28问:SIP 漂移时,会影响正在使用的数据库连接么?

    问题 我们经常使用浮动 IP(SIP,或叫 VIP),来完成数据库的高可用部署. 业务通过访问浮动 IP,始终访问主数据库.如果业务正在访问数据库时,数据库主从发生切换,导致 SIP 漂移,那正在使用 ...

  4. python实现语义分割_如何用PyTorch进行语义分割?一文搞定

    很久没给大家带来教程资源啦. 正值PyTorch 1.7更新,那么我们这次便给大家带来一个PyTorch简单实用的教程资源:用PyTorch进行语义分割. 图源:stanford 该教程是基于2020 ...

  5. 单眼测试_单眼鸟瞰自动驾驶语义分割

    单眼测试 Autonomous driving requires an accurate representation of the environment around the ego vehicl ...

  6. 语义分割和实例分割_一文读懂语义分割与实例分割

    以人工智能为导向的现代计算机视觉技术,在过去的十年中发生了巨大的变化.今天,它被广泛用于图像分类.人脸识别.物体检测.视频分析以及机器人及自动驾驶汽车中的图像处理等领域.图像分割技术是目前预测图像领域 ...

  7. 图 子类 数据库_构造知识图的语义模型

    幼稚园见解, 使用基于图的结构捕获数据源的语义 如果您是知识图和相关概念的新手,例如从数据源到本体的映射,我邀请您阅读以下入门文章. 知识图(KG)是用于捕获和构建大量多关系数据的有效工具,可以通过查 ...

  8. 高精地图_语义地图_众包地图相关论文笔记

    1.20220618_LT-mapper: A Modular Framework for LiDAR-based Lifelong Mapping 2021 3d-Lidar构建long-term地 ...

  9. mysql数据漂移_数据库漂移-和数据库漂移相关的内容-阿里云开发者社区

    MySQL双主一致性架构优化 | 架构师之路 一.双主保证高可用 MySQL数据库集群常使用一主多从,主从同步,读写分离的方式来扩充数据库的读性能,保证读库的高可用,但此时写库仍然是单点. 在一个My ...

  10. AAAI 2021 | 从语义关系建模的角度进行句子语义关系匹配

    ©PaperWeekly 原创 · 作者|张琨 学校|中国科学技术大学博士生 研究方向|自然语言处理 论文标题: Making the Relation Matters: Relation of Re ...

最新文章

  1. Ubuntu 安装 IPython、jupyter notebook
  2. 人脸识别经典算法:特征脸方法(Eigenface)
  3. 计算机网络中各层的协议图表(TCP/IP)
  4. SVN提交代码后不刷新状态解决办法
  5. 拦截器读post参数导致接口post请求报错_vue中Axios的封装和API接口的管理
  6. HTML---HTML中常用的标签(标题,水平,特殊标签)
  7. SCOM数据库整理索引计划出错
  8. Springboot整合Websocket遇到的坑_websocket session不支持序列化,无法存储至redis_Websocket相关问题总结(Session共享,用户多端登录等)
  9. 服务器协议热更_汽车和电话的开放协议,以及更多开放源新闻
  10. matlab平稳性检验,平稳性检验方法的有效性研究
  11. 25.龙贝格求积公式
  12. U3D常用介绍,搭建一个简单的三维效果
  13. 机器学习项目实战——集成预测政治献金
  14. 计算机硬件故障照片,计算机硬件故障的识别与处理
  15. Cygwin下载安装
  16. 2020最新版影评小程序搭建教程(附源码获取渠道)
  17. 2020.10.13--PS--像素化滤镜、扭曲类滤镜、波浪和水波
  18. 不同频率闪烁多个LED灯
  19. RK3288-人脸识别主板方案
  20. 什么是A、NS、别名、MS记录

热门文章

  1. 产品经理如何进行用户需求分析?
  2. CPU 和 GPU - 异构计算的演进与发展
  3. 279. 自然数拆分
  4. 学习 opencv---(4) 分离颜色通道 多通道混合
  5. AopAutoConfiguration matched: - @ConditionalOnProperty (spring.aop.auto=true) matched (OnPrope.
  6. 第五章:量化研究专题(第四篇:统计套利:利用相关系数进行配对交易 )
  7. [ITIL学习笔记]ITIL认证相关
  8. exsi 无法打开虚拟机 执行此操作的权限被拒绝[解决]
  9. 应用StarRocks实现存储引擎的收敛,保障高查询并发及低延迟要求
  10. 负载均衡性能参数如何测评?