1. 概念漂移(concept drift)

  背景:概念漂移指的是数据流中的潜在数据分布随时间发生不可预测的变化,使原有的分类器分类不准确或决策系统无法正确决策,常见于推荐系统、金融领域、决策等

    Concept drift refers to unforeseeable changes in the underlying data distribution of data streams over time.

  定义:Concept drift in machine learning and data mining refers to the change in the relationships between input and output data in the underlying problem over time. (https://machinelearningmastery.com/gentle-introduction-concept-drift-machine-learning/)

  我的理解:目标函数target随时间发生不可预测性变化。比如:input(x1) --> target(x1) 概念漂移: input(x1) --> target(x2).

2. 概念漂移检测(concept drift detection method)

  2.1 Supervised learning method

The supervised learning method usually depends on the underlying data distribution to compute the classification error rate, relative entropy, linear four rates(true positive rate, true negative rate, positive predictive value and negative predictive value). Although these methods can get high accuracy, they over-rely the distribution of underlying data and labeled data.

2.2 Unsupervised learning method

The unsupervised learning method usually computes the difference of adjacent data block to confirm whether the concept drift occurs, such as: the distance of topic feature space, the similarity of feature of time series and the Fuzzy Competence Model.

Although these methods don’t need prior knowledge of the underlying data and can output when, how, where concept drift occurs, the semantic information were absent to the detection of concept drift. A small number of samples will limit the application of unsupervised learning method.

3. Expected Method

core: 利用语义信息和算法表征不同的概念,进行相似度比较,如果不同名称的概念相似,则它们发生了概念漂移,因为它们的语义本质没有发生变化,e.g. 计算机和电脑,如果它发生了概念漂移,但它们的本质都是指代同一件事物。

To overcome the above limitations, I proposed a concept drift detection method based on semantic folding. Semantic folding can represent the semantic information and the of underlying context data by generating 128/256-bit hash vector. It will be more advantageous than topic feature space and maximum likelihood estimation to detect the concept drift. The following is the method steps:

(1) an initial sematic folding vector v1 extracted from original underlying data. (2) generate a new semantic folding vector v2 when new samples are available (3) compute the similarity or distance of two vectors v1 and v2.
(4) concept drift occurs when feature vectors differ significantly.

4. References

[1] FAN D, JIE L, GUANGQUAN Z, et al. Active fuzzy weighting ensemble for dealing with concept drift[J]. International journal of computational intelligence systems, 2018, 11: 438- 450.

[2] FAN D, GUANGQUAN Z, JIE L, et al. Fuzzy competence model drift detection for data- driven decision support systems(DSSs)[J]. Knowledge-Based systems, doi: 10.1016/j.knosys.2017.08.018.

[3] GUANG C, XUEGANG H, YUHONG Z. Semantic-based concept drift detection algorithm for data stream[J]. Computer Engineering, 2018, 44(2): 24-30.

[4] RODOLFO C, LEANDRO M, ADRIANO O. FEDD: Feature extraction for explicit concept drift detection in time series[C]. 2016 International joint conference on neural networks(IJCNN), 24-29/07/2016.

[5] SHUJIAN Y, ABRAHAM Z. Concept drift detection with hierarchical hypothesis testing[C]. 2017 SIAM International conference on data mining, 2017.

机器学习应用方向(二)~概念漂移(concept drift)相关推荐

  1. 机器学习之概念漂移-concept drift

    1. 概念漂移(concept drift) 背景:概念漂移指的是数据流中的潜在数据分布随时间发生不可预测的变化,使原有的分类器分类不准确或决策系统无法正确决策,常见于推荐系统.金融领域.决策等 Co ...

  2. 检测恶意软件分类模型中的概念漂移

    科研笔记 论文题目-检测恶意软件分类模型中的概念漂移 共形预测 (conformal prediction)是一种置信度预测器,它生成具有用户定义的错误率的预测.在某个置信度水平下,所有预测范围的那部 ...

  3. 一天1个机器学习知识点(二)

    陆陆续续整理的机器学习的知识点,资料大多数来自网上,不做盈利目的,如果侵权请告知即删!如果文章中有错误的地方还请各位同学指正,,一起学习,一起进步! 每天都在更新中,记得收藏,每天进步一点点!! 一天 ...

  4. 【周志华机器学习】十二、计算学习

    文章目录 参考资料 1. 基本概念 2. PAC学习 3. 有限假设空间 3.1 可分情形 3.2 不可分情形 4. VC维 4.1 增长函数 4.2 对分与打散 4.3 VC维 5. 稳定性 参考资 ...

  5. 机器学习笔记(十二)计算学习理论

    12.计算学习理论 12.1基础知识 计算学习理论(computationallearning theory)研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难 ...

  6. ML与math:机器学习与高等数学基础概念、代码实现、案例应用之详细攻略——基础篇

    ML与math:机器学习与高等数学基础概念.代码实现.案例应用之详细攻略--基础篇 目录 一.ML与高等数学 0.基础数学 1.导数.方向导数.梯度 1.1.概念简介 1.2.代码实现 2.Taylo ...

  7. 【机器学习】机器学习和深度学习概念入门

    机器学习和深度学习概念入门(上) 作者:谭东  来源:机器学习算法与自然语言处理 目  录 1   人工智能.机器学习.深度学习三者关系 2   什么是人工智能 3  什么是机器学习 4  机器学习之 ...

  8. 大数据分析、机器学习、智能化等概念梳理

    1 引言 最近半年来一直在学习数据分析.机器学习等智能化相关的知识,过程中积累了不少技术和经验,收获很多,启发很大. 2 统计工具的学习 最初,以数据的关联性分析为切入点,展开分析工作,希望在大量.静 ...

  9. 机器学习笔记(二十八):高斯核函数

    凌云时刻 · 技术 导读:核函数是机器学习算法中一个重要的概念.简单来讲,核函数就是样本数据点的转换函数.这一节我们来看看应用非常广泛的一个核函数,高斯核函数. 作者 | 计缘 来源 | 凌云时刻(微 ...

最新文章

  1. 基本数据类型使用注意事项
  2. 可怕!那些你看不到的进程
  3. HDU - 7054 Yiwen with Formula 分治拆位FFT + dp + 费马小定理降幂
  4. React开发(228):ant design table根据宽度自动忽略
  5. 【日常填坑】之ajax请求laravel的api接口
  6. android 实现异步加载图片,Android中ImageView异步加载图片类
  7. 直接拿来用!GitHub 标星 5000+,学生党学编程有这份资料就够了
  8. java 的clean code 技巧
  9. P1069 细胞分裂
  10. 【NLP】一文简要了解词义消歧与实体消歧
  11. 《巴黎评论》启示录连载之一村上春树
  12. C#,图像二值化(13)——全局阈值的双峰平均值算法(Bimodal Thresholding)与源程序
  13. ueditor编辑器遇到的问题
  14. mysql数据库名词术语_【千寻】MySQL数据库名词注释(持续更新)
  15. Heart-Shaped Box
  16. 2022年「博客之星」参赛博主:hyk今天写算法了吗
  17. SAP PP配置详解之二:BOM的配置
  18. HTTP Request 请求
  19. 什么是五档即成剩撤?
  20. windows服务器局域网内与某台服务器时间同步

热门文章

  1. selenium测试(Java)--鼠标事件(六)
  2. 高通暂时不会针对物联网打造专属处理器
  3. C++Study 指针详解
  4. SharePoint Designer 2013 Workflow
  5. DMURLConnection
  6. 有些话不知道怎么说才好
  7. mathtype6在word2019中闪退的问题
  8. 最小生成树板子-AcWing 859. Kruskal算法求最小生成树
  9. PAT甲级1072 Gas Station (30 分):[C++题解]dijkstra算法、最短路
  10. c语言原始,[蓝桥杯][历届试题]回文数字 最原始的方法(C语言代码)