流数据的概念漂移检测
Heng Wang
Johns Hopkins University
Email: hwang82@jhu.edu
Zubin Abraham
Research and Technology Center North America
Email: Zubin.Abraham@us.bosch.com
摘要
常见的统计预测模型通常需要并假设数据的平稳性。然而,在许多实际应用中,随着时间的推移,定期观察响应和预测变量之间关系的变化,导致这些模型的预测性能变差。本文将介绍线性四率(LFR),一种用于检测这些概念漂移并随后识别属于新概念的数据点的框架(用于再学习模型)。与传统的概念漂移检测方法不同,LFR可以应用于批量数据和流数据; 它不受响应变量的分布特性的限制(例如,具有不平衡标签的数据集); 并独立于基础统计模型,使用用户指定的直观易懂的参数。将LFR的性能与使用跨越概念漂移类型范围的模拟和常用公共数据集的基准方法进行比较,结果表明,LFR在数据集中概念漂移检测的召回,准确性和延迟方面明显优于基准方法。
目录
摘要 2
Ⅰ. 介绍 3
Ⅱ. 问题描述 5
Ⅲ. 概念漂移检测框架 7
A. 线性四率(LFR) 8
Ⅳ. 实验 19
Ⅴ. 结论 29
参考文献 29


