散点图视觉陷阱:视觉上的紧密并不总是意味着更强的相关性
分析
这篇文章极其敏锐地揭示了数据科学中一个常见的视觉陷阱,这个陷阱很容易在探索性数据分析中导致错误的特征选择。它极好地提醒了我们皮尔逊相关系数的底层数学原理及其如何标准化数据规模,从而挑战了我们直觉上的视觉假设。作者制作视频演示的决定,为构建更好、更严谨的分析工作流程提供了一种极具吸引力的方式。
关键要点
引用 / 来源
查看原文"皮尔逊相关系数r完全标准化了数据规模,因此在共享轴上,标准差较小的数据集看起来更紧凑,但可能具有完全相同的相关性。"