如何通俗地理解协方差和相关系数?(协方差的相关系数)


1 正相关与负相关

1.1 相关性

事物之间可能会有关系,这可以通过数据看出。比如要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高,两者的关系称为 正相关

城镇化有另外一个反作用,降低出生率。城镇化和出生率之间的关系就是 负相关 ,也就是说城镇化率越高、出生率会越低,所以说,“城镇化是最好的避孕药”:

1.2 股票组合

在现实生活中了解相关性是很有用处的,比如下面有三支股票,年度收益都是

可以看到蓝色、绿色这两只股票走势基本一致,也就是这两者正相关;而蓝色、红色走势相反,蓝色上涨的时候红色下跌,也就是这两者负相关。基金经理会倾向于把负相关的两支股票做成一个组合,这样收益率也还是

,但是整个组合波动会很小,整体看上去平稳上升。

这种相关性可以通过下面要介绍的 协方差相关系数 来表示和计算。

2 矩形的面积

2.1 颜色

假设有两个随机变量,身高

和体重

,很显然这两者应该是正相关的,也就是说身高增加体重也会随着增加。

但是怎么通过数学来表达呢?我们来看一个例子,下面是某班同学的身高体重:

这两个随机变量可以构成二维平面上的点

,可以把它们画在直角坐标系上。我们先画出表中的前两个点:

很显然,相对于第一个点

而言,第二个点

横坐标增加了,同时纵坐标也增加了;也就是说第二个点代表的同学,身高增加了的同时体重也增加了,这两个点是正相关的,我们在两者之间画一个红色的矩形表示这两者是正相关的关系:

现在加入第三个点

,这位同学可能比较瘦高,他和第一、第二位同学负相关,用蓝色的矩形来表示:

接着增加第四个点

,它和前面三个点都是正相关;最后增加第五个点

,它和去前面四个点全是正相关。所以这些矩形全是红色的:

画完之后整体看上去是红色的,这说明

这两个随机变量整体上是正相关的关系,虽然其中间杂着两个蓝色的矩形。

2.2 面积

从图形上可以看出红色有优势,说明是正相关。下面来看看如何通过代数计算出这个结果。从第一个红色矩形开始:

可以算出这个红色矩形的面积为正:

而某个蓝色矩形:

它的“面积”为负:

所以把所有的矩形的“面积”加起来,如果为正那么说明就是红色矩形占优势,也就是正相关;反之则是负相关;为 0 的话说明哪个都不占优势,则是不相关。就这里的具体问题而言,很显然红色更占优势,所以算出来为正(总共有

个矩形),是正相关。

2.3 一般化

如果有

个点的话,可以用:

来表示组成矩形的两个顶点,那么所有矩形的面积的和就可以表示为:

那么:

3 协方差

可以看出要计算面积还是挺麻烦的,数学家给出了一个简化的方案。

3.1 简化

按照刚才的计算方法,比如说某一个点

,需要和所有的

配对,然后计算出得到的矩形的面积和。数学家就想用

的均值也就是期望

来代替所有的

,以及用

的均值也就是期望

来代替所有的

这样之前的面积计算公式就从:

变为了:

如此,计算就被大大简化了。下面用这种方法重新算下刚才的例子。

3.2 具体的例子

首先以

为原点,构建一个直角坐标系坐标系,它会把平面分为 4 个象限:

容易知道,一、三象限的点和

正相关,而二、四象限的点和

负相关。所以在一、三象限中各选一个点,它们和

构成的矩形是红色的:

在第四个象限中有一个点,它和

构成的矩形是蓝色的:

把所有矩形都画出来的话(总共只有 5 个矩形,按照上节给出的算法总共需要画 10 个矩形,可见现有算法确实大大简化了,点越多简化的效果越好),可以看到还是红色占优,因此总体来看

依然是正相关的:

3.3 协方差

还要考虑一点,每个点的概率是不一样的,因此各个矩形的面积并非是平等的,或者说权重是不一样的,所以需要对面积和进行加权平均,也就是对面积和计算数学期望,这就得到了:

是一个二维随机变量,若 存在,则称此数学期望为 的 协方差(Covariant),记作:

特别地有

很显然会有:

  • 时, 正相关,即两者有同时增加或者减少的倾向
  • 时, 负相关,即两者有反向增加或者减少的倾向
  • 时, 不相关

4 相关系数

之前求出来的协方差是有单位的,比如身高

(单位:厘米)与体重

(单位:公斤)的协方差

的单位是:厘米

公斤。

假如又有一个随机变量,同学的年龄

(单位:岁),它和体重的协方差

的单位为:岁

公斤。那么到底体重与身高更正相关,还是体重与岁数更正相关?,因为单位的原因导致我们没有办法进行比较,所以:

对于二维随机变量 ,各自的方差为:
则:

称为随机变量 的 相关系数 。

之前介绍过标准差是有单位的,比如刚才举的例子身高

(单位:厘米)、体重

(单位:公斤)以及年龄

(单位:岁),相除之后:

单位就约掉了,变成没有单位的数了,就可以进行比较了。比如刚才提到的身高

,体重

以及年龄

,假如说根据数据算出来:

马上可以知道相对于年龄,身高与体重之间的正相关关系更强烈。

5 线性相关

“正相关”或者“负相关”实际指的是

之间线性相关(此处证明省略了,对推导感兴趣的可以参加我们的课程《概率论与数理统计》):

除了“线性相关”之外,其实还可能是别的关系(下图标出了相关系数,当相关系数不为 0 时,也就是说“正相关”或“负相关”时,在图中都或多或少地呈现线性关系;当不具备线性关系时,比如说 W 形、圆圈形等,相关系数为 0):

更多内容推荐马同学图解数学系列教程

查看知乎讨论
宇航员在月亮上为什么跳着走?(宇航员在月球上空看到的是一片漆黑这是因为)
上一篇
没有了
下一篇
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

相关推荐

  • 苹果手机各个功能介绍,iphone必须关闭的十个功能

    1、关闭蓝牙。现在已经很少有人用蓝牙传输文件了,而且iPhone与安卓的蓝牙并不兼容,所以,可以在设置中,关闭蓝牙功能。2、关闭通知功能。关于APP推送,无非也就是一些更新提醒,关了也不会有什么影响,还能多省点电。3、关闭自动调节亮度功能。一般来说,可以将屏幕亮度在15%-30%之间,在强光环境中,在进行手动调整就可以了。4、禁止后台刷新。在设置—通用中,关闭后台自动刷新功能,也可以对省电起到一点...

  • 高德打车怎么设置途经地,高德如何添加途经路线

    1、点击高德地图APP界面底部的“导航”按钮,进入导航模式。2、点击右下角的“路线”,进入路线设定页面,根据要求输入起点、终点进行路线规划。3、点击“添加途经点”,弹出添加途经点页面,点击右上角,可以添加或者删除途经点,乘客可以手动输入要添加的途经点。4、当添加完途经点时,点击“确定”按钮,即可添加途经路线。此时地图会显示出这条路线上所有的途经点,以及当前途经点的地点信息。怎么设计高德地图设置要经...

  • 高中必修二物理知识点总结,高一物理必修2重点知识点归纳

    您好,1.运动学-位移、速度、加速度的概念及计算方法-相关运动的分析方法,如相对运动和抛体运动-牛顿运动定律及其应用2.力学-力的概念及种类,如重力、弹力、摩擦力等-牛顿第一、二、三定律及其应用-力的合成与分解-能量、功、动能定理、功率的概念及计算方法-动量、冲量定理及其应用3.热学-温度、热量、热能的概念及计量单位-热传递的方式及其特点,如传导、对流、辐射-热力学第一、二定律及其应用,如热机效率...

  • 如何通俗地理解协方差和相关系数?(协方差的相关系数)

    1 正相关与负相关1.1 相关性事物之间可能会有关系,这可以通过数据看出。比如要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高,两者的关系称为 正相关 :城镇化有另外一个反作用...

  • 宇航员在月亮上为什么跳着走?(宇航员在月球上空看到的是一片漆黑这是因为)

    看了所有的回答,都太笼统了,而且忽略了一个重要原因:宇航服太硬。如果仅仅是因为重力加速度为地球表面重力加速度的六分之一,那么只要调整好腿部肌肉的力度,慢慢移动,并不需要像当年视频中那样一跳一跳的。之所...