定义式 | 判别式 | 必要条件 | 关系 | 韦恩图 | |
相互独立
# 概率角度的定义
|
概率的定义
P(XY) = P(X)·P(Y)
from 百度百科
即:有一个为不可能事件也是相互独立
|
P(Y|X) = P(Y) |
E(XY)
= E(X)·E(Y)
Var(X+Y)
= Var(X) + Var(Y)
cov(X,Y) = 0
#即 E(XY)- E(X)·E(Y)
|
不一定互斥
# 互不影响,没有斥的作用
一定不相关
|
不好表示 |
互斥
# 集合角度的定义
|
集合定义:
A∩B = 0
from 百度百科
|
P(X+Y) = P(X) + P(Y)
且 P(X) + P(Y) <= 1
P(XY) = 0
|
一定不相互独立
# 因为两者相互影响
|
||
对立 | 特殊的 互斥 |
P(X+Y) = P(X) + P(Y)
且 P(X) + P(Y) = 1
|
|||
协方差 |
定义在两个随机变量之间
COV(X, Y)
= E(X-E(X))·E(Y-E(Y))
# 这个E 本身带有样本遍历的操作
|
COV(X, Y)= E(XY) - E(X)E(Y) | |||
相关系数 |
COV(X,Y)÷
sqrt(Var(X)·Var(Y))
观点:
相关系数是标准化归一化的协方差
|
||||
不相关 | COV(X, Y) = 0 |
E(XY) = E(X)·E(Y)
Var(X+Y) = Var(X) + Var(Y)
# 它的证明用到了E(XY)- E(X)·E(Y)
|
独立一定不相关
不相关不一定独立
|
||
|
|||||
凸函数 |
desc | |
协方差的应用 |
建立特征间的协方差矩阵
特征维度间的 协方差矩阵分析 是特征筛选的最常用的方法
使用方法:
剔除 协方差矩阵中 绝对值最大的item
不论正相关还是 负相关,都是相关
|
特征工程包括 |
1. transforming 相乘等等
2. selection筛选
|
证明:
E(XY) = E(X)·E(Y)
|
证明:
E(XY) = E(X)·E(Y)
Σ_xy(z_xy·P(XY))
# 其中 z_xy = X·Y, P(XY) = P(X)·P(Y) 带入得到
= Σ_xy(X·Y·P(X)·P(Y))
= Σ_xΣ_y(Y·P(Y)·X·P(X))
= Σ_xE(Y)X·P(X))
= E(Y)(Σ_xX·P(X)))
= E(Y)E(X)
|
证明:
Var(X+Y) = Var(X) + Var(Y)
|
Var(X+Y)
= E((X+Y)(X+Y)) - E(X+Y)E(X+Y)
# 因为是 E(X+Y) = E(X) + E(Y) 无条件成立
= E((X+Y)(X+Y)) - (E(X)+E(Y))(E(X)+E(Y))
= E(X2+Y2+2XY) - (E(X)+E(Y))(E(X)+E(Y))
= E(X2)+E(Y2) + 2E(XY) - E(X)E(X) - E(Y)E(Y) - 2E(X)E(Y)
= E(X2) - E(X)E(X) + +E(Y2)- E(Y)E(Y) + 2E(XY) - 2E(X)E(Y)
= Var(X) + Var(Y) + 2E(XY) - 2E(X)E(Y)
也就是应用了 第一条规律即:
如果独立那么E(XY) = E(X)·E(Y)
上式子可以化为:
Var(X) + Var(Y)
|
相关系数矩阵 | 有协方差矩阵就有 相关系数矩阵 |
why 不相关 不等价于相互独立 |
因为 使用皮尔逊系数的不相关,仅仅是非线性相关
如果 X = K·Y,那么:ρ(X,Y) = 1
即:不线性相关 可能有其它的 函数相关,比如:核函数 就是高阶相关
|
皮尔逊相关系数 | 其实就是 去均值的cos相似度 |
独立同分布的理解 |
同分布的概念是指 有相同的期望和方差,独立的概念是指P(XY)=P(X)P(Y)
即 X1,X2,X3,……,Xn 独立同分布,那么相当于给你一些工具tool,即:
E(Xi) = μ
Var(Xi) = Σ2
------------------------------------
相互独立表示可以有以下tool:
P(Xi·Xj) = P(Xi)·P(Xj)
P(Xi|Xj) = P(Xi)
COV(Xi, Xj) = 0
Var(Xi + Xj) = Var(Xi) + Var(Xj)
E(Xi·Xj) = E(Xi)·E(Xj)
|
如何理解 切比雪夫不等式 |
落在期望邻域的概率计算
|
公式推导过程 | 落在期望邻域的概率计算————>切比雪夫不等式——(替换)——>大数定律——(替换)——>伯努利定律(即频率替换法) |
猜数 | 就是取 概率密度的取峰值 |
关于数理统计的几个指标 |
这几个 指标 都是你要用到的:
2 阶原点距
1 阶中心距
变异系数
偏度
峰度
熵
个数
样本均值
样本方差
|
中心极限定理的观点 |
许多因素的独立影响的综合反映往往接近正态分布
比如观察不到的微小误差的累积,即 随机变量的 均值,误差的总和等等 服从的是 正态分布
乘性误差是需要取log,后变为加,才是正态分布 的
|
关于极大似然估计函数 |
Xi 因为是样本,所以可以看成是固定的,而Θ是变量
所以对 Θ 求导
|
一个名词概念 | 基函数 与 核函数 |
基函数 |
基函数的作用类似于 基向量,
基向量是集合空间的基
基函数是函数空间的基
常见的基函数类型有:
多项式基
傅里叶基
拉格朗日基
比如:泰勒展开式,傅里叶变换 可能就是在用一些基
refer
例如:
{1, t, t2} as a basis, 由这个基张开的函数空间为:a·1+b·t+c·t2
refer
|
SVM的一个说法 |
低维空间线性不可分的模式通过非线性 映射 到高维特征空间则可能实现线性可分
这里如果说是 映射,那么 是让你 正门外汉 所看不懂无法想象的,其实 还是看 那个北大的演讲
确切的说 就是对 离线的数据 进行扭曲,是的可以线性可分
分类只能线性可分,如果线性不可分,那么扭曲空间然后 再线性可分
|
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:概率论基础_七月算法4月机器学习班第2次课程笔记 - Python技术站