python皮尔逊相关性数据分析分析及实例代码

Python 皮尔逊相关性数据分析分析及实例代码

什么是皮尔逊相关性分析?

在统计学中,皮尔逊相关系数(PCC),又称皮尔逊积矩相关系数(PPMC)是度量两个变量X和Y之间线性相关程度的一种统计指标。它由卡尔·皮尔逊于1895年提出,因此得名。

皮尔逊相关系数的取值范围是-1至1,在统计学中,通常采用以下方式来解释两个变量之间的关系:

  • 如果相关系数为 1,则说明两个变量完全正相关。
  • 如果相关系数为 -1,则说明两个变量完全负相关。
  • 如果相关系数为 0,则说明两个变量之间没有线性关系。

如何使用Python进行皮尔逊相关系数分析

Python 中的 Scipy 模块提供了 pearsonr() 函数,可以用来计算两个变量之间的皮尔逊相关系数。下面是使用 Scipy 计算皮尔逊相关系数的示例代码:

from scipy.stats import pearsonr

x = [1, 2, 3, 4, 5]
y = [5, 4, 3, 2, 1]

corr, _ = pearsonr(x, y)
print('Pearsons correlation: %.3f' % corr)

输出结果:-1.000

以上代码中,使用了 pearsonr() 函数计算 x 和 y 两个向量之间的皮尔逊相关系数,输出结果为 -1.0。

示例1:使用皮尔逊相关系数分析身高和体重之间的关系

from scipy.stats import pearsonr
import matplotlib.pyplot as plt

heights = [167, 170, 175, 172, 155, 158, 162, 171, 175, 177]
weights = [86, 75, 70, 63, 54, 58, 57, 64, 68, 79]

corr, _ = pearsonr(heights, weights)
print('Pearsons correlation: %.3f' % corr)

plt.scatter(heights, weights)
plt.title('Height vs Weight')
plt.xlabel('Height (cm)')
plt.ylabel('Weight (kg)')
plt.show()

输出结果:Pearsons correlation: 0.215

以上代码中,通过计算身高(heights)和体重(weights)之间的皮尔逊相关系数(corr),我们可以看到两个变量之间的相关性很弱,相关系数为0.215。

示例2:使用皮尔逊相关系数检查两组数据集之间的相关性

from scipy.stats import pearsonr
import numpy as np

dataset1 = np.random.rand(100)
dataset2 = np.random.rand(100)

corr, _ = pearsonr(dataset1, dataset2)
print('Pearsons correlation: %.3f' % corr)

输出结果:Pearsons correlation: 0.054

以上代码中,我们创建了两个长度为 100 的随机数组(dataset1 和 dataset2),通过计算两者之间的皮尔逊相关系数,我们可以看到它们之间几乎没有线性关系,相关系数仅为 0.054。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python皮尔逊相关性数据分析分析及实例代码 - Python技术站

(0)
上一篇 2023年5月18日
下一篇 2023年5月18日

相关文章

  • 物联网云计算架构

    第一、软件服务(SaaS)Software-as-a-Service。软件即服务。即通过网络提供软件服务。SaaS平台供应商将应用软件统一部署在自己的服务器上,客户可以根据工作实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用,并通过互联网获得Saas平台供应商提供的服务。     第二、平台服务(PaaS)Platf…

    云计算 2023年4月11日
    00
  • 云计算的三种服务模式(IaaS/PaaS/SaaS)

      云计算主要分为三种服务模式,而且这个三层的分法重要是从用户体验的角度出发的: SaaS:Software as a Service,软件即服务,这层的作用是将应用作为服务提供给客户。 PaaS:Platform as a Service,平台即服务,这层的作用是将开发平台作为服务提供给用户。 IaaS:Infrastructure as a Servic…

    云计算 2023年4月16日
    00
  • Python实现强制复制粘贴的示例详解

    我们先来讲解一下什么是“Python实现强制复制粘贴”。这是一种可以让你的Python代码在运行时拦截系统剪贴板(clipboard)内容,并进行修改或强制替换的技术。 实现这个功能,需要使用到Python第三方库pyperclip。具体的步骤如下: 安装pyperclip库 pip install pyperclip 实现强制复制粘贴功能 import p…

    云计算 2023年5月18日
    00
  • openstack云计算keystone架构源码分析

    OpenStack云计算Keystone架构源码分析 什么是Keystone Keystone是OpenStack身份验证服务的基础。它充当了OpenStack中所有服务的门户,所有服务都需要与Keystone进行通信才能验证用户身份并获取授权。因此,Keystone的安全性至关重要。 Keystone拥有众多功能,包括用户/组管理、权限管理和认证接口支持等…

    云计算 2023年5月17日
    00
  • .NET中IoC框架Autofac用法讲解

    .NET中IoC框架Autofac用法讲解 在本攻略中,我们将详细讲解 .NET 中的 IoC 框架 Autofac 的用法,包括 Autofac 的基本概念、使用方法和示例说明。 Autofac 基本概念 Autofac 是一个 .NET 中的 IoC 容器,用于管理对象的生命周期和依赖关系。在 Autofac 中,有以下基本概念: Container C…

    云计算 2023年5月16日
    00
  • 什么是网络虚拟化 网络虚拟化简介

    什么是网络虚拟化 网络虚拟化是一种将物理网络资源划分为多个逻辑网络的技术,可以提高网络资源的利用率和灵活性。网络虚拟化可以将多个虚拟网络隔离开来,使它们之间相互独立,从而提高网络的安全性和可靠性。下面是一些网络虚拟化的攻略。 1. 虚拟化技术 网络虚拟化可以使用多种虚拟化技术,包括: 虚拟局域网(VLAN):将物理网络划分为多个逻辑网络,每个逻辑网络都有一个…

    云计算 2023年5月16日
    00
  • 5G时代边缘计算市场规模将超万亿 与云计算平分秋色

    2019年以来,随着5G商用化进程的持续推进,在5G通讯广连接、大流量、高带宽等技术优势的有益赋能之下,边缘计算一度被誉为是5G时代的下一个风口。 边缘计算这个由IBM在2012年提出的概念,一直到2017年才真正迎来爆发。5G时代下,它能解决哪些问题?它和云计算又有什么不同,云计算巨头为何都要战略布局边缘计算呢? 5G时代,边缘计算的崛起 边缘计算是指在靠…

    云计算 2023年4月13日
    00
  • Python中的二叉树查找算法模块使用指南

    Python中的二叉树查找算法模块使用指南 二叉树是一种重要的数据结构,常用于实现查找和排序算法。本文将介绍Python中的二叉树查找算法模块的使用指南,包括模块的功能、使用方法和示例说明。 功能 Python中的二叉树查找算法模块,可以实现以下几种功能: 插入元素 查找元素 删除元素 广度优先遍历 深度优先遍历 安装 可以通过pip安装二叉树模块,安装命令…

    云计算 2023年5月18日
    00
合作推广
合作推广
分享本页
返回顶部