百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

数据分析-相关性分析(相关性数据分析步骤)

haoteby 2025-04-09 16:14 5 浏览

相关性分析是一种统计方法,用于衡量两个或多个变量之间的关系强度和方向。它通过计算相关系数来量化变量间的线性关系,从而帮助理解变量之间的相互影响。相关性分析常用于数据探索和假设检验,是数据分析和统计建模中的重要工具。

相关性分析的主要内容是计算变量之间的相关系数,主要的相关系数有如下三个:

皮尔逊相关系数(Pearson Correlation Coefficient):用于衡量两个连续变量之间的线性关系,值介于-1和1之间。值越接近1或-1,表示变量之间的线性关系越强;值接近0,表示几乎没有线性关系。

斯皮尔曼秩相关系数(Spearman's Rank Correlation Coefficient):用于衡量两个变量之间的单调关系,即使这种关系不是线性的。常用于处理不满足正态分布或包含异常值的数据。

肯德尔等级相关系数(Kendall's Tau):用于衡量两个变量之间的相关性,适合处理小样本数据或数据中存在相同值的情况。

至于如何选择合适的相关系数,可以通过下面这张流程图来进行判断↓

整体流程是,在做相关性分析前,先通过绘制散点图来直观感受一下数据是否有相关性,如果有相关性,再进行后续的操作,没有相关性就可以停止了。

第二步是看数据的类型,如果是连续变量,且样本量大于30;或者联系变量,样本量小于30,但符合正太分布。就选择皮尔逊相关系数,否则就选择另外两种的一个。

【如何判断相关程度】

主要有两大步骤,一是计算相关系数,相关系数的结果会在-1到1之间,如果0≤∣r∣<0.3,就认为两个变量之间不相关;如果0.3≤∣r∣<0.5,就认为两个变量之间存在弱相关;如果0.5≤∣r∣<0.8,就认为两个变量之间存在中度相关;如果0.8≤∣r∣<1就认为两个变量之间存在强相关关系。

上面的相关系数值是基于已有的样本值计算得到的,不能代表整体也是一样的相关性。所以第二步还需要做假设检验,只有通过了假设检验,才能认为我们前面计算出来的相关系数可以代表整体的相关系数。

【案例演示】

我们以工作中常见的广告/推广费用的投入与销售额之间的关系举例,正常情况下推广费用越多,对应的销售额应该就越大。于是我们抽取了25天的数据样本,来进行相关性分析,数据如下↓

因为是连续变量,但是样本数只有25,小于30个,所以我们需要对两个字段进行正态性检验,详细的可以参考《方差分析》里面的R和Python正态性检验,代码和结果如下↓

# 正态性检验
shapiro.test(data$advertising)
shapiro.test(data$sales)
Shapiro-Wilk normality test
data:  data$advertising
W = 0.96745, p-value = 0.5812


Shapiro-Wilk normality test
data:  data$sales
W = 0.96917, p-value = 0.624

结果都远大于0.05,符合正太分布。接下来就直接计算皮尔逊相关系数,代码和结果如下↓

correlation <- cor(data$advertising, data$sales)
correlation
[1] 0.9430218

结果是0.94,说明推广费用投入和销售额之间有非常强的正相关关系。为了对结果进行假设检验,我们需要对回归模型的参数进行统计检验,通常使用t检验来检验每个参数是否显著。

最后计算出来的p-value: 1.769e-12,通过检验。我们可以绘制图形来看在95%的置信区间下的相关走势图↓

plot <- ggplot(data, aes(x = advertising, y = sales)) +
  geom_point() +
  geom_smooth(method = "lm", se = TRUE, color = "blue", fill = "lightblue", level = 0.95) +
  labs(title = paste("广告支出与销售额的关系\n皮尔逊相关系数:", round(correlation, 2)),
       x = "广告支出",
       y = "销售额") +
  theme_minimal()

【斯皮尔曼秩相关系数】

最后再举一个斯皮尔曼秩相关系数的案例,是员工工作年限和他们工作满意度的评分,假设评分分数是1-10分之间,数据如下↓

n <- 25
work_years <- runif(n, min = 1, max = 30)  
satisfaction <- 10 - 0.2 * work_years + rnorm(n, mean = 0, sd = 1.5)  
satisfaction <- ifelse(satisfaction < 1, 1, satisfaction)
satisfaction <- ifelsesatisfaction> 10, 10, satisfaction)
data <- data.frame(work_years, satisfaction)

然后直接进行分析,代码和结果如下↓

# 斯皮尔曼秩相关系数
spearman_correlation <- cor(data$work_years, data$satisfaction, method = "spearman")
> spearman_correlation
[1] -0.7569231


结果是-0.756,说明工作时间越长,对工作的满意度就越低。这个结果我们还不能直接拿来使用,还需要做假设检验↓

# 相关性显著性检验
spearman_test <- cor.test(data$work_years, data$satisfaction, method = "spearman")
data:  data$work_years and data$satisfaction
S = 4568, p-value = 1.975e-05
alternative hypothesis: true rho is not equal to 0
sample estimates:
       rho 
-0.7569231


结果也很完美,通过了检验。最后我们来绘制一下相关的图像↓

plot <- ggplot(data, aes(x = work_years, y = satisfaction)) +
  geom_point() +
  geom_smooth(method = "loess", se = TRUE, color = "blue", fill = "lightblue") +
  labs(title = paste("员工工作年限与工作满意度的关系\n斯皮尔曼秩相关系数:", round(spearman_correlation, 2)),
       x = "工作年限 (年)",
       y = "工作满意度评分") +
  theme_minimal()

链接是我使用PowerBI整合的历史文章,按类型分类,可以根据需求查询:Microsoft Power BI↓

https://app.powerbi.com/view?r=eyJrIjoiNjI2NWQ3NjktYjU0ZC00ZWZhLTgzMDgtMGI4ZTk1ZDlkODM3IiwidCI6IjI3NDQ3MWQ0LTM4ZDQtNDVlZS1hMmJkLWU1NTVhOTBkYzM4NiJ9

End

相关推荐

Python爬虫进阶教程(二):线程、协程

简介线程线程也叫轻量级进程,它是一个基本的CPU执行单元,也是程序执行过程中的最小单元,由线程ID、程序计数器、寄存器集合和堆栈共同组成。线程的引入减小了程序并发执行时的开销,提高了操作系统的并发性能...

A320-V2500发动机系统FADEC介绍(2)

目的全权数字发动机控制(FADEC)系统在所有飞行和运行阶段提供全范围发动机控制。...

三国志战棋版:玩家“二叔”用这套群DOT在比武中拿下31胜5负

声明:本文首发于今日头条,而后发布于“鼎叔闯三棋”的微信公众号、抖音、哔哩哔哩和小红书平台,如果在其他平台就是抄袭。...

真正的独一无二:Dot One 推出 DNA 定制系列 139英镑起

相信很多人在挑选衣物时有着这样的困扰,综合了性价比、面料等因素后好不容易找到了心仪的款式,还要担心是否会撞衫,不管是擦肩而过的陌生人还是身边的熟人,都令人尴尬。小部分人为此热衷于购买少量的古着或者限量...

崩铁:周年庆福利再升级,老角色加强时间确定,3.xdot体系反转

#埃安UT大一圈高级很多#...

Dotgo推出RBMHub,扩大了CPaaS提供商的覆盖范围和功能

据telecompaper网7月15日报道,用于商业消息传递的RichCommunicationServices(RCS)解决方案的领先提供商Dotgo宣布推出RBMHub。RBMHub的推出扩大了C...

深度解析:快照取消Dot职业的将何去何从

写在前面曾几何时,术士的出现便被冠以dot大师的名头,从远古时期的献祭腐蚀虹吸不如暗牧一个痛,到TBC上满dot=荣誉击杀+1,到wlk接近全暴击的冰晶腐蚀,再到CTM就算了吧MOP的各种变态吸x放...

星穹铁道:抽卡芙卡之前,你必须了解什么是dot!

卡妈终于上线了,可还是有很多人不明白什么是dot伤害,抽了卡妈直接玩起了直伤流,把一个持续伤害的引爆器玩成了打手,卡妈打dot伤害是远高于直伤的,有了卡妈的玩家一直了解dot,不然这卡妈就真被玩成四不...

游戏界的闪耀星辰陨落:悼念知名游戏博主″dotα牛娃″

无尽哀思!在数字时代浪潮中,游戏不仅是消遣娱乐的代名词,更是连接心灵的桥梁,构筑了无数人的青春回忆。在这片浩瀚无垠的游戏宇宙中,有这样一位博主,他以独特的风采、深邃的洞察力和无尽的热情,成为了玩家心中...

直击2017新加坡同性恋聚会Pink Dot,自由爱!

今年的“粉红点”又来啦~这个支持LGBT群体(男女同志、双性恋、跨性别等)群体的活动,从2009年起,已经在新加坡举办8年了!”这个非营利的同性恋权益活动,主要是希望大家了解到,不管一个人的性倾向或...

python-dotenv,一款超级实用处理环境变量python库

python-dotenv,一款超级实用处理环境变量python库python-dotenv概述:...

亚马逊语音助手毫无征兆发笑 诡异至极吓坏用户

来源:新华网美国电商亚马逊7日承诺,将更改名下“亚历克萨”语音系统设置,令它不会莫名发笑,免得吓坏用户。“亚历克萨”是亚马逊开发的语音助手软件,可服从用户语音指令完成对话、播放音乐等任务。依照原来设计...

2022最火英文网名男女生

精选好听英文昵称带翻译1.moveon(离开)2.Monster(怪物)3.Solo吉他手4.Finish.(散场)...

智能家具 RecycleDot 的出现给传统家具厂商带来新的挑战

从可穿戴手环、手表到智能衣服,智能硬件逐步渗透到每一个领域。最近有一对父子MikeSandru和JohnSandru在自家的车库中设计了一款智能家具RecycleDot,给日渐萧条的家具行...

欧洲通信卫星公司 OneWeb 敦促印度DoT尽早批准提供卫星宽带服务

据telecomtalk2月17日报道,欧洲通信卫星公司EutelsatOneWeb近日敦促印度电信部(DoT)尽快批准其在印度部署双地球站网关的计划,以便连接其近地轨道(LEO)全球卫星星座,并...