본문 바로가기
IT

[R] 분산 - var함수와 직접 수식 계산에서 오차가 나는 이유

by 배애앰이 좋아 2020. 4. 20.
반응형

분산이란?

확률론과 통계학에서 어떤 확률변수의 분산(分散, 영어: variance, 변량 )은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. (출처 : 위키백과)

 

 

위에 보다싶이 평균에서의 오차를 저장한 rc_sd 를 이용하여 sum((rc_sd)^2/length(rc_sd))으로 수식 계산한 결과와 R 함수에서 제공하는 분산 함수 var()의 결과 104.5831 / 107.0742 로 미세한 차이가 나는 것을 확인할 수 있습니다. 왜 이러한 분산의 계산에서 수식 계산과 var 함수 계산에서 오차가 나는 이유는?


바로, 분산을 구하기 위해 사용하는 식에서 분모를 n으로 사용하지만,  R 함수가 구한 분산의 분모는 n이 아닌 n-1(표본의 개수 -1)이기 때문에 수식 계산과 var 함수 계산에서 오차가 납니다.

 

그렇기 때문에 동일한 결과 값을 갖기 해서는 수식의 계산에서 sum((rc_sd)^2/length(rc_sd)) 를 sum((rc_sd)^2/(length(rc_sd)-1)) 으로 수정해서 계산하며 위의 이미지와 같이 var() 함수를 이용한 분산 값과 동일한 값을 가지는 것을 볼 수 있다.

반응형

댓글