본문으로 이동

분산

위키백과, 우리 모두의 백과사전.

평균은 같지만 분산은 다른 두 확률 분포. 빨간색 분포는 100의 평균값과 100의 분산값을 가지고, 파란색 분포는 100의 확률값과 2500의 분산값을 가진다. SD는 표준편차를 의미한다.

확률론통계학에서 어떤 확률변수분산(分散, 영어: variance,)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.[1] 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산은 표본 평균이나 분산의 제곱근표준편차와 보다 밀접한 관련이 있다.

분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

모분산(population variance) σ2모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.

표본분산(sample variance) s2표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.

정의

[편집]

확률변수 의 분산은 의 기댓값 로부터 확률변수가 얼마나 떨어져있는지 그 정도를 제곱한 것의 기댓값과 같다. 이를 수식으로 나타내면 다음과 같다.

이를 기댓값에 대해 확장해보면 다음과 같이 정리할 수 있다.

따라서 확률변수 의 분산은 제곱의 기댓값에서 기댓값의 제곱을 뺀 것과 같다. 이 방식을 통해 어떤 확률변수의 분산을 간단하게 계산할 수 있다. 다만 부동소수점 연산에서는 이러한 방식을 사용하면 정확한 값을 얻지 못할 수도 있다.

이 정의는 이산확률변수, 연속확률변수, 칸토어 분포 등 모든 꼴의 확률분포에 적용된다. 분산은 공분산을 사용해 다음과 같이 나타내기도 한다.

분산은 보통 또는 , 혹은 간단히 으로 표현한다. 표준편차를 가리킨다.[1]

이산확률변수에서

[편집]

만일 확률 변수 의 생성 원리가 확률 질량 함수를 따르는 이산확률분포라면, 분산은 다음과 같이 정의할 수 있다.

이와 다음의 식은 동치이다.

이 때 는 기댓값을 의미한다. 이 가중 산술 평균에 사용되는 가중치 p의 합이 1이 아니라고 한다면, 각 가중치를 총 가중치 합으로 나누어 확률과 같은 성격을 가지게 조정해야 한다.

번의 동일한 측정을 통해 얻은 데이터에서 분산은 다음과 같이 나타낼 수 있다.

여기서 는 평균값을 의미한다. 이를 풀어서 쓰면 다음과 같다.[2]

완전연속확률변수에서

[편집]

만일 확률 변수 의 생성 원리가 확률 밀도 함수 누적 분포 함수 를 따르는 연속확률분포라면, 분산은 다음과 같이 구할 수 있다.

이는 확률 밀도 함수 를 이용해 다음과 같이 적을 수 있다.

여기서 는 확률 변수 의 기댓값이다.

여기서 에 대한 적분은 르베그 적분을, 에 대한 적분은 르베그-스틸티어스 적분을 의미한다.

만일 가 모든 폐구간 에서 리만 적분 가능한 함수라면 분산은 이상 적분을 통해 다음과 같이 서술할 수 있다.

성질

[편집]

기본적인 성질

[편집]

어떤 실수의 제곱은 0 이상이므로 분산은 항상 0 이상의 값을 가진다.

상수 하나로 이루어진 변수는 평균이 모든 항목의 값과 동일하므로 0의 분산을 가진다.

이 역도 성립하여, 만일 어떤 확률변수 에 해당하는 분산값이 0이라면 그 확률 변수는 늘 상숫값을 출력한다.

전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.

두 확률변수를 더하여 만든 새로운 확률 변수의 분산은 다음과 같이 나타낼 수 있다.

이 때 XY공분산을 나타낸다. 이를 N개의 확률변수 의 경우에 대해 일반화하면 다음과 같이 쓸 수 있다.

만일 확률 변수 가 서로 비상관관계라면 다음의 성질을 만족한다.

이는 곧 다음을 의미한다.

상호 독립적인 확률변수들은 항상 비상관관계에 놓여있기 때문에 위의 식은 확률 변수 가 서로 독립적인 경우에도 적용 가능하다. 이처럼 독립적인 확률 변수의 합의 분산이 각각의 분산의 합과 같다는 성질 때문에 분포를 표현할 때 분산을 유용하게 사용할 수 있다.

분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다.

통계적 추정

[편집]

표본 분산

[편집]

모집단의 분산은 로 나타내고, 표본의 분산은 로 나타낸다. 은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 Y가 가지는 모집단 분산의 추정치인 표본 분산 는 다음과 같다.

: 표본 분산
: 변인
: 표본의 평균
: 표본의 크기
: 편차들의 제곱합
: 자유도

분모를 n-1로 나누는 이유는 분산을 계산할 때 모평균이 아닌 표본 평균을 사용했기 때문에 모집단의 편의 추정량(biased estimator)이 되므로, 분산이 불편 추정량(unbiased estimator)이 되도록 하기 위해서이다.[1]

모 분산

[편집]
모집단의 분산(모 분산)
: 변인
: 모집단의 평균
: 표본의 크기

표준 편차

[편집]

모집단의 모분산으로부터 편차 단위를 얻기위해 제곱근함으로써 모집단 표준 편차 를 얻을수있다.

표본집단의 표본분산 으로부터 편차 단위를 얻기위해 제곱근함으로써 표본 표준 편차 를 얻을수있다.

컴퓨팅

[편집]

컴퓨터 프로그램의 대표적인 경우에서 스프레드시트는 var() 함수로 결과값을 기본적으로는 간단히 처리할 수 있다.

같이 보기

[편집]

각주

[편집]
  1. 이재기; 최석근; 박경식; 정성혁 (2013). 《측량학1》 2판. 형설출판사. 76쪽. 
  2. Yuli Zhang, Huaiyu Wu, Lei Cheng (June 2012). 《Some new deformation formulas about variance and covariance》. Proceedings of 4th International Conference on Modelling, Identification and Control(ICMIC2012). 987–992쪽.