논문쓰고 깝죽거리는 대학원생 게이들을 위한 연구방법론 정보글 시리즈.
회귀식이 분산을 "설명" 한다는 것이 무슨 뜻인가?
를 아라보자.
통계방법론을 공부하다 보면 회귀분석이나 ANOVA쯤 가서 "회귀식이 xxxx의 분산을 설명한다" 와 같은 식의 표현을 마주치게 된다.
그런데 회귀식이나 ANOVA는 그냥 통계적 절차 또는 모형일 뿐인데, 이게 분산을 "설명"한다니 대체 무슨 뜻일까?
처음에는 잘 납득이 가지 않는 표현이다.
그런데 이 개념을 제대로 숙지하는 것은 사실 회귀분석과 ANOVA를 이해하는 데 있어서 매우 중요하다.
그래서 이 정보글에서는 이것이 의미하는 것이 대체 무엇인지 좀 설명을 하고자 한다.
예측을 위해 회귀모형을 만든다고 가정해 보자. 아무런 설명변수 (또는 독립변수) 가 없을 때는 자료별로 차별화된 예측을 내놓을 수 없기 때문에, 모든 자료(종속변수)에 대해 똑같은 예측값을 내놓을 수밖에 없다.
그리고 이런 상황에서 그나마 최선의 예측값은 바로 표본평균이다.
표본평균만으로 자료를 예측하는 모형을 통계학에서는 영모형 null model 이라고 한다. [1] 영모형은 정의상 모든 자료에 대해 똑같은 예측값을 내놓기 때문에, 예측은 대체로 꽤 빗나가게 마련이다. 이를테면 다음과 같은 자료가 있다고 해 보자
1, 1, 0, 0
이 자료에 영모형을 적용하면, 표본평균인 0.5를 가지고 모든 자료를 예측하게 된다. 이로 인해 발생하는 오차를 모두 제곱해 더한 것, 즉 sum of squares는 다음과 같이 구할 수 있다:
(1-0.5)^2 + (1-0.5)^2 + (0-0.5)^2 + (0-0.5)^2 = 0.25 + 0.25 + 0.25 + 0.25 = 1 [2]
이 sum of squares를 (n-1) 로 나누면 표본분산, 즉 1/3을 얻는데 여기서 우리는 (표본)분산에 대한 조금 다른 해석을 얻는다.
즉, 분산은 자료의 변산성을 나타내는 지표일 뿐 아니라, 영모형을 이용하여, 즉 "표본평균"이라는 값을 사용해서 개별 값을 예측했을 때 우리가 얻는 일종의 "총 오차"라고 해석할 수 있지..
이제 조금 다른 상황을 생각하여, 우리가 앞의 자료가 어느 "집단"에서 왔는지 안다고 쳐 보자이기야..
그니까 다음과 같은 상황을 생각해 보자
집단 1: 1, 1
집단 2: 0, 0
이제 우리는 원 자료의 앞의 두 숫자와 뒤의 두 숫자 사이의 차이가 집단에 의한 차이임을 알았다.
여기서 집단에 의한 "효과"는 1이다. 이를 보정하기 위해 집단 1의 자료에서 집단에 의한 효과를 빼 주면 다음을 얻는다:
집단 1: 0, 0
집단 2: 0, 0
이제 네 숫자는 같아졌다.
이 자료, 즉 (0, 0, 0, 0) 이라는 자료에서 분산을 계산하면 얼마가 나올까?
그렇다, 당연히 0이다. 왜냐면 자료에 변산성이 전혀 없기 때문이다. 근데 이것은 다음과 같이 해석할 수 이찌..
앙? 원 자료에서 "집단"이라는 변수를 고려하여 자료를 보정하였더니, 원 자료에 있었던 변산성이 모두 사라졌네?
다시 말해 100%의 분산이 전부 "집단 간 차이"를 고려함으로써 사라졌다는 말이다.
그런데 사실 이 상황은 다음과 같은 회귀식으로 나타낼 수 있다:
Y_i = X_i, X_i=1 if i=1,2, X_i=0 if i=3,4
이 회귀식을 적용하여 각각의 Y_i에 대해 예측했더니, 원래의 분산인 1 중 1이 "띄용? 사라졌땅?". 이런 의미에서 이 회귀식은 원 자료의 분산을 100% "설명한다".
여기서 "설명"한다는 말의 뜻은 지금까지 봤다시피, 회귀식에 따라 예측을 보정하였더니 영모형을 적용했을 때 발생한 분산 중 100%만큼 "줄어들었다"라는 것이다.
다시 말해, "분산이 설명된다" 라는 말은 회귀식(또는 ANOVA 모형)을 사용하여 각 자료에 대해 예측했을 때, 그냥 표본평균을 사용하는 경우에 비해 XX%만큼의 총 오차 (또는 분산) 가 줄어든다는 의미로 해석할 수 있다는 것이다이기야
이제 아주 약간 더 현실적인 경우를 생각해보자.
다음과 같은 자료를 생각해봐라 :
집단 1: 1.5, 0.5
집단 2: 0.5, -0.5
이 자료의 분산은 집단을 무시하는 영모형을 적용했을 때 2/3이다.
이제 다시 집단을 고려하는 경우를 생각해 보자.
이번에도 집단 1의 평균은 1, 집단 2의 평균은 0이다.
이 차이를 '고려'하여 자료를 보정해 보자이기.
다시 말해 각 숫자에서 각 집단의 평균을 빼 보자:
집단 1: 0.5, -0.5
집단 2: 0.5, -0.5
이제 이 새로운 자료(0.5, -0.5, 0.5, -0.5)의 분산을 구해보면 1/3이다.
집단을 뭉개고 그냥 분산을 구한 영모형의 경우에 비해 1/3만큼의 분산이 줄었고, 이것은 원 분산의 50%에 해당하는 양이다. [3]
따라서 이 회귀모형 - "집단"을 예측변수로 넣은 - 이 설명하는 분산의 양은 50%이다.
그리고 이것이 의미하는 바는, 집단을 고려하여 각 자료를 예측했을 때, 그렇지 않은 경우에 비해 총 오차(sum of squares 또는 분산)가 50%만큼 줄어들었다는 의미다.
지금까지 회귀식이 자료의 분산을 "몇 %만큼 설명"한다는 것이 무슨 의미인가 살펴보았다.
사례를 통해 봤듯이, 이것은 회귀식을 사용하여 각각의 자료를 예측했을 때, 영모형에서 표본평균만을 이용하여 예측하는 것에 비해 총 오차가 얼마나 줄어드는지를 나타낸 것이다.
회귀식이 유의한지, 또는 개별 회귀계수가 유의한지는 이렇게 줄어든 오차(분산)가 통계적으로 유의할 정도로 큰지를 알아보는 절차이며, 이를 위해 사용되는 절차가 바로 F-test 다. 이것에 대한 설명은 이 글에서는 하지 않도록 하게따. [4]
https://people.richland.edu/james/ictcm/2004/weight.html
사실 내가 지금까지 횡설수설 씨부린 내용들은 이 그림 한 방으로 전부 정리할 수 있다
----------------
[1] 사실 표본평균은 아무런 predictor도 넣지 않고 절편 intercept 만을 가지고 회귀식을 돌렸을 때 나오는 절편의 추정치와 완전히 동일함.
이것을 R에서 구현한다면 lm(y ~ 1) 과 같다. 그래서 표본평균은 intercept-only model, 즉 null model의 추정치가 됨.
[2] 이것을 total sum of squares 라고도 부른다
[3] 여기서 줄어든 분산을 model sum of squares, 또는 ANOVA의 맥락에서는 between-group variance 라고도 함. 그리고 집단 간 차이를 보정하고 나서도 여전히 남아있는 집단 내의 변산성을 within-group variance라고 부르기도 한다. 전자의 후자에 대한 비율이 바로 F-statistic이다. 개념적으로 이것은 (모델이 설명할 수 있는 분산) / (모델이 설명할 수 없는 분산) 이다. 그래서 F-statistic의 값이 클수록 모델의 설명력이 좋고, 따라서 유의하다는 것임.
[4] ANOVA, 즉 analysis of variance가 왜 그런 이름이 붙었는지 이제 좀 감이 오노 이기야?
댓글 없음:
댓글 쓰기