
교차분석(Cross table)(또는 교차표 분석, Chi-square test of independence)은 두 범주형 변수 간의 독립성을 평가하는 데 사용되는 통계적 기법입니다. 이 방법은 각 변수의 범주 조합에 따른 빈도수를 배열한 교차표를 기반으로, 관찰된 빈도와 기대된 빈도 간의 차이를 계산하여 두 변수 간의 관계가 우연에 의한 것(독립성)인지 아닌지를 판단합니다.
카이제곱 분포와 교차분석
카이제곱 분포(Chi-square distribution)는 교차분석에서 사용되는 분포로, 관찰된 데이터가 기대된 데이터와 얼마나 다른지를 측정하는 데 사용됩니다. 교차분석에서 카이제곱 검정 통계량(χ²)은 다음과 같이 계산됩니다.
\[ \chi^2 = \sum \frac{(O_i – E_i)^2}{E_i} \]
여기서:
- \( O_i \)는 관찰된 빈도(observed frequency)
- \( E_i \)는 기대된 빈도(expected frequency)
교차분석의 절차
- 가설 설정:
- 귀무가설( \( H_0 \) ): 두 변수는 독립적이다.
- 대립가설(\(H_1\)): 두 변수는 독립적이지 않다.
교차표 작성:
- 두 변수의 범주 조합에 따른 빈도를 정리한 표를 작성합니다.
기대 빈도 계산:
- 각 셀의 기대 빈도는 행의 총합과 열의 총합을 곱하고 전체 표의 총합으로 나누어 계산합니다.
- \( E_{ij} = \frac{(행 합계_i) \times (열 합계_j)}{전체 합계} \)
카이제곱 검정 통계량 계산:
- 각 셀에 대해 관찰된 빈도와 기대된 빈도의 차이를 제곱하고 기대된 빈도로 나누어 모두 합산합니다.
p-값 계산 및 결과 해석:
- 카이제곱 검정 통계량과 자유도를 사용하여 p-값을 계산합니다.
- p-값이 유의수준(일반적으로 0.05)보다 작으면 귀무가설을 기각하고, 두 변수는 독립적이지 않다고 결론 내립니다.
예시
다음은 예제 데이터를 사용한 교차분석 절차를 R 코드를 통해 설명합니다.
예시 데이터
# 예시 데이터 생성
data <- matrix(c(10, 20, 30, 40, 50, 60), nrow = 2, byrow = TRUE)
colnames(data) <- c("A", "B", "C")
rownames(data) <- c("X", "Y")
data
R에서 교차분석 수행
# 카이제곱 검정 수행
chisq_test <- chisq.test(data)
# 결과 출력
print(chisq_test)
결과 해석
# 카이제곱 검정 통계량, 자유도, p-값 출력
chisq_test$statistic
chisq_test$parameter
chisq_test$p.value
설명
- 데이터 준비: 교차표 형태로 데이터를 준비합니다.
- 카이제곱 검정 수행:
chisq.test
함수를 사용하여 카이제곱 검정을 수행합니다. - 결과 해석: 검정 통계량(χ²), 자유도(df), p-값을 확인하여 두 변수 간의 독립성을 평가합니다.
이와 같이 교차분석을 통해 두 범주형 변수 간의 관계를 평가할 수 있으며, 카이제곱 분포를 사용하여 결과의 유의성을 판단할 수 있습니다.