교차 분석(Cross Table)

교차분석(Cross table)(또는 교차표 분석, Chi-square test of independence)은 두 범주형 변수 간의 독립성을 평가하는 데 사용되는 통계적 기법입니다. 이 방법은 각 변수의 범주 조합에 따른 빈도수를 배열한 교차표를 기반으로, 관찰된 빈도와 기대된 빈도 간의 차이를 계산하여 두 변수 간의 관계가 우연에 의한 것(독립성)인지 아닌지를 판단합니다.

\(\)

카이제곱 분포와 교차분석

카이제곱 분포(Chi-square distribution)는 교차분석에서 사용되는 분포로, 관찰된 데이터가 기대된 데이터와 얼마나 다른지를 측정하는 데 사용됩니다. 교차분석에서 카이제곱 검정 통계량(χ²)은 다음과 같이 계산됩니다.

\[ \chi^2 = \sum \frac{(O_i – E_i)^2}{E_i} \]

여기서:

\( O_i \)는 관찰된 빈도(observed frequency)
\( E_i \)는 기대된 빈도(expected frequency)

교차분석의 절차

가설 설정:

귀무가설( \( H_0 \) ): 두 변수는 독립적이다.
대립가설(\(H_1\)): 두 변수는 독립적이지 않다.

교차표 작성:

두 변수의 범주 조합에 따른 빈도를 정리한 표를 작성합니다.

기대 빈도 계산:

각 셀의 기대 빈도는 행의 총합과 열의 총합을 곱하고 전체 표의 총합으로 나누어 계산합니다.
\( E_{ij} = \frac{(행 합계_i) \times (열 합계_j)}{전체 합계} \)

카이제곱 검정 통계량 계산:

각 셀에 대해 관찰된 빈도와 기대된 빈도의 차이를 제곱하고 기대된 빈도로 나누어 모두 합산합니다.

p-값 계산 및 결과 해석:

카이제곱 검정 통계량과 자유도를 사용하여 p-값을 계산합니다.
p-값이 유의수준(일반적으로 0.05)보다 작으면 귀무가설을 기각하고, 두 변수는 독립적이지 않다고 결론 내립니다.

예시

다음은 예제 데이터를 사용한 교차분석 절차를 R 코드를 통해 설명합니다.

예시 데이터

# 예시 데이터 생성
data <- matrix(c(10, 20, 30, 40, 50, 60), nrow = 2, byrow = TRUE)
colnames(data) <- c("A", "B", "C")
rownames(data) <- c("X", "Y")
data

R에서 교차분석 수행

# 카이제곱 검정 수행
chisq_test <- chisq.test(data)

# 결과 출력
print(chisq_test)

결과 해석

# 카이제곱 검정 통계량, 자유도, p-값 출력
chisq_test$statistic
chisq_test$parameter
chisq_test$p.value

설명

데이터 준비: 교차표 형태로 데이터를 준비합니다.
카이제곱 검정 수행: chisq.test 함수를 사용하여 카이제곱 검정을 수행합니다.
결과 해석: 검정 통계량(χ²), 자유도(df), p-값을 확인하여 두 변수 간의 독립성을 평가합니다.

이와 같이 교차분석을 통해 두 범주형 변수 간의 관계를 평가할 수 있으며, 카이제곱 분포를 사용하여 결과의 유의성을 판단할 수 있습니다.