교차 분석(Cross Table)

교차분석(Cross table)(또는 교차표 분석, Chi-square test of independence)은 두 범주형 변수 간의 독립성을 평가하는 데 사용되는 통계적 기법입니다. 이 방법은 각 변수의 범주 조합에 따른 빈도수를 배열한 교차표를 기반으로, 관찰된 빈도와 기대된 빈도 간의 차이를 계산하여 두 변수 간의 관계가 우연에 의한 것(독립성)인지 아닌지를 판단합니다.

\(\)

카이제곱 분포와 교차분석

카이제곱 분포(Chi-square distribution)는 교차분석에서 사용되는 분포로, 관찰된 데이터가 기대된 데이터와 얼마나 다른지를 측정하는 데 사용됩니다. 교차분석에서 카이제곱 검정 통계량(χ²)은 다음과 같이 계산됩니다.

\[ \chi^2 = \sum \frac{(O_i – E_i)^2}{E_i} \]

여기서:

  • \( O_i \)는 관찰된 빈도(observed frequency)
  • \( E_i \)는 기대된 빈도(expected frequency)

교차분석의 절차

  1. 가설 설정:
  • 귀무가설( \( H_0 \) ): 두 변수는 독립적이다.
  • 대립가설(\(H_1\)): 두 변수는 독립적이지 않다.

교차표 작성:

    • 두 변수의 범주 조합에 따른 빈도를 정리한 표를 작성합니다.

    기대 빈도 계산:

      • 각 셀의 기대 빈도는 행의 총합과 열의 총합을 곱하고 전체 표의 총합으로 나누어 계산합니다.
      • \( E_{ij} = \frac{(행 합계_i) \times (열 합계_j)}{전체 합계} \)

      카이제곱 검정 통계량 계산:

        • 각 셀에 대해 관찰된 빈도와 기대된 빈도의 차이를 제곱하고 기대된 빈도로 나누어 모두 합산합니다.

        p-값 계산 및 결과 해석:

          • 카이제곱 검정 통계량과 자유도를 사용하여 p-값을 계산합니다.
          • p-값이 유의수준(일반적으로 0.05)보다 작으면 귀무가설을 기각하고, 두 변수는 독립적이지 않다고 결론 내립니다.

          예시

          다음은 예제 데이터를 사용한 교차분석 절차를 R 코드를 통해 설명합니다.

          예시 데이터

          # 예시 데이터 생성
          data <- matrix(c(10, 20, 30, 40, 50, 60), nrow = 2, byrow = TRUE)
          colnames(data) <- c("A", "B", "C")
          rownames(data) <- c("X", "Y")
          data

          R에서 교차분석 수행

          # 카이제곱 검정 수행
          chisq_test <- chisq.test(data)
          
          # 결과 출력
          print(chisq_test)

          결과 해석

          # 카이제곱 검정 통계량, 자유도, p-값 출력
          chisq_test$statistic
          chisq_test$parameter
          chisq_test$p.value

          설명

          1. 데이터 준비: 교차표 형태로 데이터를 준비합니다.
          2. 카이제곱 검정 수행: chisq.test 함수를 사용하여 카이제곱 검정을 수행합니다.
          3. 결과 해석: 검정 통계량(χ²), 자유도(df), p-값을 확인하여 두 변수 간의 독립성을 평가합니다.

          이와 같이 교차분석을 통해 두 범주형 변수 간의 관계를 평가할 수 있으며, 카이제곱 분포를 사용하여 결과의 유의성을 판단할 수 있습니다.