본문 바로가기
데이터사이언티스트 Data Scientist

요인 분석(Factor Analysis), 그리고 분석 절차

by 루시달 2024. 11. 6.

 요인이란?

  • *요인(Factor)은 데이터에 내재된 *잠재적 구조(latent structure)를 설명하는 변수들의 조합입니다.
  • 요인 분석의 목표는 여러 변수의 분산을 몇 개의 요인으로 요약하여 데이터의 차원을 축소하고, 공통된 패턴을 발견하는 것입니다.

 

 

더보기

요인(Factor)은 관찰된 여러 변수들 간의 공통된 패턴이나 *잠재적 구조(latent structure)를 설명하는 숨겨진 변수입니다.

  • 잠재적 구조(latent structure):
    • 관찰되지 않지만, 여러 변수에 걸쳐 존재하는 공통적인 특성.
    • 예를 들어, "스트레스"라는 잠재적 특성은 여러 관찰 변수(수면 시간, 집중력, 식습관 등)에 영향을 미칠 수 있습니다.

✳️ 요인 분석의 목표

요인 분석의 목표여러 변수들 간의 관계를 분석하여 몇 개의 잠재적 요인으로 데이터의 복잡성을 줄이는 것입니다.

예시:

  • 설문조사에서 10개의 질문이 있다고 가정합니다.
    • Q1: "나는 하루 종일 피곤하다."
    • Q2: "나는 스트레스가 많다."
    • Q3: "나는 잘 잔다."
    • Q4: "나는 집중력이 낮다."
    • ...

이 질문들은 모두 서로 관련이 있을 수 있습니다. 이를 요인 분석을 통해 분석하면:

  • 요인 1 (스트레스 요인): Q1, Q2, Q4와 강한 관련성.
  • 요인 2 (수면 요인): Q3와 강한 관련성.

즉, 10개의 변수를 2개의 요인(스트레스, 수면)으로 축약하여 데이터의 복잡성을 줄이면서도, 데이터의 핵심적인 패턴을 설명할 수 있습니다.

 

✳️ 차원 축소란?

차원 축소는 데이터를 더 간단하게 표현하는 과정입니다.

  • 관찰 변수(Observed Variables):
    • 설문조사 문항, 시험 점수, 매출 데이터 등 우리가 측정할 수 있는 데이터.
  • 잠재 변수(Latent Variables, 요인):
    • 직접적으로 관찰할 수는 없지만, 여러 관찰 변수들 간의 관계를 설명하는 공통된 요인.

요인 분석은 여러 관찰 변수들의 분산을 하나의 잠재 요인으로 설명하여 데이터의 차원을 줄이는 기법입니다.

 

✳️  요인의 예시

다음과 같은 데이터가 있다고 가정합시다:


Variable 설명
수면 시간 하루 평균 수면 시간 (시간)
에너지 수준 하루 에너지 수준 (1-10점 척도)
스트레스 수준 하루 스트레스 수준 (1-10점 척도)
집중력 하루 집중력 (1-10점 척도)

이 데이터는 수면스트레스라는 두 가지 잠재 요인에 의해 설명될 수 있습니다.

  • 요인 1: 스트레스 요인
    • 스트레스 수준, 집중력과 강한 상관관계.
  • 요인 2: 수면 요인
    • 수면 시간, 에너지 수준과 강한 상관관계.

즉, 4개의 관찰 변수를 2개의 요인으로 요약할 수 있습니다.

 

✳️ 왜 요인 분석을 사용할까?

  • 데이터의 복잡성 감소:
    • 많은 변수들을 소수의 요인으로 요약.
    • 데이터 해석이 용이해짐.
  • 잠재적 특성 발견:
    • 데이터에 내재된 숨겨진 구조를 파악.
    • 예: 심리학에서 "성격 요인" 분석, 마케팅에서 "소비자 행동 요인" 발견.

3. 요인이 분산을 설명한다는 의미

  • 요인은 원래 데이터의 여러 변수에서 발생하는 분산(변동성)의 일부를 설명합니다.
  • 설명된 분산의 비율은 요인이 데이터의 구조를 얼마나 잘 요약하는지를 나타냅니다.

요인 분석에서의 분산 설명 과정:

  1. 각 요인의 고유값(Eigenvalue):
    • 고유값은 해당 요인이 데이터의 총 분산에서 차지하는 크기를 나타냅니다.
    • 고유값이 높을수록 그 요인이 더 많은 변동성을 설명한다는 의미입니다.
  2. 설명된 분산 비율(Proportion of Variance):
    • 각 요인이 데이터의 총 분산에서 몇 퍼센트를 설명하는지 나타냅니다.
    • 예: 첫 번째 요인이 데이터의 총 분산의 40%를 설명한다면, 이 요인이 데이터의 주요 변동성을 요약하고 있다고 해석할 수 있습니다.
  3. 누적 분산 비율(Cumulative Variance):
    • 여러 요인이 설명하는 총 분산의 누적 비율.
    • 예를 들어, 첫 번째와 두 번째 요인이 합쳐서 70%의 분산을 설명한다면, 이 두 요인만으로도 데이터의 대부분을 설명할 수 있다는 의미입니다.

4. 예시

*상관 행렬의 고유값(Eigenvalue)이 다음과 같다고 가정:

요인 고유값(Eigenvalue) 설명된 분산 비율 (%) 누적 설명된 분산 비율 (%)
Factor 1 3.5 35% 35%
Factor 2 2.5 25% 60%
Factor 3 1.5 15% 75%
Factor 4 0.8 8% 83%
  • Factor 1:
    • 첫 번째 요인이 데이터의 총 분산의 35%를 설명.
  • Factor 1 + Factor 2:
    • 두 요인을 합하면 60%의 분산을 설명.
    • 데이터의 절반 이상이 이 두 요인으로 설명되므로, 이 두 요인이 데이터의 주요 구조를 요약한다고 볼 수 있음.
  • Factor 4:
    • 고유값이 1 미만이므로 설명력이 낮아 제외 가능.

5. 실질적인 의미

  • 분산 설명 비율이 높다는 것은:
    • 해당 요인이 데이터의 주요 패턴을 잘 포착하고 있다는 의미.
    • 적은 수의 요인으로 데이터의 대부분을 요약할 수 있음.
  • 분산 설명 비율이 낮다는 것은:
    • 해당 요인이 데이터의 중요한 변동성을 포착하지 못한다는 의미.

요약

  • "요인이 분산을 설명한다"는 말은 각 요인이 데이터의 변동성(분산)을 얼마나 잘 요약하고 있는지를 나타냅니다.
  • 주요 요인은 데이터의 구조적 패턴을 잘 포착하며, 설명된 분산 비율을 통해 각 요인의 중요성을 평가할 수 있습니다.

 

요인 분석(Factor Analysis)은 다단계로 이루어지며, 각 단계에서 데이터의 적합성과 결과 해석을 검토합니다.

[요인 분석 절차]

1. 데이터 준비

  • 데이터 수집: 수치형 변수만 사용됩니다.
  • 결측치 처리: 결측치는 제거하거나 적절히 대체해야 합니다.
  • 표준화(선택적): 변수들의 스케일이 다를 경우, 표준화(Z-점수 변환)를 적용하여 분석의 정확성을 높입니다.

2. 데이터의 요인 분석 적합성 검정

요인 분석을 수행하기 전에 데이터가 적합한지 두 가지 검정을 통해 확인합니다:

  • KMO Test (Kaiser-Meyer-Olkin Test):
    • 변수 간의 부분 상관이 낮고 요인 분석이 적합한지 확인.
    • 결과 해석: 0.6 이상이면 적합.
  • Bartlett’s Test of Sphericity:
    • 변수 간 상관 행렬이 단위 행렬인지 검정.
    • p-value < 0.05여야 요인 분석 적합.

3. 요인 추출

  • 주요 방법:
    1. 주축 요인법(Principal Axis Factoring, PAF): 변수 간의 공통성을 기반으로 요인을 추출.
    2. 주성분 분석(Principal Component Analysis, PCA): 총 분산을 최대한 설명하는 주성분을 추출.
    3. 최대우도법(Maximum Likelihood Method): 변수의 분포를 기반으로 요인 추정.
  •  *고유값(Eigenvalue)을 기준으로 요인을 선택: 고유값(Eigenvalue)은 각 요인이 데이터의 분산을 얼마나 설명하는지를 나타냄
    • Kaiser 기준: 고유값이 1 이상인 요인을 선택. 1미만은 설명력이 낮으므로 보통 분석에서 제외.
    • 스크리 플롯(Scree Plot): 요인의 고유값을 그래프로 시각화하여 "엘보 포인트" 이후의 요인을 제외.

4. 요인 회전 (Factor Rotation)

요인의 해석력을 높이기 위해 적재 값을 조정합니다.

  • Varimax 회전 (Orthogonal Rotation):
    • 요인 간의 상관을 최소화하여 요인을 독립적으로 해석.
  • Promax 회전 (Oblique Rotation):
    • 요인 간 상관이 존재할 수 있도록 허용.

5. 요인 적재(Factor Loadings) 해석

  • 요인 적재 값: 각 변수와 요인 간의 상관관계를 나타냅니다.
    • 값이 높을수록 해당 요인이 변수의 분산을 잘 설명.
  • 일반적으로 0.4 이상의 적재 값을 중요한 요인으로 간주.

6. 요인의 이름 지정

  • 추출된 요인들을 분석하여 의미를 부여합니다.
  • 변수들이 공통으로 높게 적재된 요인의 특징에 따라 이름을 붙입니다.
    • 예: 소비자 행동 요인, 성격 요인 등.

7. 결과 검증

  • 공통성(Communality): 각 변수의 분산 중 요인에 의해 설명된 비율.
  • 잔차(Residual): 모델이 설명하지 못한 상관 행렬의 부분.
    • 잔차가 작을수록 모델이 데이터에 잘 맞습니다.

8. 보고 및 해석

  • 최종 요인 해석 결과를 시각화하거나 요약하여 인사이트를 도출.
  • 요인의 비즈니스적, 학문적 의미를 설명.

요약

  1. 데이터 준비: 변수 선택, 결측치 처리.
  2. 적합성 검정: KMO, Bartlett’s Test.
  3. 요인 추출: 고유값 및 스크리 플롯 기반.
  4. 요인 회전: Varimax 등으로 해석력 향상.
  5. 요인 해석: 요인 적재값 및 공통성 확인.
  6. 결과 검증 및 보고.

 

반응형