요인이란?
- *요인(Factor)은 데이터에 내재된 *잠재적 구조(latent structure)를 설명하는 변수들의 조합입니다.
- 요인 분석의 목표는 여러 변수의 분산을 몇 개의 요인으로 요약하여 데이터의 차원을 축소하고, 공통된 패턴을 발견하는 것입니다.
더보기
요인(Factor)은 관찰된 여러 변수들 간의 공통된 패턴이나 *잠재적 구조(latent structure)를 설명하는 숨겨진 변수입니다.
- 잠재적 구조(latent structure):
- 관찰되지 않지만, 여러 변수에 걸쳐 존재하는 공통적인 특성.
- 예를 들어, "스트레스"라는 잠재적 특성은 여러 관찰 변수(수면 시간, 집중력, 식습관 등)에 영향을 미칠 수 있습니다.
✳️ 요인 분석의 목표
요인 분석의 목표는 여러 변수들 간의 관계를 분석하여 몇 개의 잠재적 요인으로 데이터의 복잡성을 줄이는 것입니다.
예시:
- 설문조사에서 10개의 질문이 있다고 가정합니다.
- Q1: "나는 하루 종일 피곤하다."
- Q2: "나는 스트레스가 많다."
- Q3: "나는 잘 잔다."
- Q4: "나는 집중력이 낮다."
- ...
이 질문들은 모두 서로 관련이 있을 수 있습니다. 이를 요인 분석을 통해 분석하면:
- 요인 1 (스트레스 요인): Q1, Q2, Q4와 강한 관련성.
- 요인 2 (수면 요인): Q3와 강한 관련성.
즉, 10개의 변수를 2개의 요인(스트레스, 수면)으로 축약하여 데이터의 복잡성을 줄이면서도, 데이터의 핵심적인 패턴을 설명할 수 있습니다.
✳️ 차원 축소란?
차원 축소는 데이터를 더 간단하게 표현하는 과정입니다.
- 관찰 변수(Observed Variables):
- 설문조사 문항, 시험 점수, 매출 데이터 등 우리가 측정할 수 있는 데이터.
- 잠재 변수(Latent Variables, 요인):
- 직접적으로 관찰할 수는 없지만, 여러 관찰 변수들 간의 관계를 설명하는 공통된 요인.
요인 분석은 여러 관찰 변수들의 분산을 하나의 잠재 요인으로 설명하여 데이터의 차원을 줄이는 기법입니다.
✳️ 요인의 예시
다음과 같은 데이터가 있다고 가정합시다:
Variable | 설명 |
수면 시간 | 하루 평균 수면 시간 (시간) |
에너지 수준 | 하루 에너지 수준 (1-10점 척도) |
스트레스 수준 | 하루 스트레스 수준 (1-10점 척도) |
집중력 | 하루 집중력 (1-10점 척도) |
이 데이터는 수면과 스트레스라는 두 가지 잠재 요인에 의해 설명될 수 있습니다.
- 요인 1: 스트레스 요인
- 스트레스 수준, 집중력과 강한 상관관계.
- 요인 2: 수면 요인
- 수면 시간, 에너지 수준과 강한 상관관계.
즉, 4개의 관찰 변수를 2개의 요인으로 요약할 수 있습니다.
✳️ 왜 요인 분석을 사용할까?
- 데이터의 복잡성 감소:
- 많은 변수들을 소수의 요인으로 요약.
- 데이터 해석이 용이해짐.
- 잠재적 특성 발견:
- 데이터에 내재된 숨겨진 구조를 파악.
- 예: 심리학에서 "성격 요인" 분석, 마케팅에서 "소비자 행동 요인" 발견.
3. 요인이 분산을 설명한다는 의미
- 각 요인은 원래 데이터의 여러 변수에서 발생하는 분산(변동성)의 일부를 설명합니다.
- 설명된 분산의 비율은 요인이 데이터의 구조를 얼마나 잘 요약하는지를 나타냅니다.
요인 분석에서의 분산 설명 과정:
- 각 요인의 고유값(Eigenvalue):
- 고유값은 해당 요인이 데이터의 총 분산에서 차지하는 크기를 나타냅니다.
- 고유값이 높을수록 그 요인이 더 많은 변동성을 설명한다는 의미입니다.
- 설명된 분산 비율(Proportion of Variance):
- 각 요인이 데이터의 총 분산에서 몇 퍼센트를 설명하는지 나타냅니다.
- 예: 첫 번째 요인이 데이터의 총 분산의 40%를 설명한다면, 이 요인이 데이터의 주요 변동성을 요약하고 있다고 해석할 수 있습니다.
- 누적 분산 비율(Cumulative Variance):
- 여러 요인이 설명하는 총 분산의 누적 비율.
- 예를 들어, 첫 번째와 두 번째 요인이 합쳐서 70%의 분산을 설명한다면, 이 두 요인만으로도 데이터의 대부분을 설명할 수 있다는 의미입니다.
4. 예시
*상관 행렬의 고유값(Eigenvalue)이 다음과 같다고 가정:
요인 | 고유값(Eigenvalue) | 설명된 분산 비율 (%) | 누적 설명된 분산 비율 (%) |
Factor 1 | 3.5 | 35% | 35% |
Factor 2 | 2.5 | 25% | 60% |
Factor 3 | 1.5 | 15% | 75% |
Factor 4 | 0.8 | 8% | 83% |
- Factor 1:
- 첫 번째 요인이 데이터의 총 분산의 35%를 설명.
- Factor 1 + Factor 2:
- 두 요인을 합하면 60%의 분산을 설명.
- 데이터의 절반 이상이 이 두 요인으로 설명되므로, 이 두 요인이 데이터의 주요 구조를 요약한다고 볼 수 있음.
- Factor 4:
- 고유값이 1 미만이므로 설명력이 낮아 제외 가능.
5. 실질적인 의미
- 분산 설명 비율이 높다는 것은:
- 해당 요인이 데이터의 주요 패턴을 잘 포착하고 있다는 의미.
- 적은 수의 요인으로 데이터의 대부분을 요약할 수 있음.
- 분산 설명 비율이 낮다는 것은:
- 해당 요인이 데이터의 중요한 변동성을 포착하지 못한다는 의미.
요약
- "요인이 분산을 설명한다"는 말은 각 요인이 데이터의 변동성(분산)을 얼마나 잘 요약하고 있는지를 나타냅니다.
- 주요 요인은 데이터의 구조적 패턴을 잘 포착하며, 설명된 분산 비율을 통해 각 요인의 중요성을 평가할 수 있습니다.
요인 분석(Factor Analysis)은 다단계로 이루어지며, 각 단계에서 데이터의 적합성과 결과 해석을 검토합니다.
[요인 분석 절차]
1. 데이터 준비
- 데이터 수집: 수치형 변수만 사용됩니다.
- 결측치 처리: 결측치는 제거하거나 적절히 대체해야 합니다.
- 표준화(선택적): 변수들의 스케일이 다를 경우, 표준화(Z-점수 변환)를 적용하여 분석의 정확성을 높입니다.
2. 데이터의 요인 분석 적합성 검정
요인 분석을 수행하기 전에 데이터가 적합한지 두 가지 검정을 통해 확인합니다:
- KMO Test (Kaiser-Meyer-Olkin Test):
- 변수 간의 부분 상관이 낮고 요인 분석이 적합한지 확인.
- 결과 해석: 0.6 이상이면 적합.
- Bartlett’s Test of Sphericity:
- 변수 간 상관 행렬이 단위 행렬인지 검정.
- p-value < 0.05여야 요인 분석 적합.
3. 요인 추출
- 주요 방법:
- 주축 요인법(Principal Axis Factoring, PAF): 변수 간의 공통성을 기반으로 요인을 추출.
- 주성분 분석(Principal Component Analysis, PCA): 총 분산을 최대한 설명하는 주성분을 추출.
- 최대우도법(Maximum Likelihood Method): 변수의 분포를 기반으로 요인 추정.
- *고유값(Eigenvalue)을 기준으로 요인을 선택: 고유값(Eigenvalue)은 각 요인이 데이터의 분산을 얼마나 설명하는지를 나타냄
- Kaiser 기준: 고유값이 1 이상인 요인을 선택. 1미만은 설명력이 낮으므로 보통 분석에서 제외.
- 스크리 플롯(Scree Plot): 요인의 고유값을 그래프로 시각화하여 "엘보 포인트" 이후의 요인을 제외.
4. 요인 회전 (Factor Rotation)
요인의 해석력을 높이기 위해 적재 값을 조정합니다.
- Varimax 회전 (Orthogonal Rotation):
- 요인 간의 상관을 최소화하여 요인을 독립적으로 해석.
- Promax 회전 (Oblique Rotation):
- 요인 간 상관이 존재할 수 있도록 허용.
5. 요인 적재(Factor Loadings) 해석
- 요인 적재 값: 각 변수와 요인 간의 상관관계를 나타냅니다.
- 값이 높을수록 해당 요인이 변수의 분산을 잘 설명.
- 일반적으로 0.4 이상의 적재 값을 중요한 요인으로 간주.
6. 요인의 이름 지정
- 추출된 요인들을 분석하여 의미를 부여합니다.
- 변수들이 공통으로 높게 적재된 요인의 특징에 따라 이름을 붙입니다.
- 예: 소비자 행동 요인, 성격 요인 등.
7. 결과 검증
- 공통성(Communality): 각 변수의 분산 중 요인에 의해 설명된 비율.
- 잔차(Residual): 모델이 설명하지 못한 상관 행렬의 부분.
- 잔차가 작을수록 모델이 데이터에 잘 맞습니다.
8. 보고 및 해석
- 최종 요인 해석 결과를 시각화하거나 요약하여 인사이트를 도출.
- 요인의 비즈니스적, 학문적 의미를 설명.
요약
- 데이터 준비: 변수 선택, 결측치 처리.
- 적합성 검정: KMO, Bartlett’s Test.
- 요인 추출: 고유값 및 스크리 플롯 기반.
- 요인 회전: Varimax 등으로 해석력 향상.
- 요인 해석: 요인 적재값 및 공통성 확인.
- 결과 검증 및 보고.
반응형
'데이터사이언티스트 Data Scientist' 카테고리의 다른 글
Train Data 와 Test Data 를 나누는 이유 (2) | 2024.11.07 |
---|---|
사이킷런(scikit-learn) 이란? (0) | 2024.11.07 |
KMO Test (Kaiser-Meyer-Olkin Test)와 Bartlett's Test of Sphericity (0) | 2024.11.06 |
Feature Engineering이란? (0) | 2024.11.05 |
이미지를 벡터로 변환한다?! (0) | 2024.11.05 |