요인 분석(Factor Analysis), 그리고 분석 절차

요인이란?

*요인(Factor)은 데이터에 내재된 *잠재적 구조(latent structure)를 설명하는 변수들의 조합입니다.
요인 분석의 목표는 여러 변수의 분산을 몇 개의 요인으로 요약하여 데이터의 차원을 축소하고, 공통된 패턴을 발견하는 것입니다.

요인(Factor)은 관찰된 여러 변수들 간의 공통된 패턴이나 *잠재적 구조(latent structure)를 설명하는 숨겨진 변수입니다.

잠재적 구조(latent structure):
- 관찰되지 않지만, 여러 변수에 걸쳐 존재하는 공통적인 특성.
- 예를 들어, "스트레스"라는 잠재적 특성은 여러 관찰 변수(수면 시간, 집중력, 식습관 등)에 영향을 미칠 수 있습니다.

✳️ 요인 분석의 목표

요인 분석의 목표는 여러 변수들 간의 관계를 분석하여 몇 개의 잠재적 요인으로 데이터의 복잡성을 줄이는 것입니다.

예시:

설문조사에서 10개의 질문이 있다고 가정합니다.
- Q1: "나는 하루 종일 피곤하다."
- Q2: "나는 스트레스가 많다."
- Q3: "나는 잘 잔다."
- Q4: "나는 집중력이 낮다."
- ...

이 질문들은 모두 서로 관련이 있을 수 있습니다. 이를 요인 분석을 통해 분석하면:

요인 1 (스트레스 요인): Q1, Q2, Q4와 강한 관련성.
요인 2 (수면 요인): Q3와 강한 관련성.

즉, 10개의 변수를 2개의 요인(스트레스, 수면)으로 축약하여 데이터의 복잡성을 줄이면서도, 데이터의 핵심적인 패턴을 설명할 수 있습니다.

✳️ 차원 축소란?

차원 축소는 데이터를 더 간단하게 표현하는 과정입니다.

관찰 변수(Observed Variables):
- 설문조사 문항, 시험 점수, 매출 데이터 등 우리가 측정할 수 있는 데이터.
잠재 변수(Latent Variables, 요인):
- 직접적으로 관찰할 수는 없지만, 여러 관찰 변수들 간의 관계를 설명하는 공통된 요인.

요인 분석은 여러 관찰 변수들의 분산을 하나의 잠재 요인으로 설명하여 데이터의 차원을 줄이는 기법입니다.

✳️ 요인의 예시

다음과 같은 데이터가 있다고 가정합시다:

Variable	설명
수면 시간	하루 평균 수면 시간 (시간)
에너지 수준	하루 에너지 수준 (1-10점 척도)
스트레스 수준	하루 스트레스 수준 (1-10점 척도)
집중력	하루 집중력 (1-10점 척도)

이 데이터는 수면과 스트레스라는 두 가지 잠재 요인에 의해 설명될 수 있습니다.

요인 1: 스트레스 요인
- 스트레스 수준, 집중력과 강한 상관관계.
요인 2: 수면 요인
- 수면 시간, 에너지 수준과 강한 상관관계.

즉, 4개의 관찰 변수를 2개의 요인으로 요약할 수 있습니다.

✳️ 왜 요인 분석을 사용할까?

데이터의 복잡성 감소:
- 많은 변수들을 소수의 요인으로 요약.
- 데이터 해석이 용이해짐.
잠재적 특성 발견:
- 데이터에 내재된 숨겨진 구조를 파악.
- 예: 심리학에서 "성격 요인" 분석, 마케팅에서 "소비자 행동 요인" 발견.

3. 요인이 분산을 설명한다는 의미

각 요인은 원래 데이터의 여러 변수에서 발생하는 분산(변동성)의 일부를 설명합니다.
설명된 분산의 비율은 요인이 데이터의 구조를 얼마나 잘 요약하는지를 나타냅니다.

요인 분석에서의 분산 설명 과정:

각 요인의 고유값(Eigenvalue):
- 고유값은 해당 요인이 데이터의 총 분산에서 차지하는 크기를 나타냅니다.
- 고유값이 높을수록 그 요인이 더 많은 변동성을 설명한다는 의미입니다.
설명된 분산 비율(Proportion of Variance):
- 각 요인이 데이터의 총 분산에서 몇 퍼센트를 설명하는지 나타냅니다.
- 예: 첫 번째 요인이 데이터의 총 분산의 40%를 설명한다면, 이 요인이 데이터의 주요 변동성을 요약하고 있다고 해석할 수 있습니다.
누적 분산 비율(Cumulative Variance):
- 여러 요인이 설명하는 총 분산의 누적 비율.
- 예를 들어, 첫 번째와 두 번째 요인이 합쳐서 70%의 분산을 설명한다면, 이 두 요인만으로도 데이터의 대부분을 설명할 수 있다는 의미입니다.

4. 예시

*상관 행렬의 고유값(Eigenvalue)이 다음과 같다고 가정:

요인	고유값(Eigenvalue)	설명된 분산 비율 (%)	누적 설명된 분산 비율 (%)
Factor 1	3.5	35%	35%
Factor 2	2.5	25%	60%
Factor 3	1.5	15%	75%
Factor 4	0.8	8%	83%

Factor 1:
- 첫 번째 요인이 데이터의 총 분산의 35%를 설명.
Factor 1 + Factor 2:
- 두 요인을 합하면 60%의 분산을 설명.
- 데이터의 절반 이상이 이 두 요인으로 설명되므로, 이 두 요인이 데이터의 주요 구조를 요약한다고 볼 수 있음.
Factor 4:
- 고유값이 1 미만이므로 설명력이 낮아 제외 가능.

5. 실질적인 의미

분산 설명 비율이 높다는 것은:
- 해당 요인이 데이터의 주요 패턴을 잘 포착하고 있다는 의미.
- 적은 수의 요인으로 데이터의 대부분을 요약할 수 있음.
분산 설명 비율이 낮다는 것은:
- 해당 요인이 데이터의 중요한 변동성을 포착하지 못한다는 의미.

요약

"요인이 분산을 설명한다"는 말은 각 요인이 데이터의 변동성(분산)을 얼마나 잘 요약하고 있는지를 나타냅니다.
주요 요인은 데이터의 구조적 패턴을 잘 포착하며, 설명된 분산 비율을 통해 각 요인의 중요성을 평가할 수 있습니다.

요인 분석(Factor Analysis)은 다단계로 이루어지며, 각 단계에서 데이터의 적합성과 결과 해석을 검토합니다.

[요인 분석 절차]

1. 데이터 준비

데이터 수집: 수치형 변수만 사용됩니다.
결측치 처리: 결측치는 제거하거나 적절히 대체해야 합니다.
표준화(선택적): 변수들의 스케일이 다를 경우, 표준화(Z-점수 변환)를 적용하여 분석의 정확성을 높입니다.

2. 데이터의 요인 분석 적합성 검정

요인 분석을 수행하기 전에 데이터가 적합한지 두 가지 검정을 통해 확인합니다:

KMO Test (Kaiser-Meyer-Olkin Test):
- 변수 간의 부분 상관이 낮고 요인 분석이 적합한지 확인.
- 결과 해석: 0.6 이상이면 적합.
Bartlett’s Test of Sphericity:
- 변수 간 상관 행렬이 단위 행렬인지 검정.
- p-value < 0.05여야 요인 분석 적합.

3. 요인 추출

주요 방법:
1. 주축 요인법(Principal Axis Factoring, PAF): 변수 간의 공통성을 기반으로 요인을 추출.
2. 주성분 분석(Principal Component Analysis, PCA): 총 분산을 최대한 설명하는 주성분을 추출.
3. 최대우도법(Maximum Likelihood Method): 변수의 분포를 기반으로 요인 추정.
*고유값(Eigenvalue)을 기준으로 요인을 선택: 고유값(Eigenvalue)은 각 요인이 데이터의 분산을 얼마나 설명하는지를 나타냄
- Kaiser 기준: 고유값이 1 이상인 요인을 선택. 1미만은 설명력이 낮으므로 보통 분석에서 제외.
- 스크리 플롯(Scree Plot): 요인의 고유값을 그래프로 시각화하여 "엘보 포인트" 이후의 요인을 제외.

4. 요인 회전 (Factor Rotation)

요인의 해석력을 높이기 위해 적재 값을 조정합니다.

Varimax 회전 (Orthogonal Rotation):
- 요인 간의 상관을 최소화하여 요인을 독립적으로 해석.
Promax 회전 (Oblique Rotation):
- 요인 간 상관이 존재할 수 있도록 허용.

5. 요인 적재(Factor Loadings) 해석

요인 적재 값: 각 변수와 요인 간의 상관관계를 나타냅니다.
- 값이 높을수록 해당 요인이 변수의 분산을 잘 설명.
일반적으로 0.4 이상의 적재 값을 중요한 요인으로 간주.

6. 요인의 이름 지정

추출된 요인들을 분석하여 의미를 부여합니다.
변수들이 공통으로 높게 적재된 요인의 특징에 따라 이름을 붙입니다.
- 예: 소비자 행동 요인, 성격 요인 등.

7. 결과 검증

공통성(Communality): 각 변수의 분산 중 요인에 의해 설명된 비율.
잔차(Residual): 모델이 설명하지 못한 상관 행렬의 부분.
- 잔차가 작을수록 모델이 데이터에 잘 맞습니다.

8. 보고 및 해석

최종 요인 해석 결과를 시각화하거나 요약하여 인사이트를 도출.
요인의 비즈니스적, 학문적 의미를 설명.

요약

데이터 준비: 변수 선택, 결측치 처리.
적합성 검정: KMO, Bartlett’s Test.
요인 추출: 고유값 및 스크리 플롯 기반.
요인 회전: Varimax 등으로 해석력 향상.
요인 해석: 요인 적재값 및 공통성 확인.
결과 검증 및 보고.

'데이터사이언티스트 Data Scientist' 카테고리의 다른 글

Train Data 와 Test Data 를 나누는 이유 (2)	2024.11.07
사이킷런(scikit-learn) 이란? (0)	2024.11.07
KMO Test (Kaiser-Meyer-Olkin Test)와 Bartlett's Test of Sphericity (0)	2024.11.06
Feature Engineering이란? (0)	2024.11.05
이미지를 벡터로 변환한다?! (0)	2024.11.05

루시달

요인 분석(Factor Analysis), 그리고 분석 절차

요인이란?

✳️ 요인 분석의 목표

예시:

✳️ 차원 축소란?

✳️ 요인의 예시

✳️ 왜 요인 분석을 사용할까?

3. 요인이 분산을 설명한다는 의미

요인 분석에서의 분산 설명 과정:

4. 예시

5. 실질적인 의미

요약

[요인 분석 절차]

1. 데이터 준비

2. 데이터의 요인 분석 적합성 검정

3. 요인 추출

4. 요인 회전 (Factor Rotation)

5. 요인 적재(Factor Loadings) 해석

6. 요인의 이름 지정

7. 결과 검증

8. 보고 및 해석

요약

'데이터사이언티스트 Data Scientist' 카테고리의 다른 글

티스토리툴바

요인 분석(Factor Analysis), 그리고 분석 절차

요인이란?

✳️ 요인 분석의 목표

예시:

✳️ 차원 축소란?

✳️ 요인의 예시

✳️ 왜 요인 분석을 사용할까?

3. 요인이 분산을 설명한다는 의미

요인 분석에서의 분산 설명 과정:

4. 예시

5. 실질적인 의미

요약

[요인 분석 절차]

1. 데이터 준비

2. 데이터의 요인 분석 적합성 검정

3. 요인 추출

4. 요인 회전 (Factor Rotation)

5. 요인 적재(Factor Loadings) 해석

6. 요인의 이름 지정

7. 결과 검증

8. 보고 및 해석

요약

'데이터사이언티스트 Data Scientist' 카테고리의 다른 글

관련글

티스토리툴바