데이터사이언티스트 Data Scientist
고유값(Eigenvalue)
루시달
2024. 11. 7. 14:12
1. 고유값(Eigenvalue)의 정의

고유값은 행렬 변환에서 발생하는 특정한 스칼라 값으로, 행렬과 고유벡터(eigenvector) 사이의 관계를 나타냅니다.
수학적으로, A가 정방행렬이고 x가 고유벡터라면 다음과 같은 관계가 성립합니다.
A⋅x = λ⋅x
즉, 고유값은 변환 후 벡터의 크기를 결정합니다.
2. 요인 분석에서 고유값의 역할
요인 분석에서는 상관 행렬 또는 공분산 행렬의 고유값이 각 요인이 설명할 수 있는 분산의 크기를 나타냅니다.
- 고유값 크기:
- 각 고유값은 데이터의 총 분산 중 특정 요인이 설명하는 비율을 나타냅니다.
- 고유값이 클수록 해당 요인이 데이터의 분산을 많이 설명합니다.
- Kaiser 기준:
- 고유값이 1 이상인 요인만 유의미한 것으로 간주.
- 고유값이 1 미만인 요인은 각 변수의 분산보다 더 적은 분산을 설명하므로 제외.
3. 고유값과 요인 수 결정
고유값을 기반으로 요인 수를 결정하는 주요 방법은 다음과 같습니다:
(1) Scree Plot (스크리 플롯)
- 스크리 플롯은 각 요인의 고유값을 내림차순으로 그래프에 나타낸 것입니다.
- 그래프의 **엘보 포인트(elbow point)**에서 급격히 감소하는 부분까지의 요인을 선택.
(2) 누적 분산 비율 (Cumulative Variance Explained)
- 각 요인이 설명하는 분산 비율을 누적하여 총 분산 중 얼마를 설명하는지 확인.
- 일반적으로 누적 설명력이 70% 이상이면 충분히 데이터를 요약할 수 있다고 판단.
4. PCA와 요인 분석의 고유값
- PCA (주성분 분석):
- 고유값은 각 주성분(Principal Component)이 데이터의 분산을 얼마나 설명하는지를 나타냅니다.
- 첫 번째 주성분의 고유값이 가장 크며, 이후 점차 감소합니다.
- Factor Analysis (요인 분석):
- 고유값은 잠재 요인이 데이터의 분산을 얼마나 설명하는지 보여줍니다.
- PCA와의 차이점은 요인 분석은 공통성(communality)을 강조한다는 점입니다.
5. 고유값의 수학적 계산
고유값은 다음 방정식을 풀어서 계산됩니다:
det(A−λI)=0
여기서:
- det: 행렬식(determinant).
- A: 상관 행렬 또는 공분산 행렬.
- I: 단위 행렬(identity matrix).
- λ: 고유값. (람다. lambda)
행렬의 고유값은 이 방정식을 만족하는 값입니다.
6. 고유값의 실제 예
예를 들어, 데이터의 상관 행렬에서 다음과 같은 고유값이 나왔다고 가정합시다:
요인 | 고유값(Eigenvalue) | 설명된 분산(%) |
1 | 3.5 | 35% |
2 | 2.0 | 20% |
3 | 1.2 | 12% |
4 | 0.8 | 제외 |
5 | 0.5 | 제외 |
- 첫 3개 요인이 총 **67%**의 분산을 설명하며, 이 요인들로 데이터의 구조를 대부분 요약할 수 있습니다.
요약
- *고유값(Eigenvalue)은 요인이 데이터의 분산을 얼마나 설명하는지를 나타냅니다.
- 1 이상의 고유값을 가진 요인만 의미 있는 요인으로 간주하는 것이 일반적입니다.
- 스크리 플롯과 누적 분산 비율을 사용하여 적절한 요인 수를 결정합니다.
반응형