머신러닝3 [지도학습] 분류(Classificaion) - (1) 의사결정나무(Decision Tree) 모델 결정트리 (Decision Tree) 결정 트리(Decision Tree)는 ML 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘 입니다.데이터에 있는 규칙 학습을 통해 자동으로 찾아내 트리(Tree) 기반의 분류 규칙을 만드는 것 입니다. 일반적으로 규칙을 가장 쉽게 표현하는 방법은 if/else 기반으로 나타나는 것인데 쉽게 생각하면 스무고개 게임과 유사하며 룰 기반으로 if/else를 자동으로 찾아내 예측을 위한 규칙을 만드는 알고리즘으로 이해하면 더 쉽게 다가 올 것 입니다. 따라서 데이터를 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 알고리즘의 성능을 크게 좌우합니다. 결정 트리 구조 규칙 노드(Decision Node)는 규칙 조건이 되는 것이고, 리프 노드(Le.. 2024. 11. 8. Train Data 와 Test Data 를 나누는 이유 테스트 데이터(Test Data)와 트레인 데이터(Train Data)는 머신러닝 모델을 학습하고 평가하기 위해 데이터를 나눌 때 사용하는 두 가지 중요한 데이터셋입니다. 이들의 역할과 차이점은 다음과 같습니다. 1. 트레인 데이터(Train Data)정의:트레인 데이터는 모델을 학습시키기 위해 사용하는 데이터입니다.모델이 입력 변수(features)와 목표 변수(target) 간의 관계를 파악하도록 학습합니다.역할:모델의 가중치와 파라미터를 조정하는 데 사용됩니다.데이터를 통해 모델이 패턴과 규칙을 학습하게 합니다.특징:모델이 트레인 데이터를 통해 학습하면, 모델의 성능이 이 데이터에 최적화됩니다.단, 트레인 데이터만으로 평가하면 모델의 일반화 성능을 알 수 없습니다.2. 테스트 데이터(Test Da.. 2024. 11. 7. 사이킷런(scikit-learn) 이란? *사이킷런(Scikit-learn)은 파이썬에서 머신러닝 및 데이터 분석을 위한 오픈 소스 라이브러리입니다. 간단한 인터페이스와 강력한 기능으로 머신러닝 모델 개발 및 데이터 전처리 과정을 쉽게 구현할 수 있도록 도와줍니다. 파이썬을 활용한 머신러닝 도구 데이터 분석(예측)을 위한 간단하고 효율적인 도구누구나 쉽게 다양한 상황에서 활용 가능오픈소스 사이킷런으로 할 수 있는 것- 분류 (ex. 스팸메일)- 회귀 (ex. 가격)- 클러스터링 (ex. 고객 세그먼트)- 차원축소 (ex. 변수(컬럼)의 수를 줄임)- 모델 선택 (ex. 모델 튜닝, 평가)- 전처리 (ex. 데이터 가공/변환) 1. Scikit-learn의 주요 특징(1) 다양한 알고리즘 지원사이킷런은 지도 학습과 비지도 학습을 포함하여 여러 머.. 2024. 11. 7. 이전 1 다음