본문 바로가기

파이썬5

사이킷런(scikit-learn) 이란? *사이킷런(Scikit-learn)은 파이썬에서 머신러닝 및 데이터 분석을 위한 오픈 소스 라이브러리입니다. 간단한 인터페이스와 강력한 기능으로 머신러닝 모델 개발 및 데이터 전처리 과정을 쉽게 구현할 수 있도록 도와줍니다. 파이썬을 활용한 머신러닝 도구 데이터 분석(예측)을 위한 간단하고 효율적인 도구누구나 쉽게 다양한 상황에서 활용 가능오픈소스 사이킷런으로 할 수 있는 것- 분류 (ex. 스팸메일)- 회귀 (ex. 가격)- 클러스터링 (ex. 고객 세그먼트)- 차원축소 (ex. 변수(컬럼)의 수를 줄임)- 모델 선택 (ex. 모델 튜닝, 평가)- 전처리 (ex. 데이터 가공/변환) 1. Scikit-learn의 주요 특징(1) 다양한 알고리즘 지원사이킷런은 지도 학습과 비지도 학습을 포함하여 여러 머.. 2024. 11. 7.
피벗테이블(Pivot) 피벗 테이블(Pivot Table)은 데이터프레임의 특정 열을 기준으로 데이터를 요약하고, 집계하여 재구성하는 기능입니다. 엑셀의 피벗 테이블과 유사하게, 판다스의 pivot_table 메서드를 사용하여 데이터를 쉽게 분석하고 요약할 수 있습니다.피벗 테이블의 주요 기능행 및 열 기준 설정: 특정 열을 기준으로 행과 열을 구성할 수 있습니다.집계 함수 적용: 데이터를 요약할 때 사용할 집계 함수를 지정할 수 있습니다 (예: 평균, 합계, 개수 등).다중 집계: 여러 집계 함수를 동시에 사용할 수 있습니다.기본 사용법pivot_table()의 기본 형식은 다음과 같습니다예제설명values: Sales 열을 집계할 대상 열로 지정했습니다.index: Date 열을 행 인덱스로 사용하여 날짜별로 요약합니다.c.. 2024. 11. 4.
melt 메소드 melt melt는 데이터프레임을 길게(unpivot) 변환할 때 사용하는 판다스 메서드입니다. 열이 행으로 변환되어 데이터가 길고 얇은 형태로 바뀌며, 주로 데이터를 분석하기 쉽도록 표준화하거나, 피벗된 데이터를 원래 형태로 되돌리는 데 유용합니다.주요 개념melt는 여러 열에 나눠져 있는 데이터를 단일 열로 병합하여, 각 열의 이름이 새로운 열로, 열의 값이 또 다른 새로운 열로 변환됩니다.Tidy data(정돈된 데이터)의 형식으로 데이터를 정리할 때 자주 사용됩니다.기본 사용법 파라미터 설명id_vars: 변환 시 고정할 열(즉, 그대로 유지되는 열)을 지정합니다.value_vars: 행으로 변환할 열을 지정합니다. 생략하면 숫자형 열이 자동으로 변환됩니다.var_name: 새로운 열의 이름을 지.. 2024. 11. 4.
파이썬 - groupby groupbygroup by는 데이터프레임에서 특정 열을 기준으로 데이터를 그룹화하여 집계할 때 사용됩니다. 데이터의 그룹별 통계나 요약 정보를 빠르게 계산할 수 있으며, 판다스의 groupby() 메서드를 통해 사용할 수 있습니다.1. 기본 개념그룹화: 특정 열의 값에 따라 데이터를 그룹으로 묶습니다.집계: 그룹별로 합계, 평균, 개수 등의 통계값을 계산합니다.형태: df.groupby('column_name').aggregate_function()처럼 사용합니다.2. 주요 사용 예시기본 사용법데이터프레임을 특정 열을 기준으로 그룹화하고, 집계 함수를 적용할 수 있습니다.  결과설명: 'Category' 열을 기준으로 그룹화하고, 각 그룹의 'Value' 합계를 계산했습니다. 여러 열을 기준으로 그룹화.. 2024. 11. 4.
데이터 병합 하기 - concat, merge, join 1. concatconcat은 판다스에서 여러 데이터프레임을 하나로 연결할 때 사용하는 함수입니다. concat을 사용하면 열이나 행 방향으로 여러 개의 데이터프레임을 이어붙일 수 있으며, 데이터프레임 간에 공통 열이 없어도 연결이 가능합니다.주요 특징기본 사용법: pd.concat([df1, df2, ...])연결 방향 지정: axis 파라미터를 사용해 연결 방향을 지정할 수 있습니다.axis=0 (기본값): 행 방향으로 연결 (위아래로 이어붙임).axis=1: 열 방향으로 연결 (옆으로 이어붙임).인덱스 조정: 데이터프레임을 연결할 때, ignore_index=True를 설정하여 인덱스를 다시 설정할 수 있습니다.조인 방식 지정: join 파라미터를 사용하여 inner 또는 outer 조인을 선택할 .. 2024. 11. 4.