본문 바로가기
데싸를 위한 수학

선형회귀 모형

by 루시달 2024. 11. 5.

선형회귀 모형

 

*선형회귀 모형(linear regression model)이란 독립변수 𝑥에서 종속변수 𝑦를 예측하는 방법의 하나

독립변수 벡터 𝑥와 가중치 벡터 𝑤와의 가중합으로 𝑦에 대한 예측값 𝑦̂ 를 계산하는 수식을 말한다.

 

 

이 수식에서 기호 ^“캐럿(caret)”이라는 기호이다. 𝑦̂ 는 “와이 햇(y hat)”이라고 읽는다.

 

이 수식은 다음처럼 벡터의 내적으로 나타낼 수 있다.

 

 

 

선형회귀 모형은 가장 단순하면서도 가장 널리 쓰이는 예측 모형이다.

예를 들어 어떤 아파트 단지의 아파트 가격을 조사하였더니 아파트 가격은 (1)면적, (2)층수, (3)한강이 보이는지의 여부, 즉 이 세 가지 특징에 의해 달라진다는 사실을 알게 되었다. 이때 이 단지 내의 아파트 가격을 예측하는 예측 모형을 다음과 같이 만들 수 있다.

 

  • 면적(𝑚2)을 입력 데이터 𝑥1라고 한다.
  • 층수를 입력 데이터 𝑥2라고 한다
  • 한강이 보이는지의 여부를 입력 데이터 𝑥3라고 하며 한강이 보이면 𝑥3=1, 보이지 않으면 𝑥3=0이라고 한다.
  • 출력 데이터 𝑦̂ 는 해당 아파트의 예측 가격이다.

위와 같이 입력 데이터와 출력 데이터를 정의하고 회귀분석을 한 결과, 아파트값이 다음과 같은 선형회귀 모형으로 나타난다고 가정하자. 이러한 모형을 실제로 찾는 방법은 나중에 회귀분석 파트에서 공부하게 된다.

 

이 모형은 다음과 같이 해석할 수 있다.

  • 면적이 1𝑚2 증가할수록 가격은 500만 원이 증가한다.
  • 층수가 1층 높아질수록 가격은 200만 원이 증가한다.
  • 한강이 보이는 집은 1,000만 원의 웃돈(프리미엄)이 존재한다.

위 식은 다음과 같이 벡터의 내적으로 고쳐 쓸 수 있다.

 

즉, 위 선형회귀 모형은 다음 가중치 벡터로 대표된다.

 

 

선형회귀 모형의 단점

선형회귀 모형은 비선형적인 현실 세계의 데이터를 잘 예측하지 못할 수 있다는 단점이 있다. 예를 들어 집값은 면적에 단순 비례하지 않는다. 소형 면적의 집과 대형 면적의 집은 단위 면적당 집값의 증가율이 다를 수 있다. 또한 저층이 보통 고층보다 집값이 싸지만 층수가 올라갈수록 정확히 층수에 비례하여 가격이 증가하지도 않는다.

이러한 현실 세계의 데이터와 선형회귀 모형의 괴리를 줄이기 위해 선형회귀 모형이 아닌 완전히 다른 모형을 쓰기보다는 선형회귀 모형을 기반으로 여러 기법을 사용해 수정한 모형을 사용하는 것이 일반적이다. 이러한 수정 선형회귀 모형에 대해서는 나중에 공부하게 된다.

 

 

 

반응형