검수요청.png검수요청.png

과적합

위키원
이동: 둘러보기, 검색

과적합(overfitting)은 인공지능(AI) 모델이 학습 데이터에 지나치게 맞춰진 상태를 말한다. 이로 인해 모델이 학습 데이터에서는 매우 좋은 성능을 보이지만, 새로운 데이터에서는 일반화 능력이 떨어져 성능이 저하되는 문제다.

원리[편집]

과적합은 주로 모델이 너무 복잡할 때 발생한다. 예를 들어, 모델이 학습 데이터의 모든 작은 세부사항과 잡음을 지나치게 학습하게 되면, 학습 데이터에서 높은 정확도를 나타낼 수 있지만, 이는 본질적으로 학습 데이터에 특화된 패턴일 뿐, 새로운 데이터에는 잘 적용되지 않는다.

  • 예시: 어떤 데이터셋이 있고, 모델이 너무 많은 파라미터(매개변수)를 사용하여 그 데이터를 완벽하게 설명하려 한다고 가정하자. 이 경우, 모델은 학습 데이터의 모든 작은 변동성까지 맞추지만, 실제로 새로운 데이터에서는 그 변동성들이 의미 없을 수 있다.

과적합의 증상[편집]

  • 훈련 데이터에서 매우 높은 성능: 학습 데이터에 대해서는 매우 정확한 예측을 한다.
  • 테스트 데이터에서 성능 저하: 새로운 데이터(테스트 데이터나 실제 환경)에서는 잘못된 예측을 하거나 성능이 떨어진다.

즉, 모델이 학습 데이터에 너무 맞춰져 일반화할 수 있는 능력을 잃어버린 상태다. 새로운 데이터를 마주했을 때, 모델은 학습 데이터에서 발견한 세부적인 패턴들이 실제로는 적용되지 않는 경우가 많아 성능이 저하된다.

과적합을 방지하는 방법[편집]

과적합을 방지하기 위해 여러 가지 기법이 사용된다.

  • 데이터 양을 늘리기: 더 많은 데이터를 사용하면 모델이 데이터를 과도하게 학습할 가능성이 줄어든다. 더 다양한 데이터를 주면 모델이 특정 세부사항에 너무 맞추지 않고 일반적인 패턴을 학습하게 된다.
  • 정규화(Regularization): 정규화는 모델의 복잡성을 제한하는 기법이다. 예를 들어, 모델의 가중치가 너무 커지지 않도록 페널티를 부여해 과적합을 방지할 수 있다. L1, L2 정규화가 대표적인 기법이다.
  • 교차 검증(Cross-validation): 데이터를 여러 개의 작은 부분으로 나누고, 각 부분에 대해 모델을 학습하고 평가하는 방법이다. 이를 통해 모델이 특정 데이터셋에만 맞춰지는 것을 방지할 수 있다.
  • 조기 종료(Early stopping): 모델이 학습 데이터에서 일정 수준 이상의 성능을 보이면 더 이상 학습을 진행하지 않고 중단하는 방법이다. 과적합이 발생하기 전에 학습을 멈추어 일반화 성능을 유지하려는 목적이다.

과적합과 일반화의 균형[편집]

인공지능(AI) 모델을 학습할 때 중요한 것은 학습 데이터에만 맞추는 것이 아니라, 새로운 데이터에서도 잘 작동할 수 있는 일반화 능력을 키우는 것이다. 과적합을 방지하면서 학습을 잘 시키는 것이 AI 모델 개발의 핵심 포인트다.

요약하자면, 과적합은 모델이 학습 데이터에만 최적화되어 새로운 데이터에서 잘 작동하지 않는 문제다. 이를 방지하기 위해 모델의 복잡성을 조절하거나 학습 방법을 조정하는 다양한 기법이 사용된다.

같이 보기[편집]


  검수요청.png검수요청.png 이 과적합 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.