과대적합
과대적합은 통계 모델이 학습데이터와 정확히 일치하는 경우를 말한다. 과대적합이 일어나면, 미확인 데이터에 대해서는 알고리즘을 수행할 수 없어 본래의 목적과 어긋나게 된다.
머신러닝 알고리즘이 만들어지면 단순한 데이터 세트를 활용하면서 모델을 학습시킨다. 그러나 모델이 샘플 데이터를 대상으로 지나치게 오랫동안 학습하는 경우, 또는 모델이 너무 복잡한 경우 '노이즈'를 학습하기 시작한다.
모델이 노이즈를 기억하고 해당 학습 세트에 너무 가깝게 들어맞으면 이 모델은 과대 적합 상태가 된다. 그 후 새로운 데이터에 대한 일반화가 제대로 이루어지지 못한다.
과소적합
과대적합의 반대 개념으로서 머신러닝 모델이 충분히 복잡하지 않아(최적화가 제대로 수행되지 않아) 학습 데이터의 구조나 패턴이 정확히 반영되지 못하는 문제다. 이 경우 데이터모델이 입력 및 출력 변수 사이 관계를 정확하게 포착하지 못해 훈련 세트와 보이지 않는 데이터에서 높은 오류율을 낸다.
과소적합은 모델이 너무 단순할 때 발생하는데, 이는 훈련 시간이나 입력 특성이 더 필요하거나 정규화가 덜 필요한 모델로 인해 발생할 수 있다.
모델에 과소적합이 발생하면 데이터 안에서 지배적 트렌드를 형성 불가해 훈련 오류와 모델의 성능 저하를 유발한다.
'알고리즘' 카테고리의 다른 글
딥러닝과 인공신경망 (2) | 2023.08.26 |
---|---|
검색 알고리즘 (0) | 2023.08.23 |
머신러닝에 관하여 (0) | 2023.08.21 |