본문 바로가기
Deep Learning

over-smoothing, over-squashing이란?

by mean. 2023. 8. 7.
728x90
반응형

오버-스무딩(over-smoothing)과 오버-스쿼싱(over-squashing)은 머신 러닝 및 딥 러닝에서 발생할 수 있는 문제입니다.

오버-스무딩은 그래프 신경망(GNN)이나 합성곱 신경망(CNN)과 같은 모델에서 발생하는 현상입니다. 이 현상은 네트워크가 반복적으로 정보를 통합하면서 노드 또는 픽셀의 특징을 지나치게 평활화시키는 결과를 가져옵니다. 즉, 네트워크가 인접한 노드 또는 픽셀의 정보를 계속해서 평균화하면서 지역적인 특징이 희석되고, 전체적으로 유사한 특징을 가진 노드 또는 픽셀로 수렴하게 됩니다. 이로 인해 네트워크가 지역적인 차이를 인식하지 못하고 전체적인 특징만을 반영하게 되는 문제가 발생합니다.

오버-스쿼싱은 활성화 함수(activation function)를 사용하는 모델에서 발생하는 문제입니다. 주로 시그모이드나 하이퍼볼릭 탄젠트와 같은 S자 형태의 활성화 함수를 사용할 때 나타납니다. 오버-스쿼싱은 네트워크의 출력을 제한하는 활성화 함수로 인해 출력 값이 지나치게 작아지는 현상을 말합니다. 이로 인해 네트워크가 입력 데이터의 다양한 특징을 적절하게 표현하지 못하고, 정보 손실과 그래디언트 소실(gradient vanishing) 등의 문제가 발생할 수 있습니다.

이러한 오버-스무딩과 오버-스쿼싱은 모델의 학습 및 예측 성능을 저하시킬 수 있는 중요한 문제입니다. 이를 해결하기 위해서는 적절한 네트워크 구조 설계, 효과적인 활성화 함수 선택, 그리고 데이터 전처리 등의 방법을 고려하여 문제를 완화할 수 있습니다.

2.1.어떻게 over-squashing이 inference performance 에 유의미한 영향을 미치는 가?

오버-스쿼싱은 활성화 함수가 입력 범위를 제한하여 출력을 지나치게 작게 만드는 현상입니다. 이로 인해 모델이 입력 데이터의 다양한 특징을 적절하게 표현하지 못하고 정보 손실과 그래디언트 소실 등의 문제가 발생할 수 있습니다.

추론(inference) 단계에서는 모델이 이전에 학습한 지식을 활용하여 새로운 입력 데이터에 대한 예측을 수행합니다. 오버-스쿼싱이 추론 성능에 부정적인 영향을 미칠 수 있는 이유는 다음과 같습니다.

  1. 정보 손실: 오버-스쿼싱으로 인해 모델이 입력 데이터의 다양한 특징을 적절하게 표현하지 못하면, 유용한 정보가 손실될 수 있습니다. 이로 인해 모델의 추론 능력이 저하되고, 예측 결과의 정확성이 감소할 수 있습니다.
  2. 표현 능력 제한: 오버-스쿼싱은 모델이 출력을 작은 범위로 제한하여 다양한 값을 표현하는 능력을 제한합니다. 이는 모델이 복잡한 데이터 패턴을 학습하거나 예측하는 데 제약을 줄 수 있습니다. 따라서 추론 과정에서 오버-스쿼싱으로 인한 정보의 손실로 인해 모델이 적절한 예측을 수행하지 못할 수 있습니다.
  3. 과소적합: 오버-스쿼싱은 모델의 표현 능력을 제한하므로, 과소적합(underfitting) 문제가 발생할 수 있습니다. 모델이 입력 데이터에 대한 충분한 표현을 학습하지 못하면, 새로운 데이터에 대한 일반화 능력이 제한되고, 추론 성능이 저하될 수 있습니다.

따라서, 오버-스쿼싱은 추론 성능에 부정적인 영향을 미칠 수 있으며, 이 문제를 완화하기 위해서는 적절한 활성화 함수 선택과 네트워크 구조 설계가 필요합니다. 활성화 함수를 조정하거나 다른 함수로 대체하여 오버-스쿼싱을 완화하고, 모델이 다양한 입력 데이터의 특징을 적절하게 표현할 수 있도록 해야 합니다.

728x90
반응형