Deep Learning

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets 논문 리뷰

YunSeong 2024. 4. 1. 14:08
728x90
반응형

 저의 주관적인 해석이나 오역이 있을 수 있습니다. 댓글로 피드백 해주시면 수정하도록 하겠습니다!

 

https://arxiv.org/abs/2201.02177

 

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

In this paper we propose to study generalization of neural networks on small algorithmically generated datasets. In this setting, questions about data efficiency, memorization, generalization, and speed of learning can be studied in great detail. In some s

arxiv.org

 

Abstract

이 논문은 신경망의 generalization을 small algorithmically generated datasets으로 연구해야한다고 한다. 

때때로 grokking 한 프로세스로 generalization의 성능을 향상 시킬 수 있다고 한다. 이 성능 향상은 overfitting을 넘어선다. 


Introduction

Generalization of overparameterized neural networks는 항상 관심 대상이었다. 

small algorithmically generated datasets으로 훈련 시키는 것이 뛰어난 generalization 패턴들 보여준다. 

이 small algorithmically generated datasets은 a@b=c 형태의 아래 사진과 같은 테이블이다. (@는 binary operations)

테이블의 빈칸을 채우는 식으로 훈련을 시킨다. 

네트워크는 elements의 내부 구조에 대해 인식하지 못 하기 때문에 오직 elements의 관계를 통해 훈련하게 된다.

 

 

 

 

 


Method

a@b=c 형태로 된 식의 데이터셋으로 훈련된 작은 transformer를 통해서 이 논문의 모든 실험이 진행되었다.

위 식의 모든 문자는 모두 별개의 토큰이다.


Experiments

보통 loss가 적당히 떨어지고 나서는 정확도의 향상이 작다. 

이 small algorithmic datasets에서 초기 과적합 이후에 generalization의 향상이 일어났다. 

예시로 이 사진과 같이 train 데이터셋에 대한 10^2 ~ 10^5 구간에서 overfitting 되어 있었지만 10^5이후부터 generalization 되었다. 

 

 

 

 

 

 

 

 

 

 

 

 

 

훈련 데이터 셋의 크기가 감소함에 따라 성능 향상 시간이 급격하게 증가하는 것을 보여준다. 

 

 

 

 

 

 

5번째 그래프에서 보이듯이 weight decay를 진행하였을 때 데이터 효율성에서 큰 효과가 있었다.  또한 weight decay to init 또한 효과적이지만 weight decay to origin이 더욱 효과적이었다. 

또한 optimization process에 noise를 섞는 것이 genralization에 이득이 있었다. 

 

 

 

 

아래 그림은 output layer의 행렬을 시각화 한 것이다. (행 벡터의 t-SNE도표로 보여준다.)

(t-SNE https://velog.io/@swan9405/머신러닝-T-SNE-T-distributed-Stochastic-Neighbor-Embedding)

 


Discussion

이 논문은 small algorithmic binary operation tables이 double descent, late generalization, weight decay 같은 개입으로 부터의 generalization의 향상 등의 효과가 있다는 것을 보여준다. 이것은 이 데이터셋이 generalization을 연구하기에 좋다는 것을 보여준다. 

또한 신경망의 embedding spaces를 시각화하는 것이 구조를 보여준다. 

 

또 훈련 데이터셋의 크기를 줄이는 것이 주어진 성능에 도달하기 위한 최적화 단계의 수가 빠르게 증가한다.


이 논문에서는 small algorithmically generated datasets을 통해서 연구한 것들을 보여주고 이 데이터셋에서 연구를 하는 것의 장점을 설명하고 있습니다. datasets에 종류에 따라 효율적인 모델을 만드는 방법이 다르겠지만, 이러한 얻기 쉬운 데이터셋을 통해서 디테일한 연구를 할 수 있고 효율적이라는 것을 제시하고 있다는 점에서 좋은 논문이었습니다.

728x90
반응형