저의 주관적인 해석이나 오역이 있을 수 있습니다. 댓글로 피드백 해주시면 수정하도록 하겠습니다!
https://arxiv.org/abs/2201.02177
Abstract
이 논문은 신경망의 generalization을 small algorithmically generated datasets으로 연구해야한다고 한다.
때때로 grokking 한 프로세스로 generalization의 성능을 향상 시킬 수 있다고 한다. 이 성능 향상은 overfitting을 넘어선다.
Introduction
Generalization of overparameterized neural networks는 항상 관심 대상이었다.
small algorithmically generated datasets으로 훈련 시키는 것이 뛰어난 generalization 패턴들 보여준다.
이 small algorithmically generated datasets은 a@b=c 형태의 아래 사진과 같은 테이블이다. (@는 binary operations)
테이블의 빈칸을 채우는 식으로 훈련을 시킨다.
네트워크는 elements의 내부 구조에 대해 인식하지 못 하기 때문에 오직 elements의 관계를 통해 훈련하게 된다.
Method
a@b=c 형태로 된 식의 데이터셋으로 훈련된 작은 transformer를 통해서 이 논문의 모든 실험이 진행되었다.
위 식의 모든 문자는 모두 별개의 토큰이다.
Experiments
보통 loss가 적당히 떨어지고 나서는 정확도의 향상이 작다.
이 small algorithmic datasets에서 초기 과적합 이후에 generalization의 향상이 일어났다.
예시로 이 사진과 같이 train 데이터셋에 대한 10^2 ~ 10^5 구간에서 overfitting 되어 있었지만 10^5이후부터 generalization 되었다.
훈련 데이터 셋의 크기가 감소함에 따라 성능 향상 시간이 급격하게 증가하는 것을 보여준다.
5번째 그래프에서 보이듯이 weight decay를 진행하였을 때 데이터 효율성에서 큰 효과가 있었다. 또한 weight decay to init 또한 효과적이지만 weight decay to origin이 더욱 효과적이었다.
또한 optimization process에 noise를 섞는 것이 genralization에 이득이 있었다.
아래 그림은 output layer의 행렬을 시각화 한 것이다. (행 벡터의 t-SNE도표로 보여준다.)
(t-SNE https://velog.io/@swan9405/머신러닝-T-SNE-T-distributed-Stochastic-Neighbor-Embedding)
Discussion
이 논문은 small algorithmic binary operation tables이 double descent, late generalization, weight decay 같은 개입으로 부터의 generalization의 향상 등의 효과가 있다는 것을 보여준다. 이것은 이 데이터셋이 generalization을 연구하기에 좋다는 것을 보여준다.
또한 신경망의 embedding spaces를 시각화하는 것이 구조를 보여준다.
또 훈련 데이터셋의 크기를 줄이는 것이 주어진 성능에 도달하기 위한 최적화 단계의 수가 빠르게 증가한다.
이 논문에서는 small algorithmically generated datasets을 통해서 연구한 것들을 보여주고 이 데이터셋에서 연구를 하는 것의 장점을 설명하고 있습니다. datasets에 종류에 따라 효율적인 모델을 만드는 방법이 다르겠지만, 이러한 얻기 쉬운 데이터셋을 통해서 디테일한 연구를 할 수 있고 효율적이라는 것을 제시하고 있다는 점에서 좋은 논문이었습니다.
'Deep Learning' 카테고리의 다른 글
RHO-1: Not All Tokens are What You Need 논문 리뷰 (0) | 2024.05.03 |
---|---|
손으로 마우스 조종 with Mediapipe (0) | 2024.01.10 |
Recurrent Neural Network in Tensorflow (2) | 2024.01.07 |
Convolution Neural Network in Tensorflow (0) | 2023.12.15 |
Gradient descent algorithm in Tensor flow 경사하강법 (0) | 2023.11.05 |