저의 주관적인 해석이나 오역이 있을 수 있습니다. 댓글로 피드백 해주시면 수정하도록 하겠습니다! https://arxiv.org/pdf/2404.07965.pdf Abstract기존의 사전학습 방법을 사용하는 언어 모델은 다음 토큰 예측 손실을 모든 훈련 토큰에 적용했습니다.하지만 모든 토큰이 모델 훈련에 동일하게 중요하지는 않습니다. 저자가 토큰 레벨의 training dynamics of language model을 탐구 했을 때토큰마다 다른 손실 패턴이 나타났기 때문에저자는 RHO-1라는 새로운 언어 모델을 제시하고 있습니다.RHO-1는 Selective Language Modeling을 사용하여 중요한 토큰을 이용해서 훈련합니다. 이러한 방식은 참조 모델을 사용하여 사전 학습한 토큰에서 초과 손실..