728x90
반응형

Deep Learning 6

RHO-1: Not All Tokens are What You Need 논문 리뷰

저의 주관적인 해석이나 오역이 있을 수 있습니다. 댓글로 피드백 해주시면 수정하도록 하겠습니다! https://arxiv.org/pdf/2404.07965.pdf Abstract기존의 사전학습 방법을 사용하는 언어 모델은 다음 토큰 예측 손실을 모든 훈련 토큰에 적용했습니다.하지만 모든 토큰이 모델 훈련에 동일하게 중요하지는 않습니다. 저자가 토큰 레벨의 training dynamics of language model을 탐구 했을 때토큰마다 다른 손실 패턴이 나타났기 때문에저자는 RHO-1라는 새로운 언어 모델을 제시하고 있습니다.RHO-1는 Selective Language Modeling을 사용하여 중요한 토큰을 이용해서 훈련합니다. 이러한 방식은 참조 모델을 사용하여 사전 학습한 토큰에서 초과 손실..

Deep Learning 2024.05.03

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets 논문 리뷰

저의 주관적인 해석이나 오역이 있을 수 있습니다. 댓글로 피드백 해주시면 수정하도록 하겠습니다! https://arxiv.org/abs/2201.02177 Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets In this paper we propose to study generalization of neural networks on small algorithmically generated datasets. In this setting, questions about data efficiency, memorization, generalization, and speed of learning can be studied in grea..

Deep Learning 2024.04.01

손으로 마우스 조종 with Mediapipe

Mediapipe 딥러닝을 이용한 라이브러리 중에 영상 정보를 통한 다양한 기능을 가진 Mediapipe가 있다. https://developers.google.com/mediapipe/solutions MediaPipe | Google for Developers Attention: This MediaPipe Solutions Preview is an early release. Learn more Stay organized with collections Save and categorize content based on your preferences. Compose on-device ML in minutes Supercharge your machine learning development and creat..

Deep Learning 2024.01.10

Recurrent Neural Network in Tensorflow

1. RNN RNN은 hidden state를 통해서 전 데이터가 이후의 데이터에 영향을 주어 연속적인 input이나 연속적인 output을 가능하게 해준다. 아래는 RNN many to one의 기본적인 구조이다. 여기서 h_t = tanh(W_hh * h_(t-1) + W_xh * x_t)이 hidden layer의 기본적인 구조이다. 2. in Tensorflow 1 2 3 4 5 6 7 8 9 10 11 12 import tensorflow as tf model = tf.keras.Sequential() model.add(tf.keras.layers.Embedding(input_dim=input_dim, #Embedding layer output_dim=output_dim, trainable=Fa..

Deep Learning 2024.01.07

Convolution Neural Network in Tensorflow

1. Convolution Neural Network convolution neural network는 이미지 분류에 가장 많이 쓰이는 인공지능 설계 방식이다. 특이한 점으로는 convolution layer와 pooling layer을 가지고 있다는 것이다. convolution layer는 이미지의 각각의 부분을 나누어 분석하면서 각 부분의 특징을 분류한다고 할 수 있다. pooling layer는 convolution layer에서 분류한 요소 중 유의미한 정보를 뽑아내는 것 같고 그렇기에 max pooling을 많이 사용하는 거 같다. 2. 예제 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 3..

Deep Learning 2023.12.15

Gradient descent algorithm in Tensor flow 경사하강법

1. gradient descent gradient descent는 함수의 최소값을 찾는 알고리즘이다. 그림과 같이 무작위 값에 기울기 값 * learning_rate를 곱해서 빼는 과정을 반복하면서 점점 주변 값보다 작은 값을 찾아간다. 2. gradient descent in tensorflow 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 import tensorflow as tf tf.random.set_seed(0) W = tf.Variable(tf.random.normal([1], -100., 100.)) for step in range(300) : learning_rate = 0.01 with tf.GradientTape() as tape : func = tf.s..

Deep Learning 2023.11.05
728x90
반응형