cs231n6 Lecture 7 . Training Neural Networks II 본 글은 Stanford University CS231n 강의를 듣고 정리한 내용입니다. Fancier optimization Regularization Transfer Learning Optimizer W1와 W2를 optimizer하는 과정은 곧 오른쪽 그래프에서 가장 빨간 지점(가장 낮은 loss를 가지는 Weight)을 찾는 것이다. 위 사진같은 loss function의 경우 수평 방향으로는 loss가 매우 적게 줄어들지만, 수직방향으로는 변화에 매우 민감해진다. 수평 방향으로는 매우 느리게 진행되며, 수직 방향으로는 불안정(zigzag)하게 진행된다. 실제 모델은 수백만, 수천만개의 파라미터를 가지고 있고, 이는 수백 수천만개의 방향이 있음을 의미한다. 이 때 가장 큰 값과 작은 값의 비율이 .. 2022. 2. 14. Lecture 6. Training Neural Networks I 본 글은 Stanford University CS231n 강의를 듣고 정리한 내용입니다. Activation Functions input으로 들어온 데이터를 weight와 곱해주고, activation function을 통과하는 과정을 거친다. Sigmoid Problem of Sigmoid 1. Saturated neurons 'kill' the gradients x = -10 -> gradient는 0에 가까운 값이 된다. x = 0 -> resonable gradient를 얻게 되어 역전파가 잘 일어난다. x = 10 -> gradient는 0에 가까운 값이 된다. 2. Sigmoid outputs are not zero-centered neuron의 입력 x가 항상 양수라면 W의 값들을 항상 증가.. 2022. 2. 7. Lecture 5. Convolutional Neural Networks 본 글은 Stanford University CS231n 강의를 듣고 정리한 내용입니다. Convolutional Neural Networks A bit of history... Fully Connected Layer 32x32x3 image -> stretch to 3072 x 1 3072 dimension을 가진 10개의 행에 대한 dot product를 진행한다. Convolution Layer 필터와 5x5x3 chunk of image 사이의 dot product 값이 1개가 나오게 된다. 하나의 결과를 뽑아내기 위해 5*5*3 총 75-dimensional dot product + bias 를 진행하게 된다. 위 연산은 5x5x3의 chunk를 linear하게 편 후 계산하는 것과 동일하다. .. 2022. 1. 21. Lecture 4. Introduction to Neural Networks 본 글은 Stanford University CS231n 강의를 듣고 정리한 내용입니다. Computational graphs 1. weight W와 data x가 만나 score를 출력한다. 2. hinge loss를 통해 L_i값을 구하고, regularization까지 더하여 최종 loss L을 출력한다. Backpropagation e.g. x = -2, y = 5, z = -4 ∂f / ∂f = 1 ∂f / ∂z = q = 3 ∂f / ∂q = z = -4 ∂f / ∂x = ∂f / ∂q * ∂q / ∂x = z * 1 = - 4 ∂f / ∂y = ∂f / ∂q * ∂q / ∂y = z * 1 = -4 Chain rule = upstream gradient * local gradient 정방향으.. 2022. 1. 13. Lecture 3. Loss Functions and Optimization 본 글은 Stanford University CS231n 강의를 듣고 정리한 내용입니다. Loss Function : 학습 진행 과정에서 W값이 얼마나 나쁜지를 나타내 주는 함수 Optimization : 모든 가능한 W들 중에 가장 덜 나쁜(bad) W를 찾는 과정 image x와 weight W를 통해 나온 결과와 label y간의 loss값을 모두 더한 뒤 데이터의 갯수만큼 나눠준 값 loss값을 최소화 하는 W값을 찾아가는 과정이 필요함 CIFAR-10의 경우 10개의 class가 있기 때문에 맞고 틀린게 아닌 multiclass에 대한 계산이 필요하다. Multiclass SVM Loss 정답 class의 score가 다른 label의 score보다 월등히 큰 경우(위 식에서는 1이상 큰 경우).. 2022. 1. 11. Lecture2. Image Classification 본 글은 Stanford University CS231n 강의를 듣고 정리한 내용입니다. K_Nearset Neighbor Linear classifiers : SVM, Softmax Tow-layer nerual network Image features Image Classification 이러한 이미지를 정해진 discrete labels set 중에 하나의 class로 지정하게 된다. 사람에겐 쉽지만 computer 에겐 매우 어려운 일입니다. 왜냐하면 컴퓨터가 보는 이미지는 0과 255 사이의 숫자들로 이루어져 있기 때문이다. 이러한 픽셀값들은 객체가 움직이거나, 카메라의 앵글이 조금만 달라져도 모두 다른값으로 바뀐다. 그러나 픽셀값들이 모두 바껴도 같은 고양이를 나타낸다. 알고리즘은 이러한 경우.. 2022. 1. 10. 이전 1 다음