본문 바로가기

분류 전체보기108

Regularization, Normalization Regularization(정직화) 오버피팅(train set은 매우 잘 맞히지만, validation, test set은 맞히지 못하는 현상)을 해결하기 위한 방법 중 하나 L1 Regularization L2 Regularization Dropout Batch Normalization L1 Regularization(Lasso) \[\hat{\beta}^{lasso} := argmin_\beta \frac{1}{2N} \sum_{i=1}^{N} (y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^{p}|\beta_j|\] 뒤쪽 항이 없다면 Linear Regression과 같은 식이 된다. Lp Norm \[\left\| x\ri.. 2022. 2. 15.
Lecture 7 . Training Neural Networks II 본 글은 Stanford University CS231n 강의를 듣고 정리한 내용입니다. Fancier optimization Regularization Transfer Learning Optimizer W1와 W2를 optimizer하는 과정은 곧 오른쪽 그래프에서 가장 빨간 지점(가장 낮은 loss를 가지는 Weight)을 찾는 것이다. 위 사진같은 loss function의 경우 수평 방향으로는 loss가 매우 적게 줄어들지만, 수직방향으로는 변화에 매우 민감해진다. 수평 방향으로는 매우 느리게 진행되며, 수직 방향으로는 불안정(zigzag)하게 진행된다. 실제 모델은 수백만, 수천만개의 파라미터를 가지고 있고, 이는 수백 수천만개의 방향이 있음을 의미한다. 이 때 가장 큰 값과 작은 값의 비율이 .. 2022. 2. 14.
4~10강 Review 본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. Independent(독립) 사건 A, B가 독립이라는 것은 P(A∩B) = P(A)P(B) 임을 나타낸다. 독립은 배반과는 전혀 다른 개념이다. 독립 : A가 일어나는 일을 B는 알 수 없다. 배반 : A가 일어나면 B는 일어날 수 없다. Conditional Probability(조건부 확률) B사건이 일어났을 때 A가 일어날 사건, P(A|B) = P(A∩B) / P(B), P(B)는 0보다 크다는 조건하에 만족한다. 또한 조건부확률은 다음과 같이 나타낼 수 있다. P(A|B) = P(B|A)P(A) / P(B) -> 이를 베이즈 정리라고 한다. Law of Total Probability(전확률 정.. 2022. 2. 13.
20. 다항분포 및 코시분포(Multinomial and Cauchy) 본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. Ex. Find E|Z1-Z2| with Z1, Z2 ~ N(0, 1) i.i.d. Thm. \[X \sim N(\mu_1 , \sigma_1 ^2), Y \sim N(\mu_2 , \sigma_2 ^2) , X, Y \rightarrow indep\] \[X + Y \sim N(\mu_1 + \mu_2 , \sigma_1 ^2 + \sigma_2 ^2)\] 차의 경우 평균은 평균간의 차이지만 분산은 분산간의 합이 된다. Proof Use MGFs : MGF of X+Y is \[e^{\mu_1 t + \frac{1}{2} \sigma_1 ^2 t^2} * e^{\mu_2 t + \frac{1}{2} \s.. 2022. 2. 7.
Lecture 6. Training Neural Networks I 본 글은 Stanford University CS231n 강의를 듣고 정리한 내용입니다. Activation Functions input으로 들어온 데이터를 weight와 곱해주고, activation function을 통과하는 과정을 거친다. Sigmoid Problem of Sigmoid 1. Saturated neurons 'kill' the gradients x = -10 -> gradient는 0에 가까운 값이 된다. x = 0 -> resonable gradient를 얻게 되어 역전파가 잘 일어난다. x = 10 -> gradient는 0에 가까운 값이 된다. 2. Sigmoid outputs are not zero-centered neuron의 입력 x가 항상 양수라면 W의 값들을 항상 증가.. 2022. 2. 7.
19. 결합, 조건부, 주변 확률질량함수(Joint, Conditional, and Marginal Distributions) 본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. Joint, Conditional, Marginal distribution joint CDF \[F\left ( x,y \right ) = P\left ( X\leq x,Y\leq y \right ) \] 이산확률변수와 연속확률변수의 조합에도 성립 joint PDF \[f\left ( x, y \right ) = \frac{\partial }{\partial x \partial y}F\left ( x, y \right )\] 확률이 아닌 확률밀도. 확률은 확률밀도를 적분하여 구할 수 있다. \[P\left ( \left ( x, y \right ) \in A \right ) = \iint_{A}^{}f\l.. 2022. 2. 6.