본문 바로가기

전체 글108

Lecture 5. Convolutional Neural Networks 본 글은 Stanford University CS231n 강의를 듣고 정리한 내용입니다. Convolutional Neural Networks A bit of history... Fully Connected Layer 32x32x3 image -> stretch to 3072 x 1 3072 dimension을 가진 10개의 행에 대한 dot product를 진행한다. Convolution Layer 필터와 5x5x3 chunk of image 사이의 dot product 값이 1개가 나오게 된다. 하나의 결과를 뽑아내기 위해 5*5*3 총 75-dimensional dot product + bias 를 진행하게 된다. 위 연산은 5x5x3의 chunk를 linear하게 편 후 계산하는 것과 동일하다. .. 2022. 1. 21.
경사하강법(Gradient Descent) 1차 미분계수를 이용해 함수의 최소값을 찾아가는 방법. 함수 값이 낮아지는 방향으로 독립변수 값을 변형시켜 가면서 최소 함수값을 갖도록 하는 독립 변수 값을 찾는 방법이다. 최소 함수값을 찾는 과정에서 미분계수가 0인 지점을 찾는게 아닌 gradient descent를 이용하는 이유는 실제 분석에서 맞딱드리게 되는 함수들은 닫힌 형태(closed form)가 아니거나 함수의 형태가 복잡해 (가령, 비선형함수) 미분계수와 그 근을 계산하기 어려운 경우가 많다. 실제 미분계수를 계산하는 과정을 컴퓨터로 구현하는 것에 비해 gradient descent는 컴퓨터로 비교적 쉽게 구현할 수 있다. 데이터 양이 매우 큰 경우 gradient descent와 같은 iterative한 방법을 통해 해를 구하면 계산량 .. 2022. 1. 21.
손실함수 (Loss Function) 비선형 활성화 함수를 가진 여러 개의 은닉층을 거친 다음 신호 정보들은 출력층으로 전달되는데, 이때 우리가 원하는 정답과 전달된 신호 정보들 사이의 차이를 계산하기 위한 함수가 손실함수 입니다. 1. 평균제곱오차(MSE : Mean Square Error) 오차의 제곱에 평균을 취한 값. 작을 수록 원본과의 오차가 적고 추측한 값의 정확성이 높은 것이다. MSE를 기본으로 최소평균제곱오차(MMSE), 평균제곱근오차(RMSE) 등이 있다. 2. 교차 엔트로피(Cross Entropy) Entropy : 불확실성(어떤 데이터가 나올지 예측하기 어려운 경우)의 척도. 엔트로피가 높다는 것은 정보가 많고 확률이 낮음을 의미 Ex. 동전던지기, 주사위 던지기 (Fair Probability) 동전의 엔트로피 값은.. 2022. 1. 21.
활성화 함수 (Activation Function) Activation function은 신경망의 출력을 결정하는 식으로, 활성화 함수는 보통 비선형 함수를 사용하는데 이 비선형 함수를 MLP(Multi-Layer Perceptron) 안에 포함시키면서 모델의 표현력을 좋아지게 합니다. 1. Sigmoid Sigmoid 함수는 모든 실수 입력 값을 0보다 크고 1보다 작은 미분 가능한 수로 변환하는 특징을 갖습니다. 모든 입력에 대하여 sigmoid는 S와 같은 형태로 미분 가능한 0~1 사이의 값을 반환하기에 Logistic Classification과 같은 분류 문제의 가설과 Cost Function에 많이 사용됩니다. Sigmoid의 반환 값은 확률형태이기 때문에 결과를 확률로 해석할 때 유용합니다. 현재는 Sigmoid보다 ReLU 함수를 많이 사.. 2022. 1. 21.
8. 확률변수와 확률분포 (Random Variables and Their Distributions) 본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. Binomial distribution X ~ Bin(n, p) n = 정수, p = 0~1 실수 Story : X is number of success in n independent Bern(p) trial Sum of indicator rvs(지표 확률 변수) : X = X1 + X2 + ... + Xn, Xj = {1 if jth trial success, 0 otherwise} X1, ..., Xn i.i.d Bern(p) (independent identically distribution) PMF P(X=k) = nCk p^k q^(n-k) ∑ nCk p^k q^(n-k) = (p+q)^n = 1.. 2022. 1. 20.
7. 도박꾼의 파산 문제와 확률변수 (Gambler's Ruin and Random Variables) 본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. Gambler's Ruin Two gamblers A and B sequence of rounds bet $1, p = P(A wins a certain round), q = 1-p Find prob that A wins entire game (so B is ruined) assuming A starts with $i, B starts with %N-i p_i = P(A wins game | A starts at $i) = p*p_i+1 + q*p_i-1, 1 ≤ i ≤ N-j, p_0 = 0. p_N = 1 계차방정식(difference equation) -> 미분 방정식의 이산형태 guessing을 통.. 2022. 1. 20.