본문 바로가기

Aiffel/Fundamental31

Regularization, Normalization Regularization(정직화) 오버피팅(train set은 매우 잘 맞히지만, validation, test set은 맞히지 못하는 현상)을 해결하기 위한 방법 중 하나 L1 Regularization L2 Regularization Dropout Batch Normalization L1 Regularization(Lasso) \[\hat{\beta}^{lasso} := argmin_\beta \frac{1}{2N} \sum_{i=1}^{N} (y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^{p}|\beta_j|\] 뒤쪽 항이 없다면 Linear Regression과 같은 식이 된다. Lp Norm \[\left\| x\ri.. 2022. 2. 15.
TensorFlow2 API Tensorfow2를 활용해서 모델을 작성하는 방법에는 크게 Sequential, Functional, Model Subclassinf 3가지가 존재한다. 1. Tensorflow2 Sequential Model import tensorflow as tf from tensorflow import keras model = keras.Sequential() model.add(__넣고싶은 레이어__) model.add(__넣고싶은 레이어__) model.add(__넣고싶은 레이어__) model.fit(x, y, epochs=10, batch_size=32) 입력부터 출력까지 레이어를 sequential하게 add해서 쌓아나가는 방식으로 초보자가 접근하기 매우 쉬우나, 모델의 입력과 출력이 여러개인 경우는 적.. 2022. 1. 28.
seq2seq(Sequence to Sequence) seq2seq은 두 개의 RNN 아키텍처를 사용하여 입력 시퀀스로부터 출력 시퀀스를 생성해 내는 자연어 생성 모델입니다 seq2seq 개요 원문을 첫 번째 RNN인 인코더로 입력하면, 인코더는 이를 하나의 고정된 벡터로 변환한다. 이 벡터를 문맥 정보를 가지고 있는 벡터라고 하여 컨텍스트 벡터(context vector)라고 하며, 두 번째 RNN인 디코더는 이 컨텍스트 벡터를 전달받아 한 단어씩 생성해내서 요약 문장을 완성하는 거죠. LSTM와 Convext Vector LSTM이 바닐라 RNN과 다른 점은 다음 time step의 셀에 hidden state뿐만 아니라, cell state도 함께 전달한다는 점이다. 다시 말해, 인코더가 디코더에 전달하는 컨텍스트 벡터 또한 hidden state h.. 2022. 1. 27.
텍스트 요약(Text Summarization) 상대적으로 큰 원문을 핵심 내용만 같추려서 상대적으로 작은 요약문으로 변환하는 것. ex. 상대적으로 큰 뉴스기사를 상대적으로 작은 뉴스 제목으로 만들어내는 것 추출적 요약(Extractive Summarization) 원문에서 중요한 핵심 문장 또는 단어를 그대로 추출해서 이들로 구성된 요약문을 만드는 방법 추출적 요약의 결과로 나온 요약문의 문장이나 단어는 모두 원문에 있는 문장 혹은 단어 전통적인 머신 러닝 방식에 속하는 텍스트 랭크(TextRank)와 같은 알고리즘을 사용해서 이 방법을 사용 이미 존재하는 문장이나 단어구로 표현하기 때문에, 모델의 언어 표현 능력이 제한됨. 추상적 요약(Abstractive Summarization) 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해.. 2022. 1. 27.
Softmax 함수와 Cross Entropy Softmax softmax 함수는 2가지가 아닌 여러 범주로 분류하는 함수입니다. Multi class classification에서 주로 사용한다. 각 범주의 확률값이 0과 1 사이의 값이고, 모든 범주에 해당하는 확률값을 더했을 때 1이 된다는 것입니다. 또한 softmax 함수는 큰 log-odds와 작은 log-odds의 차이를 극대화시켜줍니다. 그렇기 때문에 마지막에 softmax 함수에 모든 범주의 log-odds를 통과시키면 해당 데이터가 어떤 범주로 분류되는지 확실히 알 수 있게 되는데, 가장 큰 값을 1, 그 외 나머지 값들을 0으로 인코딩하는 one-hot encoding을 통해 표현하게 됩니다. Cross Entropy Cross Entropy 함수는 softmax함수의 손실함수로 .. 2022. 1. 24.
로지스틱 회귀분석(Logistic Regression) 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도학습 알고리즘 1개 이상의 독립변수가 있을 때 이를 이용하여 데이터가 2개의 범주중 하나에 속하도록 결정하는 binary classification 문제를 풀때 사용 1. 정의 및 용어 설명 종속변수가 0일 확률을 P(y=0|x) 라고 했을 때 Ex. 유방암 데이터셋(악성 종양일 확률이 0.2) 위 식을 통해 종속변수가 0일 확률을 구하게 되면 가 된다. z = exp(*) 라고 한다면 식은 다음과 같아진다. z = 0인 지점을 중심으로 두 범주간 경계가 불명확해지는 x의 구간(0.3 < p < 0.7)을 최소화해주기 때문에 분류모델의 성능을 향상시킨다. 참고자료 h.. 2022. 1. 24.