본문 바로가기

전체 글108

TensorFlow2 API Tensorfow2를 활용해서 모델을 작성하는 방법에는 크게 Sequential, Functional, Model Subclassinf 3가지가 존재한다. 1. Tensorflow2 Sequential Model import tensorflow as tf from tensorflow import keras model = keras.Sequential() model.add(__넣고싶은 레이어__) model.add(__넣고싶은 레이어__) model.add(__넣고싶은 레이어__) model.fit(x, y, epochs=10, batch_size=32) 입력부터 출력까지 레이어를 sequential하게 add해서 쌓아나가는 방식으로 초보자가 접근하기 매우 쉬우나, 모델의 입력과 출력이 여러개인 경우는 적.. 2022. 1. 28.
13. 정규분포 (Normal Distribution) ≤본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. 균등분포의 일반성 F가 증가하는 CDF라고 할 때, X = F^-1(u) ~ F if u ~ Unif(0, 1) if X ~ F이면 F(X) ~ Unif(0, 1) F(x) = P(X ≤ x) -> F(X) = P(X ≤ X) = 1(틀린 방식!!) F(x) = 1-e^-x, x > 0 -> F(X) = 1-e^-X(맞는 방식) Ex. F(x) = 1-e^-x, x>0 (Exponential distribution with parameter 1, Expo(1)), u ~ Unif(0, 1) X ~ F 인 분포를 simulate(U∼Unif(0,1)를 simulate한다) 하려면 , F^-1(u) = -l.. 2022. 1. 28.
12. 이산, 연속, 균등분포 (Discrete vs. Continuous, the Uniform) 본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. PDF(Probability Density Function, 확률밀도함수) Defn 확률변수 X has PDF f(x) if P(a ≤ X ≤ b) = ∫[a~b] f(x)dx for all a, b. [a = b -> ∫[a~b] f(x)dx = 0] To be valid, f(x) ≥ 0, ∫[-∞~∞]f(x)dx = 1 * Density f(x​0​​) ⋅ ϵ ≈ P( X ∈ (x​0​​−ϵ / 2, x​ 0​​+ ϵ / 2)) , 매우 작은 양의 값 epsilon ϵ 길이의 구간에 대한 면적 if X has PDF f, the CDF is F(x) = P(X ≤ x) = ∫[-∞~x]f(t)dt i.. 2022. 1. 27.
seq2seq(Sequence to Sequence) seq2seq은 두 개의 RNN 아키텍처를 사용하여 입력 시퀀스로부터 출력 시퀀스를 생성해 내는 자연어 생성 모델입니다 seq2seq 개요 원문을 첫 번째 RNN인 인코더로 입력하면, 인코더는 이를 하나의 고정된 벡터로 변환한다. 이 벡터를 문맥 정보를 가지고 있는 벡터라고 하여 컨텍스트 벡터(context vector)라고 하며, 두 번째 RNN인 디코더는 이 컨텍스트 벡터를 전달받아 한 단어씩 생성해내서 요약 문장을 완성하는 거죠. LSTM와 Convext Vector LSTM이 바닐라 RNN과 다른 점은 다음 time step의 셀에 hidden state뿐만 아니라, cell state도 함께 전달한다는 점이다. 다시 말해, 인코더가 디코더에 전달하는 컨텍스트 벡터 또한 hidden state h.. 2022. 1. 27.
텍스트 요약(Text Summarization) 상대적으로 큰 원문을 핵심 내용만 같추려서 상대적으로 작은 요약문으로 변환하는 것. ex. 상대적으로 큰 뉴스기사를 상대적으로 작은 뉴스 제목으로 만들어내는 것 추출적 요약(Extractive Summarization) 원문에서 중요한 핵심 문장 또는 단어를 그대로 추출해서 이들로 구성된 요약문을 만드는 방법 추출적 요약의 결과로 나온 요약문의 문장이나 단어는 모두 원문에 있는 문장 혹은 단어 전통적인 머신 러닝 방식에 속하는 텍스트 랭크(TextRank)와 같은 알고리즘을 사용해서 이 방법을 사용 이미 존재하는 문장이나 단어구로 표현하기 때문에, 모델의 언어 표현 능력이 제한됨. 추상적 요약(Abstractive Summarization) 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해.. 2022. 1. 27.
House Prices - Advanced Regression Techniques 코드리뷰 2 Competition : https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview Code : https://www.kaggle.com/serigne/stacked-regressions-top-4-on-leaderboard Description Feature Engineering Process 데이터를 순차적으로 진행하여 결측치 대입 범주형으로 보이는 일부 수치형 변수 변환 order 정보를 가지고 있는 일부 카테고리형 변수 Label Encoding Skewed된 변수에 대한 Box Cox Transformation : 리더보드와 cross-validation에서 모두 약간 더 나은 결과를 제공 범주형 변수에 대한 더미변.. 2022. 1. 26.