본문 바로가기

분류 전체보기108

11. 포아송분포 (The Poisson distribution) 본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. Poisson Distribution ,X ~ Pois(λ) λ is the "rate" parameter, λ > 0 Valid : ∑PMF = e^-λe^λ = 1 (k로 이루어진 식은 e^λ에 대한 테일러급수) E(X) = e^-λ * ∑ [k=0~∞] k λ^k / k! = λe^-λ * ∑ [k=1~∞] λ^(k-1) / (k-1)! = λe^-λe^λ = λ often used for applications where counting number of "successes" where there are a large number of trials each with small prob of succ.. 2022. 1. 25.
Bike Sharing Demand 코드리뷰 Competition : https://www.kaggle.com/c/bike-sharing-demand/overview Code : https://www.kaggle.com/viveksrinivasan/eda-ensemble-model-top-10-percentile Description 1. About Dataset datetime : hourly date + timestamp season : 1 = spring, 2 = summer, 3 = fall, 4 = winter holiday : whether the day is considered a holiday workingday : whether the day is neither a weekend nor holiday weather : 1: Clea.. 2022. 1. 25.
10. 기댓값 (Expectation Continued) 본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. Proof Linearity Let T = X + Y, show E(T) = E(X)+E(Y) E(T) = ∑ tP(T=t) ?= ∑ xP(X=x) + ∑ yP(Y=y) P(T=t) = ∑P(T=t|X=x)P(X=x) 평균을 구하는 방법은 전부 더해서 나누는 방법 ∑X(s)P({s}), P({s}) = 조약돌의 무게 = 1/n 그룹으로 묶어서 가중평균을 구하는 방법이 있다. ∑xP(X=x) Proof of linearity(discrete case) ∑(X+Y)(s)P({s}) = ∑(X(s)+Y(s))P({s}) = ∑X(s)P({s}) + ∑Y(s)P({s}) = E(X)+E(Y) E(cx) = cE(.. 2022. 1. 24.
Softmax 함수와 Cross Entropy Softmax softmax 함수는 2가지가 아닌 여러 범주로 분류하는 함수입니다. Multi class classification에서 주로 사용한다. 각 범주의 확률값이 0과 1 사이의 값이고, 모든 범주에 해당하는 확률값을 더했을 때 1이 된다는 것입니다. 또한 softmax 함수는 큰 log-odds와 작은 log-odds의 차이를 극대화시켜줍니다. 그렇기 때문에 마지막에 softmax 함수에 모든 범주의 log-odds를 통과시키면 해당 데이터가 어떤 범주로 분류되는지 확실히 알 수 있게 되는데, 가장 큰 값을 1, 그 외 나머지 값들을 0으로 인코딩하는 one-hot encoding을 통해 표현하게 됩니다. Cross Entropy Cross Entropy 함수는 softmax함수의 손실함수로 .. 2022. 1. 24.
로지스틱 회귀분석(Logistic Regression) 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도학습 알고리즘 1개 이상의 독립변수가 있을 때 이를 이용하여 데이터가 2개의 범주중 하나에 속하도록 결정하는 binary classification 문제를 풀때 사용 1. 정의 및 용어 설명 종속변수가 0일 확률을 P(y=0|x) 라고 했을 때 Ex. 유방암 데이터셋(악성 종양일 확률이 0.2) 위 식을 통해 종속변수가 0일 확률을 구하게 되면 가 된다. z = exp(*) 라고 한다면 식은 다음과 같아진다. z = 0인 지점을 중심으로 두 범주간 경계가 불명확해지는 x의 구간(0.3 < p < 0.7)을 최소화해주기 때문에 분류모델의 성능을 향상시킨다. 참고자료 h.. 2022. 1. 24.
9. 기댓값, 지시확률변수와 선형성 (Expectation, Indicator Random Variables, Linearity) 본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다. CDF : F(x) = P(X ≤ x), x ∈ R Find P(1 P(a 0 as X -> -∞, F(X) -> 1 as x -> ∞ Independent of random variables X, Y are indep r.v.s if P(X≤x, Y≤y) = P(X≤x)P(Y≤y) for all x, y Discrete case: P(X=x, Y=x) = P(X=x)P(Y=y) Averages(Means, Expected va.. 2022. 1. 22.