2022. 10. 26. 22:46ㆍML_DL/논문리뷰
확률과 통계
확률과 통계가 무엇이 다른가?
A) 확률이란 수학적인 계산을 통해서 도출되는 값이며, 통계란 충분한 횟수의 관측이 이루어진 상황을 수치화 한것이다.
확률은 알려진 모델이 주어져있고, Data를 예측하는 것이라 하면, 통계는 Data 예측을 통해서 모델을 예측하는 것이라고 볼 수 있다.
Central Limit Theoerm 은 무엇인지 , 왜 중요한 이론인가?
A) 평균이 µ이고, 표준편차가 𝝈인 임의의 분포를 이룰 때, 충분히 큰 크기(n)의 표본을 추출하면 각 표본들의 평균의 분포는 평균이 µ이고, 표준편차가 (𝝈/√n)인 Bell curve = 정규분포에 근접한다는 이론.
중요한 부분은 모집단의 분포가 어떤 형태를 가지고 있든, 표본의 크기가 충분히 크다면 표본평균들의 분포가 모집단의 모수를 기반으로 형성된다는 부분이다. 이는 표본 분포와 모집단간의 관계를 증명함으로 수집한 표본의 통계량을 이용해 모집단의 모수를 추정할 수 있는 근거가 되기 때문이다.
큰 수의 법칙이란?
A) 표본의 집단의 크기가 커지면 그 표본평균이 모평균에 가까워진다는 법칙이다.
즉, 시행횟수가 늘어나면 통계적확률이 수학적확률에 수렴할 확률이 1에 가까워진다는 의미이다.
큰 수의 법칙은 확률수렴의 측면이고, CLT 는 분포수렴의 측면이라고 볼 수 있다.
Marginal Probability Distribution 이란?
A) 주변확률분포 marginal probability distribution이란 joint probability를 기반으로 한다.
즉, 두 개의 변수로 이루어진 결합확률분포를 하나의 변수로 표현하고자 하는 것이다.
Conditional Distribution 이란?
A) 조건부확률분포로 f(y|x) = f(x,y)/f_x(x) 처럼 X라는 사건이 발생 했을 때, Y가 발생할 확률들의 분포이다.
Bias, Variance, MSE 란?
A) MSE는 평가지표 중 하나로 total loss를 측정한다.

MSE는 다음과 같이 표현할 수 있는데 여기서 Var(e)는 노이즈 값으로 irreducible한 값이다. 그러므로 Var, Bias를 적절하게 낮은 값을 선택해야 한다. 다만 이 둘은 Trade-off 를 가짐으로, 모두 낮은 값을 찾기 불가하다. 해당 관계를 보기 앞서서
분산과 편향에 대해서 정의를 하고자 한다.
X의 분산이란 X의 기댓값으로 부터 확률변수가 얼마나 떨어져있는지를 제곱한 기댓값과 같다.
이를 기계학습적으로 말하면 모델이 예측한 값이 그 모델의 예측값들의 평균과 얼마나 떨어져 있는지를 말해준다. 즉 모델의 변동성을 의미한다.
편향이란 모델이 예측한 값의 평균과 실제 값의 차이를 의미한다. 전박적으로 모델이 얼마나 잘 맞추나를 말한다.
즉, 모델의 정확성을 의미한다.
결국 분산과 편향 모두 작아야 좋은 모델이라는 것인데 이는 불가능하다. 그 이유는 무엇일까?
이는 모델의 복잡도와 관련이 있다.
모델이 복잡해져 학습정확도가 올라간다는 것은 분산 자체는 심해진다는 것이다. 이는 Train에 대해 너무 완벽하게 학습했기 때문이다. 다시 말하면 Bias는 줄어드나 Var가 커진다는 의미이다. 이는 후에 testdata 대해 Overfitting의 문제를 야기하게 되고, 반면 모델의 복잡도가 낮은(단순한 선형모델) 경우 예측 값이 튀지 않고 어느 정도 일정한 규칙을 갖으면서 나올 것이다.(Test) 다만 이는 실제 값과는 복잡한 모델 보다 큰 차이를 보일 것이다. 결국 Var는 안정되었지만, Bias 자체가 커진다는 의미고 이는 testdata에 대해서 Underfitting 문제를 야기한다.
Variance with N-1
이를 이해하기 위해서는 불편 추정 (unbiased estimation) 과 자유도 (degree of freedom)을 알야한다.
자유도란 간단하게는 독립변수의 갯수이다. A+B = 7 이라면 A 혹은 B가 주어지면 나머지 하나는 저절로 정해진다. 즉 여기서 자유도는 1이다.
모집단으로 부터 추출된 여러 표본들의 표본통계량들의 기댓값은 결국 모수와 같다는 증명이 있다. 이처럼 '추정량의 기댓값 = 모수' 인 경우를 불편의라고 한다.
편차의 제곱들의 평균을 구해보면 이는 편의추정이 된다. 즉 추정량의 기댓값이 모수와 다르다는 것이다. 그 때 이 때 n이 아닌 n-1을 사용하게 되면 불편추정량이 되게 된다.
이번에는 자유도 관점이다. 표본분산은 편차 제곱의 산술평균이라고 정의된다.
일단 평균이라는 말을 다시 정의하면 전체 자료 합에 대해 독립변수의 갯수로 나눈값이 된다.
근데 N개의 데이터에 대해서 편차들의 합은 0이 되어야한다. 즉 N-1개에 대해서 값이 정해지면 저절로 나머지 하나의 값이 정해진다는 것이다.
따라서 이 때 독립변수는 N-1이 되므로 N-1로 나눠주는 것이다.
출처:
https://jrc-park.tistory.com/259
확률과 통계의 관계 - 느닷없이 확률을 배우는 이유
확률과 통계의 관계 - 느닷없이 확률을 배우는 이유 확률과 통계는 어째서 붙어 다니는 걸까. 고등학교 시절로 거슬러 올라가면, 어느 날 갑자기 - 정말 뜬금없이 - 경우의 수를 배우기 시작하게
recipesds.tistory.com
https://drhongdatanote.tistory.com/57
[개념 통계 17] 중심극한 정리는 무엇이고 왜 중요한가?
안녕하세요. 홍박사입니다. 정말 오랜만에 포스팅을 합니다. 바쁘다는 핑계로 계속 포스팅을 미뤄오다가 마음을 다잡고 짧은 호흡으로라도 포스팅을 하는 것이 좋을 것 같다는 생각이 들었습니
drhongdatanote.tistory.com