일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 블록체인
- GeorgiaTech
- 개발자
- backtest
- 암호화폐
- 오토사
- 확률
- TOEFL
- 프로그래밍
- Bitcoin
- 클라우드
- probability
- it
- 파이썬
- toefl writing
- 비트코인
- AUTOSAR
- python
- 퀀트
- AWS
- 토플 라이팅
- 백테스트
- 자동차sw
- 백트레이더
- backtrader
- Cloud
- can
- 자동매매
- 아마존 웹 서비스
- 토플
- Today
- Total
목록probability (43)
Leo's Garage
A Couple of Worked Correlation Examples
Correlation and Causation 이게 무슨 말일까? Correlation과 인과율은 서로 따라오는 관계는 아니라는 의미이다. 시사하는 바는 Correlation과 Causality는 반드시 필요로 하는 것은 아니라는 점이다.
Covariance and Correlation Covariance는 의미에서 보다시피 번역하면 "공분산"이다. 이전에 학습했듯이 Var(X) = E[(X - u)^2]이다. 따라서 Cov(X,X) = E[(X - E[X])^2] = Var(X)이 된다. Cov(X,Y) = E[(X - E[X])(Y - E[Y])]가 된다. 만약에 X와 Y가 독립사건이라면, E[XY] = E[X]E[Y]가 되므로, Covariance는 0이 된다. 즉, X 와 Y가 독립사건이라면 반드시 Covariance가 0이지만 그 역은 성립하지 않을 수 있다는 것이다. Correlation은 차원이 없는 값이다. Covariance를 각 RV의 분산곱의 제곱근으로 나눈값이다. 그 값이 1에 가깝다면 상관관계가 높다는 뜻이고, 0에..
Standard Conditioning Argument E[Y] = P(A)인데, 이때 어떤 RV X에 대해서 E[Y|X = x] = P(Y = 1 | X = x) = P(A|X = x). 로 정리가 될 수 있다. 뭔가 더 복잡하게 만든 것처럼 보인다. 이 경우에 위에서 전개한 Standard Conditioning Argument를 이용하여 위와 같이 정리할 수 있다. 중요한건 P(Y
Random Sums of Random Variables 여기서 주의해야하는 것은 아랫줄의 식에서 왼쪽과 오른쪽은 같지 않은데 왼쪽은 숫자이고 오른쪽은 랜덤이다. 왜냐하면 여기서 말하는 N 자체 또한 RV라고 했기 때문이다. (X와 독립적인....)
First-Step Analysis Y는 Geom 분포를 가지는데 동전을 던져서 첫 Head가 나올 사건의 기댓값을 구해야 한다. X를 첫 토스해서 Head나 Tail이 나올 사건이라고 가정하면, X = T인 경우에는 첫 시도는 실패이므로, 1을 더해야하므로 E[Y|X] = 1 + E[Y], X = H인 경우에는 1회만에 성공이므로, E[Y|X]는 1이다. 우리는 Y의 기댓값을 구하고 싶으므로, 앞 서 이야기한 Double Expectation 원리를 사용하면 조건부 기댓값의 기댓값으로 Y의 기댓값을 도출할 수 있다. Head가 나올 확률은 P, Tail이 나올 확률이 1-p라고 할 때, 위의 공식대로 계산하면 1/p가 나오게 된다. 이 경우에 쉽게 말해서 Y = A + B인데, A는 처음으로 H가 나올..
Double Expectation 조건부 기댓값의 기댓값이 기댓값이다. 이게 무슨 말일까? 실제로 조건부 기댓값을 h(X)로 치환하고 LOTUS를 이용하여 기댓값을 계산해보면 원래의 기댓값이 나온다. 핵심은 조건부 확률을 치환할 수 있고, 그 치환된 값을 이용해서 Jointly RV를 만든 뒤에 다시 Marginal Distribution 공식으로 정리할 수 있다는 것이다. 조건부 기댓값은 f(x,y)/fx(X)로 치환한 뒤 y를 곱하고, y의 범위인 x^2부터 1까지 적분을 통해서 구할 수 있다. 해법 1의 경우에는 기존에 방식대로 기댓값을 구하는 과정이며, 해법2는 위에서 말한 것과 같이 조건부 기댓값의 기댓값을 구하여 값을 얻어내는 과정이다.
Conditional Expectation 위의 예시는 X가 어떤 x일 때의 Y의 조건부 기댓값을 표현한 것이다. 위의 경우, 일반적인 Y의 기댓값이다. 따라서 Y가 각 조건일 경우 X에 관계없이 확률을 전부 더한 뒤 계산한다. 하지만 조건부 기댓값은 그 계산이 다르다. 우선 f(y|x=3)의 Conditional Random Variable을 다시 계산 한 뒤에 그 기댓값을 게산해야 한다. 연속 확률 변수에서는 위와 같이 계산할 수 있다.
Random Samples 이러한 Random Sample을 IID(Independent and Identically distributed)라고 한다. Random Sample은 결국 Random Variable의 일종이라고 볼 수 있다. Sample mean은 이러한 Random Sample n개를 더한 뒤에 n으로 나눈 값이다. 이 값은 Random Variable의 평균과 동일하다. 그렇다면 분산은 어떨까? Sample Variance는 Variance보다 작아진다. 이것을 우리는 "큰 수의 법칙"이라고 하며, 좀 더 많은 시행을 할 수록 어떤 기댓값에 가까워진다는 것을 의미한다. 가령 6면 주사위를 10번 던질 때와 100000번 던질 때, 각 숫자가 나올 확률은 1/6을 향해 가까워지지 않는가.