일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- AWS
- 자동차sw
- can
- it
- TOEFL
- probability
- toefl writing
- GeorgiaTech
- 프로그래밍
- 아마존 웹 서비스
- 암호화폐
- python
- 클라우드
- 오토사
- 퀀트
- 자동매매
- 블록체인
- 확률
- 파이썬
- 백테스트
- 백트레이더
- 개발자
- backtest
- backtrader
- Cloud
- 토플 라이팅
- Bitcoin
- AUTOSAR
- 비트코인
- 토플
- Today
- Total
목록GeorgiaTech (38)
Leo's Garage
A Couple of Worked Correlation Examples
Correlation and Causation 이게 무슨 말일까? Correlation과 인과율은 서로 따라오는 관계는 아니라는 의미이다. 시사하는 바는 Correlation과 Causality는 반드시 필요로 하는 것은 아니라는 점이다.
Covariance and Correlation Covariance는 의미에서 보다시피 번역하면 "공분산"이다. 이전에 학습했듯이 Var(X) = E[(X - u)^2]이다. 따라서 Cov(X,X) = E[(X - E[X])^2] = Var(X)이 된다. Cov(X,Y) = E[(X - E[X])(Y - E[Y])]가 된다. 만약에 X와 Y가 독립사건이라면, E[XY] = E[X]E[Y]가 되므로, Covariance는 0이 된다. 즉, X 와 Y가 독립사건이라면 반드시 Covariance가 0이지만 그 역은 성립하지 않을 수 있다는 것이다. Correlation은 차원이 없는 값이다. Covariance를 각 RV의 분산곱의 제곱근으로 나눈값이다. 그 값이 1에 가깝다면 상관관계가 높다는 뜻이고, 0에..
Standard Conditioning Argument E[Y] = P(A)인데, 이때 어떤 RV X에 대해서 E[Y|X = x] = P(Y = 1 | X = x) = P(A|X = x). 로 정리가 될 수 있다. 뭔가 더 복잡하게 만든 것처럼 보인다. 이 경우에 위에서 전개한 Standard Conditioning Argument를 이용하여 위와 같이 정리할 수 있다. 중요한건 P(Y
Random Sums of Random Variables 여기서 주의해야하는 것은 아랫줄의 식에서 왼쪽과 오른쪽은 같지 않은데 왼쪽은 숫자이고 오른쪽은 랜덤이다. 왜냐하면 여기서 말하는 N 자체 또한 RV라고 했기 때문이다. (X와 독립적인....)
First-Step Analysis Y는 Geom 분포를 가지는데 동전을 던져서 첫 Head가 나올 사건의 기댓값을 구해야 한다. X를 첫 토스해서 Head나 Tail이 나올 사건이라고 가정하면, X = T인 경우에는 첫 시도는 실패이므로, 1을 더해야하므로 E[Y|X] = 1 + E[Y], X = H인 경우에는 1회만에 성공이므로, E[Y|X]는 1이다. 우리는 Y의 기댓값을 구하고 싶으므로, 앞 서 이야기한 Double Expectation 원리를 사용하면 조건부 기댓값의 기댓값으로 Y의 기댓값을 도출할 수 있다. Head가 나올 확률은 P, Tail이 나올 확률이 1-p라고 할 때, 위의 공식대로 계산하면 1/p가 나오게 된다. 이 경우에 쉽게 말해서 Y = A + B인데, A는 처음으로 H가 나올..
Double Expectation 조건부 기댓값의 기댓값이 기댓값이다. 이게 무슨 말일까? 실제로 조건부 기댓값을 h(X)로 치환하고 LOTUS를 이용하여 기댓값을 계산해보면 원래의 기댓값이 나온다. 핵심은 조건부 확률을 치환할 수 있고, 그 치환된 값을 이용해서 Jointly RV를 만든 뒤에 다시 Marginal Distribution 공식으로 정리할 수 있다는 것이다. 조건부 기댓값은 f(x,y)/fx(X)로 치환한 뒤 y를 곱하고, y의 범위인 x^2부터 1까지 적분을 통해서 구할 수 있다. 해법 1의 경우에는 기존에 방식대로 기댓값을 구하는 과정이며, 해법2는 위에서 말한 것과 같이 조건부 기댓값의 기댓값을 구하여 값을 얻어내는 과정이다.
Random Samples 이러한 Random Sample을 IID(Independent and Identically distributed)라고 한다. Random Sample은 결국 Random Variable의 일종이라고 볼 수 있다. Sample mean은 이러한 Random Sample n개를 더한 뒤에 n으로 나눈 값이다. 이 값은 Random Variable의 평균과 동일하다. 그렇다면 분산은 어떨까? Sample Variance는 Variance보다 작아진다. 이것을 우리는 "큰 수의 법칙"이라고 하며, 좀 더 많은 시행을 할 수록 어떤 기댓값에 가까워진다는 것을 의미한다. 가령 6면 주사위를 10번 던질 때와 100000번 던질 때, 각 숫자가 나올 확률은 1/6을 향해 가까워지지 않는가.
Consequences of Independence LOTUS의 증명을 확장하면 위와 같이 전개할 수 있다. 만약에 X와 Y가 독립적이라면 XY 곱의 기대값은 각각의 기대값의 곱과 같다. X와 Y의 합의 분산은 각각의 분산의 합과 같다.
Independent Random Variables 독립사건을 다시 상기시켜보자. 독립사건의 정의는 위와 같다. 만약에 두 사건이 독립이면, 조건부 확률은 그 사건의 확률과 동일하다. 자 이제 두 개의 독립적인 RV가 있다고 할 때, 두 RV는 서로 영향을 주지 못한다. 만약에 독립이 아니면 두 RV는 의존적이라고 볼 수 있다. 각각 x와 y에 대한 함수로 분리가 가능하다면 우리는 두 RV가 독립적이라고 볼 수 있을 것 이다. 위의 경우에는 독립적이라고 볼 수 없다. 왜냐면 x와 y로 분리할 수 없기 때문이다.