통계학 관점에서 본 a/b test 과정과 해석 방법에 대해서 설명한다. 여러 아티클 및 참고 자료를 보면서 알기 쉽게 적어보았다.
[목차]
- 모집단과 표본집단
- 모집단
- 모수 - 편차, 표준 편차, 분산
- 표본집단
- 표본 통계량
- 표준 오차
- 검정 통계량(값)으로 통계 가설 검정하기
- 검정 통계량 - T-value
- 통계 검정 방법
- T-검정(T-test)
- ANOVA 검정(아노바 검정)
- 카이제곱 검정
- F검정 방법
- A/B테스트에서 주로 사용되는 통계 검정법, T-test
- T-test란?
- T-test의 종류 - 독립 표본 T-test, 대응 표본 T-test
- T-test 관련 용어 - 신뢰도, 유의 수준 (=alpha), P-value
- T-test 해석하기 - 양측 검정 (같다/다르다), 단측 검정 (크다/작다)
- A/B 테스트 참고자료
모집단과 표본 집단
모집단
정보를 얻고자 하는 전체 집합을 의미한다.
모수
모집단의 분포가 가지는 특성값을 의미한다. 예를 들면, 평균, 분산, 표준편차, 모비율 등을 의미한다.
따라서 모집단을 아는 것은 불가능에 가깝기 때문에 모수를 바탕으로 모집단의 분포를 추정하려고 한다.
하지만 모수도 알기 어렵기 때문에, 표본집단을 통해 모수를 추정하고자 한다.
편차
관측값에서 평균을 뺀 값이다.
표준편차
편차의 평균값, 즉 평균으로부터 얼마나 떨어져 있는지의 평균값이다.
다른 식으로 표현하자면, 분산의 제곱근(루트값)으로 표현할 수 있다.
분산
관측값에서 평균을 뺀 값(=편차)을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다.
분산이 클수록 데이터들이 평균에서 떨어져 있음을 의미한다.
표본 집단
표본집단은 모집단을 대표하는 부분집합이다. 우리는 모집단을 알 수 없기 때문에 모집단 중에서 랜덤 하게 뽑는 것이 핵심이다.
하지만 랜덤 하게 뽑기 때문에 표본은 추출할 때마다 다른 값으로 구성되게 된다.
표본 통계량
표본 통계랑은 표본집단의 특성값으로 모수의 추정치라고 할 수 있다. 마찬가지로 표본 집단의 평균, 분산, 표준편차 등이 있다.
하지만 표본 집단도 매번 다른 값으로 구성되기 때문에, 언제나 오차를 수반할 수밖에 없다. 이 오차를 '표준 오차'라고 말한다.
표준 오차
표본 집단의 평균치의 표준 편차를 의미한다.
쉽게 말하면, 표본집단을 여러 번 뽑는 과정을 진행한다. 이들의 평균(표본 통계량)을 매번 구해본다.
이 평균들의 표준 편차값이다.
검정 통계량(값)으로 통계 가설 검정하기
검정 통계량이란?
통계적으로 비교 분석할 때, 표본으로부터 계산되는 여러 가지 값(t값 등)들을 의미한다.
표본통계량에 뭔가를 곱하거나 더한 값으로, 통계적 가설의 진위여부를 확인하기 위해 사용된다.
[T-value]
두 표본 집단의 차이를 비교할 때 사용되며, 표본 평균값의 차이를 계산하는 데 사용되는 검정 통계량 방법이다.
차이를 비교하는 이유는 표본 그룹의 평균값들은 어쩔 수 없이 표준 오차를 수반하기 때문이다.
다시 정리하면 T밸류는 통계적 가설의 진위여부를 확인하기 위해서 사용하는 방법 중 하나이며,
① 표본 그룹의 평균값 차이 계산 ②평균값들의 표준오차 이 두 가지 사실을 한꺼번에 검정하여 알려주는 방법이다.
두 집단의 평균값 차이를 표준오차로 나눈 값, 즉 표준오차와 표본 평균사이의 차이 비율값이다.
식으로 적어보자면 '표본그룹의 평균값 차이' / '표준 오차(불확실도)'이다.
통계 가설 검정이란?
앞서 말한 검정통계량 (t값 등)을 바탕으로 통계를 검정하는 다양한 가설 검정 방식이다.
통계 검정방법
데이터를 이용해 어떤 가설이 참인지, 거짓인지 예측할 수 있으며, 대표적으로 T-검정(T-test), ANOVA 검정(아노바 검정), 카이제곱 검정, F검정 방법이 있다.
A/B 테스트에서 주로 사용되는 통계 검정법, T-test
T-test란?
T-test는 가장 대표적인 통계 가설 검정법으로, 특히 실무에서는 A/B 테스트 진행 시 많이 이용된다.
그렇다면 A/B 테스트 진행 시, 언제 T-테스트를 하는 것일까? 다음 사례를 살펴보자.
유입 수는 같으나, 검색수는 고작 0.2 정도밖에 차이가 나지 않는다. 과연 이 차이가 유의미하다고 판단할 수 있을까?
이처럼 A/B 테스트에서 결괏값이 근사하게 나왔을 때, 노이즈로 인한 결과가 아닌지 확인하는 절차가 필요하다.
이때 사용되는 것이 바로 T-test로, 대조군과 실험군 간의 평균 차이를 검정통계량 중 T값을 통해 통계적으로 보는 과정이다.
보통 실험 집단이 두 집단일 때 많이 사용하며, 결괏값 차이가 0.5 이하부터는 한번 진행해 보는 것이 좋다.
T-test의 종류
독립 표본 T-test
서로 다른 두 집단의 평균의 차이가 있는지를 검정하는 방법이다.
보통 a/b 테스트에서는 기존안과 개정안을 비교하기 때문에 독립 표본 t-테스트를 많이 이용한다.
대응 표본 T-test
동일한 집단에서 어떠한 변수의 사전, 사후 차이를 검정하는 방법이다. 단, 정확한 표본으로 통제된 환경에서 측정해야 한다.
T-test 관련 용어
T 테스트를 해석한다는 것은, 신뢰도 유의 수준, p-value에 근거하여 통계 가설이 유의미한가를 판별하면 된다.
신뢰도
말 그대로 얼마의 확률을 믿을 수 있는지, 어느 정도의 오차 범위를 인정할 것 인지 실험자가 설정한 값이다.
보통 95%가 일반적이며, 90%까지 정하기도 한다.
유의 수준 (=alpha)
(1-신뢰도) * 100.
p-value의 기준값을 의미하며, 신뢰도가 95% 일 경우 유의 수준은 0.05가 되며, 이 값을 p-value를 비교한다.
P-value
결과가 우연에서 비롯될 확률, 즉 두 집단의 차이가 얼마나 다른지를 0~1까지 나타낸 수치다. 평균적으로 0.05로 잡는다.
T-test 해석하기
T-test는 두 집단의 평균 차이를 확인 통계 검정 방법이다.
여기서 차이라는 것을 '같다/다르다' '크다/작다'라는 관점에 따라 검정하는 방법이 다르다.
양측 검정 (같다/다르다)
보통 a/b 테스트에서 사용하는 방법으로 두 그룹 간의 성과가 서로 같은지 다른지 여부를 확인하는 방법이다.
(예시) 웹 사이트에서 다른 버튼(A버튼 vs B버튼) 디자인을 테스트하고 있으며, 클릭률을 측정한다.
HO(귀무가설) - A 버튼과 B 버튼의 클릭률은 동일하다.
H1(대립가설) - A 버튼과 B 버튼의 클릭률은 다르다.
0.05보다 작을 경우 | P-value | 0.05보다 클 경우 |
대립 가설 지지 = A/B 의 차이가 명확하다 = A버튼과 B버튼 클릭율 차이가 있다. |
0.05 - 평균 | 귀무 가설 지지 = A/B 의 차이가 있지 않다. = A버튼과 B버튼 클릭율 차이가 없다. |
단측 검정 (크다/작다)
보통 a/b 테스트에서 사용하는 방법으로 두 그룹 간의 성과가 서로 같은지 다른지 여부를 확인하는 방법이다.
(예시) 기존 버튼(A) 보다 새로운 버튼(B)을 적용했을 때, 클릭률이 더 늘어날 것이다.
HO(귀무가설) - 기존 버튼(A)의 클릭률이 새로운 버튼(B) 보다 높거나 같다. (=기존 버전 A 안이 낫다)
H1(대립가설) - 기존 버튼(A)의 클릭률이 새로운 버튼(B) 보다 낮다. (=새로운 개정안 B 안이 낫다)
0.05보다 작을경우 | P-value | 0.05보다 클 경우 |
대립 가설 지지 = 새로운 버전 B안이 낫다. |
0.05 - 평균 | 귀무 가설 지지 = 기존 버전 A안이 낫다. |
A/B 테스트 참고자료
a/b test는 간단해 보이지만, 통계적으로 깊게 파고들면 생각보다 까다로운 분석이다.
글을 쓰면서 같이 참고했던 자료를 함께 첨부한다.
'Product' 카테고리의 다른 글
[분석법] A/B 테스트 설계 과정 (개념, 용어 정의, 실험 설계법) (0) | 2024.02.26 |
---|---|
[지표] 매트릭 하이라키(Metric Hierarchy)로 전사 지표 세팅하기 (1) | 2024.02.09 |
[분석법] 리텐션은 왜 중요하고, 어떻게 측정하면 좋은가? (0) | 2024.01.20 |
워터폴 방식 vs 애자일 방식 (스프린트, 스크럼) (1) | 2023.12.30 |