A/B 테스트 용어 사전

Experimentation

A/B 테스트를 공부할 때 알아두면 좋은 용어들

Author

Taemo Bang

Published

October 31, 2022

Photo by Romain Vignes on Unsplash

(Kohavi, Tang, and Xu 2020)를 바탕으로 A/B 테스트에 관한 글들을 시리즈로 작성하고자 합니다. 본 시리즈에서는 A/B 테스트 외에 A/A 테스트, A/B/n 테스트와 같은 다양한 형태의 온라인 종합 대조 실험(online controlled experiment)1를 소개합니다. 사실, (Kohavi, Tang, and Xu 2020)에서는 A/B test라는 용어보다는 온라인 종합 대조 실험이라는 일반화된 용어를 대체로 사용하긴 하나, 저는 우리에게 좀 더 익숙한 A/B 테스트라는 용어로 글을 적어보려고 합니다. 물론, 그외 다른 A/A 테스트와 같은 형태의 실험에 대해 설명할 때는 해당 용어를 사용할 예정입니다.

(Kohavi, Tang, and Xu 2020)에서는 온라인 종합 대조 실험이 온라인 서비스에서 갖는 가치, 중요성에 대해서 끊임없이 강조합니다. HiPPO2에 의존하는 것이 아닌, 데이터 기반 문화를 구축하기 위해 온라인 종합 대조 실험을 수행하는 것이 얼마나 중요한지 구체적으로 알려주죠.오늘날의 성공한 온라인 서비스 중 A/B 테스트를 하지 않는 곳은 없습니다. 에어비앤비, 아마존, 부킹닷컴, 이베이, 페이스북, 구글, 링크드인, 마이크로소프트, 넷플릭스, 트위터, 우버 등 말하기 입이 아픈 정도입니다. 이 책의 저자들은 아마존, 마이크로소프트, 구글, 링크드인에서 수십 년간 근무하며 여러 규모로 온라인 종합 대조 실험을 수행해왔으며, 이러한 경험을 바탕으로 얻은 교훈들을 책을 통해 전해주고 있습니다.

저와 같은 A/B 테스트 초심자들에게는 단비같은 책이라고 할 수 있을 것 같습니다. 본 책을 공부하며 깨달은 내용들을 본 시리즈 물에서 저만의 언어로 최대한 요약해보고자 합니다. 통계학 전공자라 학부와 석사 때 실험설계를 공부하긴 했지만, 온라인 서비스 영역에서의 실험설계라 할 수 있는 온라인 종합 대조 실험에는 무지한 상태입니다. 잘못 생각하고 있는 부분이 있다면 가감없이 댓글로 지적해주시면 감사하겠습니다.😀 책의 서문에서 강조하는 바를 되새기며 이만 소개를 마칩니다.

흥미로워 보이거나 다르게 보이는 어떤 수치는 대체로 틀린다 - Twyman

숫자를 얻는 것은 쉽지만, 믿을 수 있는 숫자를 얻는 것은 어렵다.

A/B test, 더 넓게는 온라인 종합 대조 실험(online controlled experiment)의 이해에 필요한 용어들을 간략하게 정리해보고자 합니다. 용어들은 앞으로 꾸준하게 추가될 예정입니다. 새로운 분야에 대한 공부를 시작할 때, 새롭게 알게 된 용어에 대한 확실한 정의는 매우 중요하니까요.

A/B 테스트

다 아시겠지만 한 번 정의하고 넘어가려고 합니다. A/B 테스트는 두 개의 변형(variant) A와 B를 사용하는 온라인 종합 대조 실험의 가장 간단한 형태라고 할 수 있습니다. 여기서 대조군에는 기존의 기능, 프로덕트 또는 알고리즘3을 부여받은 사용자들이 랜덤하게(randomized) 배치되고, 실험군은 핵심 지표(metrics) 개선을 기대하며 도입하는 새로운 어떤 것을 부여받은 사용자들이 랜덤하게 배치될 겁니다. 온라인 종합 실험에서 랜덤성(Randomization)은 매우 중요합니다. 어떠한 요인도 사용자들을 각 변형에 배정하는 데에 영향을 주도록 허용해서는 안됩니다. 랜덤성은 “확률에 기초한 의도적 선택”을 의미한다는 점을 기억하시기 바랍니다.

OEC

OEC는 전체평가기준으로 Overall Evaluation Criterion의 약자입니다. 실험 목적에 해당하는 계량적인 지표를 의미합니다. 통계학에서는 이를 반응변수(reponse variable), 종속변수(dependent variable)라 칭하기도 하죠. 그외 결과(outcome), 평가(evaluation), 적합도 함수(fitness function)을 동의어로 사용하기도 합니다(Quarto-vonTibadar 2006). OEC는 단기적으로는 실험 기간 동안 측정할 수 있어야하며, 동시에 장기적으로는 전사의 전략적 목표와 맞닿아 있어야 합니다. 예를 들어, 특정 온라인 서비스의 OEC는 사용자별 활동 일 수(active days per user)가 될 수 있습니다. 단순하게 매출과 같은 후행지표를 OEC로 선정해서는 안됩니다. 전사적으로 좋은 OEC가 설정되지 않았다는 것은, 리소스를 낭비하고 있다는 뜻일 수 있습니다.

파라미터

파라미터(parameter)는 OEC 또는 기타 관심 지표에 영향을 미칠 것으로 간주되는 통제 가능한 실험변수를 뜻합니다. 요인(factors), 변수(variables)라 칭하기도 합니다. 파라미터에는 값이 할당되는데, 이를 수준(level)이라 말하더군요. 통계학에 익숙하신 분들은 범주형 변수를 떠올리시면 될 것 같습니다. 예를 들어, A/B 테스트에서 파라미터는 2개의 수준을 갖는 단일 파라미터에 해당할 것입니다. 온라인 환경에서는 이처럼 여러 개의 수준을 갖는 단일 파라미터 설계를 사용하는 것이 일반적입니다. 여러 파라미터를 사용하는 테스트는 다변수 테스트(MVTs, Mutivariate tests)4라 부릅니다. 온라인 환경에서는 글꼴 색상과 크기에 관한 실험을 하며 글꼴 색상과 크기에 관한 최적 조합을 찾고자할 때 사용되곤 합니다.

변형군

변형군(variants)를 파라미터라는 용어를 동원하여 정의하자면, 파라미터에 값을 할당하여 테스트 하는 사용자 그룹이라고 할 수 있습니다. 예를 들어, A/B 테스트에서 A와 B는 대조군(control group), 실험군(treatment group)이라 불리는 변형군이 있습니다. 그냥 편하게 실험을 구성하는 각 그룹을 변형군이라고 칭한다고 보시면 될 것 같습니다. 실험군에 대해서만 변형군이라고 칭하는 일부 문헌도 존재한다고 합니다.

가드레일 지표

가드레일 지표(guardrail metrics)란, 조직이 무엇을 변화시키지 않으려 하는지 식별하기 위해 꼭 필요한 지표라고 할 수 있겠습니다. 이름에 가드레일이 들어가는 이유 또한 이와 맞닿아 있습니다. 예를 들어, 바다 위를 떠다니는 유람선에서 승객들에게 제공하는 음식을 개선하기 위한 실험을 생각해봅시다. 이때, 바다 위를 항해하는 유람선에서 승객들의 안전 지표는 다른 어떤 요인들과 비교해도, 더 중요한 지표라고 할 수 있겠죠. 즉, 승객 안전은 이 실험에서 가드레일 지표라 할 수 있습니다. 승객들의 안전만큼은 결코 변화시키지 않고(낮추지 않고), 실험을 진행하겠다는 말입니다. 이를 위해서는 실험에 대한 OEC에 승객들의 안전에 관한 변수의 가중치를 매우 높여주면 됩니다. 안전에 따라 OEC가 민감하게 변화하도록 말이죠. 이 문제를 온라인 환경으로 가져와보면 소프트웨어 충돌을 생각해볼 수 있습니다. 도입한 기능이 제품의 충돌을 증가시키는 경우 유저들의 경험에는 심각한 영향을 끼칠 것입니다.

References

Kohavi, Ron, Diane Tang, and Ya Xu. 2020. Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. https://experimentguide.com/.

Footnotes

  1. 온라인 종합 대조 실험의 형태로는 A/B test, A/A test, A/B/n test가 있다.↩︎

  2. Highest Paid Person’s Opinion. 최고 보수를 받는 자의 의견. 즉, 최고 경영자의 의견.↩︎

  3. e.g. 이커머스 업계의 추천 시스템을 구성하는 알고리즘↩︎

  4. Multivariate은 다변량인데, 다변수 테스트라고 번역하는게 맞는지 모르겠습니다. 우선 책에 이렇게 번역이 되어있어 다변수 테스트라 남겨둡니다.↩︎

Reuse

Citation

BibTeX citation:
@online{bang2022,
  author = {Bang, Taemo},
  title = {A/B 테스트 용어 사전},
  date = {2022-10-31},
  url = {https://taemobang.com/posts/2022-10-31-abtest-terms/},
  langid = {kr}
}
For attribution, please cite this work as:
Bang, Taemo. 2022. “A/B 테스트 용어 사전.” October 31, 2022. https://taemobang.com/posts/2022-10-31-abtest-terms/.

새 글이 발행되면 알려드려요.

포스팅을 독려해주실 수 있어요.