A/B 테스트
A/B testingA/B 테스트(버킷 테스트 또는 분할 실행 테스트라고도 함)는 사용자 경험 연구 방법론이다.[1]A/B 테스트는 A와 B라는 두 가지 변형을 가진 무작위 실험으로 구성된다.[2][3][4]통계 분야에 사용되는 통계 가설 검정 또는 "2-표본 가설 검정"의 적용을 포함한다.A/B 시험은 단일 변수의 두 버전을 비교하는 방법이다. 일반적으로 변종 A에 대한 피험자의 반응을 변종 B에 대해 테스트하고, 두 변종 중 어떤 것이 더 효과적인지 판단한다.[5]
개요
A/B 검정은 단일 벡터 변수의 두 표본(A와 B)을 비교하는 단순한 무작위 제어 실험의 속기다.[1]이러한 값은 사용자의 행동에 영향을 미칠 수 있는 한 가지 변동을 제외하고는 유사하다.A/B 테스트는 가장 간단한 형태의 통제 실험으로 널리 간주된다.그러나, 시험에 더 많은 변형을 추가함으로써, 그것의 복잡성은 증가한다.[6]
A/B 테스트는 새로운 기능이나 제품과 같은 온라인 기능의 사용자 참여와 만족도를 이해하는 데 유용하다.[7]LinkedIn, Facebook, 인스타그램과 같은 대형 소셜 미디어 사이트들은 A/B 테스팅을 사용하여 사용자 경험을 더욱 성공적으로 만들고 서비스를 간소화하는 방법으로 사용한다.[7]
오늘날에는 사용자가 오프라인일 때 네트워크 효과, 온라인 서비스가 사용자 행동에 어떤 영향을 미치는지, 사용자가 서로에 어떤 영향을 미치는지 등 주제에 대한 복잡한 실험을 하는 데도 A/B 시험이 이용되고 있다.[7]많은 직업들이 A/B 테스트의 데이터를 사용한다.여기에는 데이터 엔지니어, 마케터, 디자이너, 소프트웨어 엔지니어 및 기업가가 포함된다.[8]기업이 성장을 이해하고 수익을 증대하며 고객 만족도를 최적화할 수 있도록 하기 때문에 많은 포지션이 A/B 테스트의 데이터에 의존한다.[8]
버전 A는 현재 사용되는 버전(즉 제어 그룹을 형성하는 버전)일 수 있지만, 버전 B는 일부 측면에서 수정된다.A(치료 그룹을 형성하는 것)예를 들어, 전자상거래 웹사이트에서 구매 깔때기는 일반적으로 A/B 테스트의 좋은 후보인데, 이는 심지어 한계적인 하락률도 매출의 큰 증가를 나타낼 수 있기 때문이다.복사 텍스트, 레이아웃, 이미지 및 색상과 같은 테스트 요소를 통해 상당한 개선 사항을 볼 수 있지만 항상은 아니다.[9]이 테스트에서 사용자는 두 버전 중 어느 버전이 더 바람직한지 알아내는 것이 목적이기 때문에 두 버전 중 한 버전만 볼 수 있다.[10]
다변량 시험 또는 다항 시험은 A/B 시험과 유사하지만 동시에 세 개 이상의 버전을 시험하거나 더 많은 제어장치를 사용할 수 있다.단순한 A/B 테스트는 조사 데이터, 오프라인 데이터 및 기타 복잡한 현상에 공통적인 관찰, 유사 실험 또는 기타 비실험 상황에 유효하지 않다.
A/B 테스트는 다양한 연구 전통에서 일반적으로 사용되는 대상 간 설계와 동일한 접근방식이지만 일부에서는 특정 틈새에서 철학과 비즈니스 전략의 변화라고 주장한다.[11][12][13]웹 개발의 철학으로서의 A/B 테스트는 그 분야를 증거 기반 실행으로 가는 더 넓은 움직임과 일치시킨다.A/B 테스트의 이점은 거의 모든 경우에 지속적으로 수행될 수 있다는 것으로 간주되며, 특히 현재 대부분의 마케팅 자동화 소프트웨어에는 A/B 테스트를 지속적으로 실행할 수 있는 기능이 제공되고 있기 때문이다.
공통 테스트 통계량
"2-표본 가설 검정"은 표본을 실험에서 두 대조군 사례로 나눈 두 표본을 비교하는 데 적절하다.Z-검정은 정규성과 알려진 표준 편차에 관한 엄격한 조건 하에서 평균을 비교하는 데 적합하다.학생들의 t-검사는 적은 양을 가정했을 때 완화된 조건에서 평균을 비교하는 데 적합하다.Welch의 t 검정은 가장 적게 가정하며 따라서 측정지표의 평균이 최적화될 2-표본 가설 검정에서 가장 일반적으로 사용되는 검정이다.최적화할 변수의 평균이 추정기의 가장 일반적인 선택이지만, 다른 변수들은 정기적으로 사용된다.
클릭 스루 레이트와 같은 두 이항 분포의 비교를 위해 Fisher의 정확한 검정을 사용할 것이다.
가정분포 | 예시 사례 | 표준시험 | 대체시험 |
---|---|---|---|
가우스어 | 사용자당 평균 수익 | Welch의 t 검정(비장애 t 검정) | 학생 t-테스트 |
이항체 | 클릭율 | 피셔의 정확한 검사 | 바르나드 시험 |
포아송 | 유료 사용자당 트랜잭션 수 | E-테스트[14] | C-테스트 |
다항체 | 구매한 각 제품 수 | 카이-제곱 검정 | |
알 수 없는 | Mann-Whitney U 검정 | 깁스 샘플링 |
과제들
2018년 12월에는 13개 기관(에어비앤비, 아마존, Booking.com, 페이스북, 구글, 링크드인, 리프트, 마이크로소프트, 넷플릭스, 트위터, 우버, 스탠퍼드대)의 대규모 A/B 테스트 경험이 있는 대표들이 정상회의에 참석해 SIGKDD 탐색 논문에 주요 과제를 요약했다.[15]당면 과제는 다음과 같은 네 가지 영역으로 분류할 수 있다.분석, 엔지니어링 및 문화, 기존 A/B 테스트로부터의 이탈 및 데이터 품질.
역사
대부분의 분야와 마찬가지로, 새로운 방법의 출현 날짜를 정하는 것은 어렵다.동종 요법 약물의 효과를 평가하기 위한 최초의 무작위 이중 블라인드 실험은 1835년에 일어났다.[16]현대의 A/B 테스트와 비교되어온 광고 캠페인에 대한 실험은 20세기 초에 시작되었다.[17]광고의 선구자인 클로드 홉킨스는 그의 캠페인의 효과를 시험하기 위해 홍보 쿠폰을 사용했다.그러나 홉킨스가 그의 과학 광고에서 기술한 이 과정은 통계적 유의성이나 통계적 가설 시험에 사용되는 귀무 가설과 같은 개념을 포함하지 않았다.[18]표본 데이터의 유의성을 평가하기 위한 현대의 통계적 방법은 같은 기간에 별도로 개발되었다.이 작업은 1908년 윌리엄 씰리 고셋이 학생 t-테스트를 만들기 위해 Z-테스트를 변경했을 때 이루어졌다.[19][20]
인터넷의 성장과 함께, 모집단을 샘플링하는 새로운 방법들이 이용 가능하게 되었다.구글 엔지니어들은 자사의 검색 엔진 결과 페이지에 표시할 최적의 결과 수가 얼마인지를 판단하기 위해 2000년에 첫 A/B 테스트를 실시했다.[5]첫 번째 테스트는 느린 로딩 시간으로 인한 결함으로 인해 실패하였다.이후 A/B 테스트 연구가 더 진전되겠지만, 기초와 기본 원칙은 대체로 그대로 유지되며, 구글의 첫 테스트 이후 11년 만인 2011년 구글은 7000여 건의 다른 A/B 테스트를 진행했다.[5]
2012년, 검색 엔진에 종사하는 마이크로소프트의 한 직원이 광고 헤드라인을 표시하는 다른 방법을 시험하기 위한 실험을 만들었다.몇 시간 이내에 대체 포맷은 사용자 경험 지표에 영향을 미치지 않으면서 12%의 매출 증가를 초래했다.[4]오늘날, 마이크로소프트와 구글과 같은 회사들은 각각 매년 10,000회 이상의 A/B 테스트를 실시하고 있다.[4]
현재 많은 기업들은 관련 샘플 결과가 긍정적인 전환 결과를 향상시킬 수 있다는 기대를 가지고 "설계된 실험" 접근방식을 마케팅 의사결정에 사용한다.[citation needed]이 분야에서 도구와 전문지식이 성장함에 따라 점차 보편화되고 있는 관행이다.[21]
예
이메일 마케팅
2000명의 고객 데이터베이스를 보유한 한 회사가 자사 홈페이지를 통해 매출을 창출하기 위해 할인코드로 e-메일 캠페인을 벌이기로 했다.그것은 서로 다른 영업 활동(판매 캠페인의 경우, 구매를 권유하는 사본 부분)과 판촉 코드를 식별하는 두 가지 버전의 이메일을 만든다.
- 1,000명에게 이메일을 보내며 "오퍼는 이번 주 토요일에 끝나!코드 A1"을 사용하십시오.
- 그리고 또 다른 1,000명에게 이메일을 보내 "오퍼는 곧 끝나!코드 B1"을 사용하십시오.
이메일의 복사 및 레이아웃의 다른 모든 요소는 동일하다.이어 홍보코드 활용도를 분석해 어떤 캠페인의 성공률이 더 높은지 모니터링한다.코드 A1을 사용한 이메일은 응답률이 5%(메일을 보낸 1,000명 중 50명)이고, 코드 B1을 사용한 이메일은 응답률이 3%(수신자의 30명은 코드를 사용하여 제품을 구입)이다.따라서 회사는 이 경우 첫 번째 콜 투 액션(Call To Action)이 더 효과적이며 향후 판매에 활용할 것이라고 판단한다.더 미묘한 접근방식은 A1과 B1 사이의 응답률 차이가 통계적으로 유의한지(즉, 차이가 실제적이고 반복 가능하며 무작위 우연에 의한 것이 아닐 가능성이 매우 높음)[22]를 결정하기 위해 통계적 시험을 적용하는 것을 포함할 것이다.
위의 예에서 테스트의 목적은 고객이 구매하도록 권장하는 보다 효과적인 방법을 결정하는 것이다.그러나 테스트의 목적은 어떤 이메일이 더 높은 클릭율, 즉 이메일을 받은 후 실제로 웹사이트를 클릭하는 사람들의 수를 확인하는 것이었다면 결과는 다를 수 있었을 것이다.
예를 들어, B1 코드를 받은 고객 중 더 많은 수가 웹사이트에 접속했음에도 불구하고, 콜 투 액션(Call To Action)이 프로모션 종료일을 명시하지 않았기 때문에, 그들 중 많은 고객이 즉시 구매해야 할 긴급함을 느끼지 않을 수 있다.따라서, 테스트의 목적이 단순히 어떤 이메일이 웹사이트에 더 많은 트래픽을 가져올지 확인하는 것이었다면, 코드 B1이 포함된 이메일이 더 성공했을 것이다.A/B 테스트는 판매 대수, 클릭율 변환 또는 가입/등록 인원 수와 같이 측정할 수 있는 정의된 결과를 가져야 한다.[23]
제품 가격에 대한 A/B 테스트
A/B 테스트는 새로운 제품이나 서비스가 출시될 때 아마도 가장 어려운 작업 중 하나일 것이기 때문에 제품의 적절한 가격을 결정하는 데 사용될 수 있다.
A/B 테스트(특히 디지털 상품에 유효)는 어떤 가격 기준과 오퍼링이 총 수익을 극대화하는지 알아낼 수 있는 훌륭한 방법이다.
정치 A/B 테스트
A/B 테스트는 기업보다 더 많이 사용되지만, 정치적 캠페인도 주도하고 있다.2007년 버락 오바마의 대선 캠페인은 온라인에서 인기를 얻고 유권자들이 대통령 후보로부터 무엇을 보고 싶어하는지 이해하기 위한 방법으로 A/B 테스트를 이용했다.[24]예를 들어, 오바마 팀은 사용자들이 뉴스레터를 구독하도록 이끈 4개의 뚜렷한 버튼을 그들의 웹사이트에서 테스트했다.또한, 이 팀은 사용자들을 끌어들이기 위해 6개의 다른 첨부 이미지들을 사용했다.A/B 테스트를 통해 직원들은 효과적으로 유권자들을 끌어들이고 추가적인 관심을 얻는 방법을 결정할 수 있었다.[24]
HTTP 라우팅 및 API 기능 테스트
A/B 테스트는 API의 최신 버전을 배포할 때 매우 흔하다.[25]실시간 사용자 경험 테스트의 경우 HTTP Layer-7 Reverse 프록시는 HTTP 트래픽의 N%가 백엔드 인스턴스의 최신 버전에 들어가는 반면 나머지 100-N%는 백엔드 HTTP 애플리케이션 서비스의 (안정적) 이전 버전에 도달하는 방식으로 구성된다.[25]이는 일반적으로 새로운 버그가 있는 경우 전체 사용자 에이전트 또는 클라이언트의 N%만 영향을 받는 반면 다른 사용자는 안정적인 백엔드로 라우팅되는 등 새로운 백엔드 인스턴스에 대한 고객 노출을 제한하기 위해 수행된다.[25]
세분화 및 타겟팅
A/B 시험은 대부분 동일한 변종(예: 사용자 인터페이스 요소)을 모든 사용자에게 동일하게 적용한다.그러나 어떤 상황에서는 변형에 대한 반응이 이질적일 수 있다.즉, 변종 A가 전반적으로 더 높은 응답률을 보일 수 있지만, 변종 B는 고객층의 특정 부문 내에서 훨씬 더 높은 응답률을 가질 수 있다.[26]
예를 들어, 위의 예에서 성별에 따른 응답률의 분석은 다음과 같을 수 있다.
성별 | 전체적으로 | 남자들 | 여성들. |
---|---|---|---|
발송 총계 | 2,000 | 1,000 | 1,000 |
총 응답 수 | 80 | 35 | 45 |
변종 A | 50/ 1,000 (5%) | 10/ 500 (2%) | 40/ 500 (8%) |
변종 B | 30/ 1,000 (3%) | 25/ 500 (5%) | 5/ 500 (1%) |
이 경우 변종 A의 응답률이 전반적으로 높았지만, 실제로 변종 B의 응답률은 남성보다 높았다는 것을 알 수 있다.
이에 따라 A/B 테스트의 결과로 세분화된 전략을 선택할 수 있어 향후 남성에게는 변종 B, 여성에게는 변종 A를 보낼 수 있다.이 예제에서 세분화된 전략은 응답률의 증가를 5%= + + 5에서 %= + + {\.5로 산출할 것이다.
A/B 테스트에서 분할된 결과가 기대되는 경우, 테스트는 성별과 같은 주요 고객 속성에 걸쳐 균등하게 분포되도록 처음부터 적절히 설계되어야 한다.즉, 테스트는 ⑴ 남성 대 여성의 대표적인 표본을 포함해야 하며, ⑵ 남성과 여성을 각 "변수"(변수 A 대 변종 B)에 랜덤하게 할당해야 한다.그렇게 하지 않으면 실험의 치우침과 부정확한 결론이 시험에서 도출될 수 있다.[27]
이러한 세분화 및 타겟팅 접근방식은 테스트 결과에 존재할 수 있는 더 미묘한 패턴을 식별하기 위해 단일 고객 속성(예: 고객의 나이와 성별)이 아닌 여러 고객 속성을 포함하도록 더욱 일반화할 수 있다.
참고 항목
참조
- ^ a b Young, Scott W. H. (August 2014). "Improving Library User Experience with A/B Testing: Principles and Process". Weave: Journal of Library User Experience. 1 (1). doi:10.3998/weave.12535642.0001.101. hdl:2027/spo.12535642.0001.101.
- ^ Kohavi, Ron; Xu, Ya; Tang, Diane (2000). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.
- ^ Kohavi, Ron; Longbotham, Roger (2017). "Online Controlled Experiments and A/B Tests" (PDF). In Sammut, Claude; Webb, Geoff (eds.). Encyclopedia of Machine Learning and Data Mining. Springer.
- ^ a b c Kohavi, Ron; Thomke, Stefan (September 2017). "The Surprising Power of Online Experiments". Harvard Business Review: 74–82.
- ^ a b c "The ABCs of A/B Testing - Pardot". Pardot. 12 July 2012. Retrieved 2016-02-21.
- ^ Kohavi, Ron; Longbotham, Roger (2017). "Online Controlled Experiments and A/B Testing". Encyclopedia of Machine Learning and Data Mining. pp. 922–929. doi:10.1007/978-1-4899-7687-1_891. ISBN 978-1-4899-7685-7.
- ^ a b c Xu, Ya; Chen, Nanyu; Fernandez, Addrian; Sinno, Omar; Bhasin, Anmol (10 August 2015). "From Infrastructure to Culture: A/B Testing Challenges in Large Scale Social Networks". Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining: 2227–2236. doi:10.1145/2783258.2788602. S2CID 15847833.
- ^ a b Siroker, Dan; Koomen, Pete (2013-08-07). A / B Testing: The Most Powerful Way to Turn Clicks Into Customers. John Wiley & Sons. ISBN 978-1-118-65920-5.
- ^ "Split Testing Guide for Online Stores". webics.com.au. August 27, 2012. Retrieved 2012-08-28.
- ^ Kaufman, Emilie (2014). "On the Complexity of A/B Testing" (PDF). 35. arXiv:1405.3224. Bibcode:2014arXiv1405.3224K – via JMLR: Workshop and Conference Proceedings.
{{cite journal}}
:Cite 저널은 필요로 한다.journal=
(도움말) - ^ Christian, Brian (2000-02-27). "The A/B Test: Inside the Technology That's Changing the Rules of Business Wired Business". Wired.com. Retrieved 2014-03-18.
- ^ Christian, Brian. "Test Everything: Notes on the A/B Revolution Wired Enterprise". Wired. Retrieved 2014-03-18.
- ^ Cory Doctorow (2012-04-26). "A/B testing: the secret engine of creation and refinement for the 21st century". Boing Boing. Retrieved 2014-03-18.
- ^ Krishnamoorthy, K.; Thomson, Jessica (2004). "A more powerful test for comparing two Poisson means". Journal of Statistical Planning and Inference. 119: 23–35. doi:10.1016/S0378-3758(02)00408-1. S2CID 26753532.
- ^ Gupta, Somit; Kohavi, Ronny; Tang, Diane; Xu, Ya; Andersen, Reid; Bakshy, Eytan; Cardin, Niall; Chandran, Sumitha; Chen, Nanyu; Coey, Dominic; Curtis, Mike; Deng, Alex; Duan, Weitao; Forbes, Peter; Frasca, Brian; Guy, Tommy; Imbens, Guido W.; Saint Jacques, Guillaume; Kantawala, Pranav; Katsev, Ilya; Katzwer, Moshe; Konutgan, Mikael; Kunakova, Elena; Lee, Minyong; Lee, MJ; Liu, Joseph; McQueen, James; Najmi, Amir; Smith, Brent; Trehan, Vivek; Vermeer, Lukas; Walker, Toby; Wong, Jeffrey; Yashkov, Igor (June 2019). "Top Challenges from the first Practical Online Controlled Experiments Summit". SIGKDD Explorations. 21 (1): 20–35. doi:10.1145/3331651.3331655. S2CID 153314606.
- ^ Stolberg, M (December 2006). "Inventing the randomized double-blind trial: the Nuremberg salt test of 1835". Journal of the Royal Society of Medicine. 99 (12): 642–643. doi:10.1258/jrsm.99.12.642. PMC 1676327. PMID 17139070.
- ^ "A/B 테스트란 무엇인가."변환하다.2020년-01-28년 발견
- ^ "클로드 홉킨스는 광고를 과학으로 바꾸었다."2019년 11월 1일 발견
- ^ "Brief history and background for the one sample t-test". 20 June 2007.
- ^ Box, Joan Fisher (1987). "Guinness, Gosset, Fisher, and Small Samples". Statistical Science. 2 (1): 45–52. doi:10.1214/ss/1177013437.
- ^ "A/B Testing: The ABCs of Paid Social Media". Anyword. 2020-01-17. Retrieved 2022-04-08.
- ^ Amazon.com. "The Math Behind A/B Testing". Archived from the original on 2015-09-21. Retrieved 2015-04-12.
- ^ Kohavi, Ron; Longbotham, Roger; Sommerfield, Dan; Henne, Randal M. (February 2009). "Controlled experiments on the web: survey and practical guide". Data Mining and Knowledge Discovery. 18 (1): 140–181. doi:10.1007/s10618-008-0114-1. S2CID 17165746.
- ^ a b Siroker, Dan; Koomen, Pete (2013-08-07). A / B Testing: The Most Powerful Way to Turn Clicks Into Customers. John Wiley & Sons. ISBN 978-1-118-65920-5.
- ^ a b c Szucs, Sandor (2018). "Modern HTTP Routing" (PDF). Usenix.org.
- ^ "Advanced A/B Testing Tactics That You Should Know Testing & Usability". Online-behavior.com. Archived from the original on 2014-03-19. Retrieved 2014-03-18.
- ^ "Eight Ways You've Misconfigured Your A/B Test". Dr. Jason Davis. 2013-09-12. Retrieved 2014-03-18.