"מוכן/ה להשתתף בניסוי?" – כמה נתונים צריך ניסוי A/B-Testing מובהק?

אחד מהמרכיבים החשובים ביותר ליצירת צמיחה הוא ניסוי וטעיה.
בעולם המיזמים, זה מתייחס לביצוע ניסויים על פיצ'רים שונים במוצר ועל קהלי יעד שונים, וזיהוי החלופה שבה הביצועים התבררו כטובים ביותר.
אז יש לנו ניסוי שרץ, ויש לנו תוצאות. אך כיצד נדע האם ניסוי A/B-Testing מובהק?

חישוב מובהקות לניסוי A/B-Testing

קיימים לא מעט מחשבונים לבדיקת מובהקות התוצאה, לדוגמה: זה של Mixpanel.

הכלי מאפשר להזין כמות מבקרים/תנועה בכל וריאציה, וכמות האירועים של התוצאה הרצויה (לדוגמה: המרות).

לאחר מכן הכלי מבצע בדיקת סטטיסטית (לרוב חי בריבוע) ומחזיר לנו את מידת המובהקות של התוצאה. אם היא מעל 95% – התוצאה נחשבת למובהקת (לעיתים אפשר לקבל גם 90% ומעלה).

הערכת גודל מדגם נדרש לטובת ניסוי A/B-Testing מובהק

אך מה קורה במידה ועדיין לא התחלנו את הניסוי – ואנחנו רוצים לתכנן כמה מהתנועה להקצות לכל וריאציה בשביל לקבל ניסוי A/B-Testing מובהק?
במקרה הזה נוכל להשתמש במחשבון לצורך סימולציה, על מנת לקבוע לכמה משתמשים נצטרך להציג כל וריאציה.

חברת Optimizely אשר מפיצה מוצר לאופטימיזציה הוציאה מחשבון סימולציה ייעודי לנושא, ואפשר לעשות בו שימוש ישיר. חשוב להדגיש, כי החישובים שם הם ייחודיים (פונקציית התפלגות מחמירה יותר לבדיקת השערות), ולכן נוטים להחזיר כתוצאה כמות משתמשים גבוהה – ביחס למחשבונים פשוטים יותר.

עבור מי שמחפש כמות משתמשים קטנה יותר, או גמישות רבה יותר בבחירת כמות התצפיות בכל וריאציה, אפשר לעשות שימוש במחשבונים אחרים (דוגמת הקודם שהוצג או מחשבונים באתרי סטטיסטיקה או מחשבון ייעודי שהכנתי ב-Google Sheets), ולמצוא את כמות המשתמשים המומלצת לכל וריאציה בהתייחס למספר גורמים:

התוצאה שאנו רוצים למדוד – מה נחשב כהצלחה
(לדוגמה: כמות ההמרות + יחס ההמרה בכל וריאציה).
מומלץ לקחת את יחס ההמרה הבסיסי שאנחנו מכירים – לדוגמה: מהשבוע הקודם.
מידת השוני הצפויה בין הוריאציות
(לדוגמה: צפי שוריאציה ב' תגדיל ב- 30% לפחות את יחסי ההמרה).
מידת השוני מתקבלת באמצעות הערכה (ככל שניתן), וכמובן שמומלץ לתעדף ניסויים אשר יסייעו לשפר משמעותית את אחוזיי ההצלחה.
כמות המשתמשים הכוללת שיש לנו או שאנחנו חוזים שתהיה בניסוי
לדוגמה: כמה משתמשים אנחנו אמורים לראות בשבוע הבא.
אחוז מהמשתמשים בכל וריאציה (ניתוב התנועה – Traffic Allocation)
אם הניסוי עשוי להוריד לנו את יחס ההמרה – מומלץ להתחיל עם כמות נמוכה יותר של משתמשים – אפילו 10-20% מכללל התנועה, במקום 50%.

המחשבון שהכנתי נמצא בלינק הזה. בקובץ יש 5 גיליונות עבור 5 משתמשים במקביל.

המחשבון מבוסס על התפלגות Chi-square (התפלגות בסיסית לחישוב עבור פרופורציות).

יש להזין את 4 הפרמטרים בכחול – ולהגיע לתרחיש הרצוי (מובהקות מעל 95% או כל ערך אחר).

הערות חשובות לחישוב ולניסוי:

אלא אם נאמר אחרת, כלל הכלים כאן נכונים למקרים בעלי 2 וריאציות בלבד.
כמות ההצלחות בכל אחת מהוריאציות חייבת להיות גדולה מ-5.
ההצלחות והתצפיות (ביקורים/משתמשים) חייבים להיות בלתי תלויים אחד בשני.
המדגם חייב להיות אקראי.

סיכום

במאמר פורטו מספר שיטות להערכת וחישוב מובהקות לניסוי AB-Testing.
ועדיין, חשוב להדגיש משהו נוסף לסיום:
ניסויים הם אחד מהכלים היותר חזקים לשיפור של המוצר. ועדיין, המובהקות הסטטיסטית היא לא חזות הכל. המידע עשוי מוטה כתוצאה משלל סיבות – עונתיות (סופ"ש / חגים), תהליך מקביל של משתמשים (מסלול המרה שונה) וכיו"ב.

לכן כל תוצאה חייבת להילקח בעירבון מוגבל, ואסור להסתכל רק על המובהקות הסטטיסטית ולקוות שהכל בסדר.

רק תהליך מסודר ומובנה של העלאת השערות וניתוח נתונים מעמיק יכול לתת תוצאות שהן גם מובהקות, וגם תקפות.

אגב, אם אתה מרגיש שיש לך מעט מדי נתונים לניסוי A/B-Testing – תוכל לקרוא כאן על דרכים להתמודד עם מקרים כאלה.

מבולבל מכל המחשבונים? עדיין לא סגור על כמות התצפיות שאתה צריך?

תוכל להגיב או לשאול על זה ממש כאן למטה.