"הגודל לא קובע" – 6 טריקים להתמודד עם מעט נתונים בניסוי A/B-Testing

הקדמה

כמו שאתה בטח יודע, המטרה ב-A/B-Testing היא להגיע לתוצאות מובהקות. בשביל זה צריך מספיק נתונים.
לאור זאת, יזמים רבים מסתכלים רק על כמות התצפיות כפרמטר הקובע את רמת המובהקות.
זה גורם להם לעתים להשקיע המון מאמצים בניסוי, רק בשביל לגלות בסופו שהתוצאות עדיין לא מובהקות.
או לחילופין – להאמין שפשוט אין להם מספיק תצפיות בשביל ניסוי מוצלח – ולוותר מראש על עריכת ניסויים במוצר.

המאמר יעסוק בנקודה הזו בדיוק – כיצד להתמודד עם מעט נתונים בניסוי A/B-Testing שעורכים במוצר.
הוא יציג בפניך 6 טריקים מעניינים, בהם תוכל להשתמש כדי לבצע ניסויים – על אף שעוד אין לך לכאורה מספיק משתמשים.
המטרה של המאמר היא לאפשר לך למידה מבוססת נתונים – שכל כך קריטית לצורך הצמיחה – גם בשלבים מוקדמים במיזם.

 

מה אפשר לעשות אחרת כשיש מעט נתונים בניסוי A/B-Testing?

בעוד שהפרמטר של כמות התצפיות הוא אכן אחד החשובים ביותר בניסוי, הוא לא היחיד.

ישנם לא פחות מ-4 פרמטרים – עליהם תוכל לשלוט כשאתה עורך ניסוי A/B-Testing.

על חלק מהם תוכל לשלוט אפילו ביותר מצורה אחת.

הנה 4 הפרמטרים:

  • כמות התצפיות (נגזרת מהגדרת האוכלוסייה בניסוי) – כאמור, זה הפרמטר העיקרי
  • השינוי המוערך בוריאציה החדשה לעומת הקודמת
    ככל שהשינוי יהיה גדול יותר – כך תהיינה יותר תצפיות של המטריקה הנמדדת (לדוג': יחס המרה) והמובהקות תגדל.
  • ה-Baseline – הגודל האבסולוטי של המטריקה הנמדדת כתוצאת הניסוי (לדוגמה: יחס המרה).
    ככל שהמספר גדול יותר – תהיינה יותר תצפיות של האירוע והמובהקות תגדל.
  • הקצאת התנועה (גוזרת את גודל האוכלוסיה בכל וריאציה).
    ככל שהתנועה מוקצית באופן מדויק יותר – תהיינה יותר תצפיות של המטריקה הנמדדת והמובהקות תגדל).

זה מה שיוכל לעשות לך את ההבדל בין למידה מוצלחת ובין להרים ידיים ולוותר על הכלי הכל כך חשוב הזה.
כל אחד מהם פועל על היבט אחר בנוסחת המובהקות, ומאפשר לך 'לעקוף' ולו במעט את אילוצי הנתונים.

4 הפרמטרים האלה הם הקלט לסימולטור לחישוב רמת מובהקות שתוכל למצוא כאן.

 

ולאחר כל ההקדמה הזו, הגיע הזמן שתכיר את הטריקים…

 

טריק 1 – מטריקת Proxy (סוג: Baseline)

הטריק הראשון בהתמודדות עם מעט נתונים בניסוי A/B-Testing הוא לנסות להגדיל את כמות התצפיות באירוע היעד (לדוגמה: המרה).

הרבה תצפיות כאלה יאפשרו זיהוי קל ומהיר יותר של פערים בו בין שתי הוריאציות – מה שיתבטא במובהקות גבוהה יותר.

אך כמובן שבהינתן התנהגות של משתמשים בניסוי מסוים – השכיחות של האירוע הזה לא תגדל בעצמה…

בשביל זה תוכל להשתמש במטריקה אחרת, משלב מוקדם יותר בתהליך של המשתמש (לדוגמה: משפך מכירות).

אז נכון, אמנם המשמעות של המטריקה החדשה כמובן לא תהיה זהה למטריקה המקורית.

ויחד עם זאת, אם די ברור לך שהן מתואמות, או שאחת תוצאתית לשניה – תוכל להניח שהשפעת הניסוי על שתי המטריקות תהיה דומה.

דוגמה קלאסית לכך היא לקיחת אירוע מוקדם יותר בתהליך ההמרה:

נניח שיש לך אתר E-Commerce, שבו יש דפי מוצר, ולאחר מכן מעבר לסל הקניות ורכישה.
עוד נניח, שאתה רוצה לבצע ניסוי, שיבחן את השיפור ביחס ההמרה (מכירות) אם נוסיף וידאו לדפי המוצרים.
מאחר וייתכן כי היקף המכירות עצמו יהיה יחסית מצומצם, נוכל לבחון את יחס הוספת המוצרים לסל הקניות במקום.

זה יכפיל לנו באופן מידי את כמות התצפיות, וכנובע מכך גם את רמת המובהקות.

 

טריק 2 – עקביות בשלבי המשפך (סוג: Baseline)

בסעיף הקודם הבנת איך לבחור במטריקה שתכלול יותר משתמשים שביצעו את הפעולה הנמדדת.
השלב הנוכחי כולל מינוף של זה לטובת זיהוי עקביות בכל התהליך אותו עובר המשתמש.

הרעיון הוא, שבמקום שיפור במטריקה אחת עיקרית, עכשיו תוכל לראות שיפור במספר מטריקות – באותו התהליך.
זה יאפשר לך לתקף באופן חד משמעי את תוצאות הניסוי.

אם נמשיך עם הדוגמה של החנות, אז נוכל למדוד גם הוספת מוצרים לסל, גם צפיה בסל, גם לחיצה על כפתור תשלום, וגם רכישות.
ככל שנתקדם במורד המשפך – המטריקות תוצאתיות למטריקות הקודמות, ולכן השיפור בין הוריאציות אמור להתנהג באופן דומה.

זה יכול לתת לך כלי עוצמתי מאוד של תיקוף – לממצאים לכאורה שקיבלת.

זיהית חוסר עקביות? לא נורא, לפחות אתה יכול להתחיל לחשוב מדוע זה קורה.

הלא אחרי הכל, המטרה היא ללמוד, לא?…

 

טריק 3 – השערות מסודרות ומהותיות (סוג: השינוי המוערך)

חלק מרכזי בכל התפיסה של הגדלת רמת המובהקות מניחה שאתה יודע לתת הערכה מסוימת ומושכלת לתוצאות הניסוי.

בלי יכולת לתת הערכה מושכלת כזו, טריקים לא באמת יעזרו לך, כי לא תדע איך להפעיל תיקון למגבלות הטבעיות של הנתונים במוצר שלך…

כך, תמצא את עצמך עורך ניסויים, בלי לדעת כלל למה לצפות ואיך להגיב.

לכן, בבסיס התפיסה עומד הצורך ליצור תהליך מסודר להערכה כמה שיותר מושכלת של תוצאות הניסוי.

הערכה כזו תוכל לבצע בשני אופנים עיקריים:

  • באמצעות Benchmarks מהאינטרנט (ויש בלי סוף כאלה…).
  • הערכת מומחה בתוך החברה – עדיף בצוות.

לאחר מתן ההערכה, עליך לתעדף את הניסויים לפי פוטנציאל השיפור שלהם במטריקת היעד (לדוגמה: מכירות/המרות).

כך, לדוגמה, שינוי צבע בטקסט ההנעה לפעולה – כנראה יביא לשיפור נמוך משמעותית, לעומת מיקוד הטקסט (מ-"לחץ כאן" ל-"אני רוצה צמיחה עכשיו!").

ככל שתבחר בניסוי בעל פוטנציאל גבוה יותר – כך תגדיל את הסיכוי למובהקות גבוהה תחת מגבלת הנתונים. ובשביל זה צריך תהליך מסודר של תעדוף ניסויים – הכולל צוות ייעודי לנושא.

 

טריק 4 – סגמנטציה (סוג: Baseline)

המטרה בחלוקת המשתמשים לסגמנטים היא 'לנקות' רעשים, ולבחון כיצד הניסוי משפיע באופן שונה על תתי אוכלוסיות.

קל מאוד ליפול למלכודת של לעשות ניסוי אחד לכלל האוכלוסייה כמו שהיא.
אבל יש שונות מאוד גדולה בין המשתמשים – וצריך להכיר אותה ולתת לה מענה.

לדוג: משתמשים במחשב מול נייד וטאבלט, iOS מול אנדרואיד, כרום מול פיירפוקס מול ספארי ו-Explorer, מדינות שונות, משתמשים חדשים מול חוזרים, ואפילו דפים בהם כבר ביקרו.

כל אחד מהמימדים האלה עשוי לגרום לבלגאן ענק בנתונים – במיוחד אם אין הרבה תצפיות.

זה לא אומר שצריך לוותר מראש על הניסוי, זה רק אומר שצריך לוודא שהתפלגות האוכלוסיות בכל מימד יחסית דומות בכל וריאציה.

הדבר חשוב במיוחד במקרים האחרונים – של משתמשים חדשים מול חוזרים, או כאלה שהתעניינו בפיצ'רים/מסכים מסוימים במוצר.

שתי האוכלוסיות שונות לחלוטין, הן בעלות כוונות שונות לחלוטין (החוזרים החליטו לחזור, החדשים עדיין לא יודעים מה יש במוצר).
זה מתבטא ביחסי המרה שונים לגמרי – ואסור לטעות ולערבב בין האוכלוסיות.

 

עוד על נושא הסגמנטציה תוכל לקרוא במאמר כאן.

 

טריק 5 – הקצאת אוכלוסיות דינמית (סוג: הקצאת תנועה)

בניסוי A/B-Testing אתה יכול לקבוע איזה אחוז מהמשתמשים תקבל כל וריאציה.

אם אתה חושש מפגיעה במכירות/הרשמות כנובע מהניסוי, אז ככל הנראה תשמור אחוז גבוה מהמשתמשים עם הוריאציה המקורית – נניח כ-70-80%.
הוריאציה החדשה תקבל, בהתאמה, 30-20%.

אם אתה קצת יותר אוהב סיכונים – תעמיד את התנועה על 50%:50%.

עכשיו, נניח שהחלטת על הקצאה של 80:20. עוד נניח – שהתוצאה של הניסוי היא שהוריאציה החדשה טובה פי 1.5 מהקיימת (יחס ההמרה גבוה ב-50%) – שזה יפה.

אבל בגלל שהוקצו לוריאציה החדשה רק 20% מהמשתמשים, ייתכן והיא עדיין תכלול מעט מדי תצפיות בשביל להיחשב למובהקת.

מאופטימיזציה על הנוסחה של המובהקות עולה, שהאלוקציה האידאלית לצורך מובהקות צריכה להישאר סביב 50% (גם אם צופים שינוי של פי 2 – היא מגיעה לכ-58%).

לכן, אם אתה בכל זאת חושש מפגיעה בהמרות/מכירות בגרסה החדשה, תוכל להתחיל בהקצאה נמוכה לגרסה החדשה.

לאחר שתראה שהביצועים של הוריאציה החדשה לא מאיימים לך על ההמרות – תוכל להגדיל את אחוז המשתמשים שיקבלו אותה.

 

טריק 6 – להאריך את משך הניסוי (סוג: כמות תצפיות)

כן…. גם זה פתרון….

אמנם זה הפתרון הטריוויאלי, והוא משעמם ומעצבן, כי אתה רוצה להתקדם מהר.

אבל לפעמים זה מה שנדרש בשביל ללמוד מה עובד ומה לא עובד במוצר, כשיש מעט נתונים בניסוי A/B-Testing.

ככלל, עדיף להמשיך ניסוי מסוים לנצח מאשר לא לא לערוך ניסויים כלל.

אם זה לא מזיק לביצועי האתר (אפשר לבדוק זאת) – זה רק יעזור לך להבין איך להשתפר.

 

סיכום

על החשיבות של ניסויים ולמידה מה המשתמשים מחפשים במוצר שלך לא צריך להכביר במילים;

סטארטאפ הוא תהליך למידה אחד גדול – וזו החשיבות של ניסויים – לאפשר לעצמך את תהליך הלמידה הזה.

ככל שתערוך יותר ניסויים ותלמד איך עורכים אותם בצורה מסודרת ומובנית – תוכל להפיק מהם ערך רב יותר ולשפר את המוצר שלך בהתאם.

זה נכון גם כשתהיה עם המוני משתמשים ויספיק לך יום בשביל להבין אם פיצ'ר חדש עובד או לא;

וזה נכון אפילו יותר כשעדיין אין לך הרבה משתמשים ואתה רוצה להבין כיצד לצמוח.

 

 

יש לך שאלה לגבי אחת מהדרכים שהוצגו במאמר? משהו עדיין לא ברור לך?

תוכל להגיב או לשאול הכל כאן למטה.

 

 

אהבת את המאמר? יש לך שאלה? קדימה!