"הגודל לא קובע" – 6 טריקים להתמודד עם מעט נתונים בניסוי A/B-Testing

הקדמה

כמו שאתם בטח יודעים, המטרה ב-A/B-Testing היא להגיע לתוצאות מובהקות. בשביל זה צריך מספיק נתונים.

לאור זאת, יזמים רבים מסתכלים רק על כמות התצפיות כפרמטר הקובע את רמת המובהקות.

זה גורם להם לעתים להשקיע המון מאמצים בניסוי, רק בשביל לגלות בסופו שהתוצאות עדיין לא מובהקות.

או לחילופין – להאמין שפשוט אין להם מספיק תצפיות בשביל ניסוי מוצלח – ולוותר מראש על עריכת ניסויים במוצר.

המאמר יעסוק בנקודה הזו בדיוק – כיצד להתמודד עם מעט נתונים בניסוי A/B-Testing שעורכים במוצר.

הוא יציג בפניכם 6 טריקים מעניינים, בהם תוכלו להשתמש כדי לבצע ניסויים – על אף שעוד אין לך לכאורה מספיק משתמשים.

המטרה של המאמר היא לאפשר לכם למידה מבוססת נתונים – שכל כך קריטית לצורך הצמיחה – גם בשלבים מוקדמים במיזם.

מה אפשר לעשות אחרת כשיש מעט נתונים בניסוי A/B-Testing?

בעוד שהפרמטר של כמות התצפיות הוא אכן אחד החשובים ביותר בניסוי, הוא לא היחיד.

ישנם לא פחות מ-4 פרמטרים – עליהם תוכל לשלוט כשאתה עורך ניסוי A/B-Testing.

על חלק מהם תוכלו לשלוט אפילו ביותר מצורה אחת.

הנה 4 הפרמטרים:

א. כמות התצפיות (נגזרת מהגדרת האוכלוסייה בניסוי) – כאמור, זה הפרמטר העיקרי.

ב. השינוי המוערך בוריאציה החדשה לעומת הקודמת

ככל שהשינוי יהיה גדול יותר – כך תהיינה יותר תצפיות של המטריקה הנמדדת (לדוג': יחס המרה) והמובהקות תגדל.

ג. ה-Baseline – הגודל האבסולוטי של המטריקה הנמדדת כתוצאת הניסוי (לדוגמה: יחס המרה).

ככל שהמספר גדול יותר – תהיינה יותר תצפיות של האירוע והמובהקות תגדל.

ד. הקצאת התנועה (גוזרת את גודל האוכלוסיה בכל וריאציה).

ככל שהתנועה מוקצית באופן מדויק יותר – תהיינה יותר תצפיות של המטריקה הנמדדת והמובהקות תגדל).

זה מה שיוכל לעשות לנו את ההבדל בין למידה מוצלחת ובין להרים ידיים ולוותר על הכלי הכל כך חשוב הזה.

כל אחד מהם פועל על היבט אחר בנוסחת המובהקות, ומאפשר לנו 'לעקוף' ולו במעט את אילוצי הנתונים.

4 הפרמטרים האלה הם הקלט לסימולטור לחישוב רמת מובהקות שתוכלו למצוא כאן.

ולאחר כל ההקדמה הזו, הגיע הזמן שתכירו את הטריקים…

טריק 1 – מטריקת Proxy (סוג: Baseline)

הטריק הראשון בהתמודדות עם מעט נתונים בניסוי A/B-Testing הוא לנסות להגדיל את כמות התצפיות באירוע היעד (לדוגמה: המרה).

הרבה תצפיות כאלה יאפשרו זיהוי קל ומהיר יותר של פערים בו בין שתי הוריאציות – מה שיתבטא במובהקות גבוהה יותר.

אך כמובן שבהינתן התנהגות של משתמשים בניסוי מסוים – השכיחות של האירוע הזה לא תגדל בעצמה…

בשביל זה נוכל להשתמש במטריקה אחרת, משלב מוקדם יותר בתהליך של המשתמש (לדוגמה: משפך מכירות).

אז נכון, אמנם המשמעות של המטריקה החדשה כמובן לא תהיה זהה למטריקה המקורית.

ויחד עם זאת, אם די ברור לנו שהן מתואמות, או שאחת תוצאתית לשניה – נוכל להניח שהשפעת הניסוי על שתי המטריקות תהיה דומה.

דוגמה קלאסית לכך היא לקיחת אירוע מוקדם יותר בתהליך ההמרה:

נניח שיש לנו אתר E-Commerce, שבו יש דפי מוצר, ולאחר מכן מעבר לסל הקניות ורכישה.

עוד נניח, שנרצה לבצע ניסוי, שיבחן את השיפור ביחס ההמרה (מכירות) אם נוסיף וידאו לדפי המוצרים.

מאחר וייתכן כי היקף המכירות עצמו יהיה יחסית מצומצם, נוכל לבחון את יחס הוספת המוצרים לסל הקניות במקום.

זה יכפיל לנו באופן מידי את כמות התצפיות, וכנובע מכך גם את רמת המובהקות.

טריק 2 – עקביות בשלבי המשפך (סוג: Baseline)

בסעיף הקודם הבנו איך לבחור במטריקה שתכלול יותר משתמשים שביצעו את הפעולה הנמדדת.

השלב הנוכחי כולל מינוף של זה לטובת זיהוי עקביות בכל התהליך אותו עובר המשתמש.

הרעיון הוא, שבמקום שיפור במטריקה אחת עיקרית, עכשיו נוכל לראות שיפור במספר מטריקות – באותו התהליך.

זה יאפשר לנו לתקף באופן חד משמעי את תוצאות הניסוי.

אם נמשיך עם הדוגמה של החנות, אז נוכל למדוד גם הוספת מוצרים לסל, גם צפיה בסל, גם לחיצה על כפתור תשלום, וגם רכישות.

ככל שנתקדם במורד המשפך – המטריקות תוצאתיות למטריקות הקודמות, ולכן השיפור בין הוריאציות אמור להתנהג באופן דומה.

זה יכול לתת לנו כלי עוצמתי מאוד של תיקוף – לממצאים לכאורה שקיבלנו.

זיהינו חוסר עקביות? לא נורא, לפחות אנחנו יכולים להתחיל לחשוב מדוע זה קורה.

הלא אחרי הכל, המטרה היא ללמוד, לא?…

טריק 3 – השערות מסודרות ומהותיות (סוג: השינוי המוערך)

חלק מרכזי בכל התפיסה של הגדלת רמת המובהקות מניחה שאנחנו יודעים לתת הערכה מסוימת ומושכלת לתוצאות הניסוי.

בלי יכולת לתת הערכה מושכלת כזו, טריקים לא באמת יעזרו לנו, כי לא נדע איך להפעיל תיקון למגבלות הטבעיות של הנתונים במוצר…

כך, נמצא את עצמנו עורכים ניסויים, בלי לדעת כלל למה לצפות ואיך להגיב.

לכן, בבסיס התפיסה עומד הצורך ליצור תהליך מסודר להערכה כמה שיותר מושכלת של תוצאות הניסוי.

הערכה כזו נוכל לבצע בשני אופנים עיקריים:

א. באמצעות Benchmarks מהאינטרנט (ויש בלי סוף כאלה…).
ב. הערכת מומחה בתוך החברה – עדיף בצוות.

לאחר מתן ההערכה, עלינו לתעדף את הניסויים לפי פוטנציאל השיפור שלהם במטריקת היעד (לדוגמה: מכירות/המרות).

כך, לדוגמה, שינוי צבע בטקסט ההנעה לפעולה – כנראה יביא לשיפור נמוך משמעותית, לעומת מיקוד הטקסט (מ-"לחץ כאן" ל-"אני רוצה צמיחה עכשיו!").

ככל שנבחר בניסוי בעל פוטנציאל גבוה יותר – כך נגדיל את הסיכוי למובהקות גבוהה תחת מגבלת הנתונים.

ובשביל זה צריך תהליך מסודר של תעדוף ניסויים – הכולל צוות ייעודי לנושא.

טריק 4 – סגמנטציה (סוג: Baseline)

המטרה בחלוקת המשתמשים לסגמנטים היא 'לנקות' רעשים, ולבחון כיצד הניסוי משפיע באופן שונה על תתי אוכלוסיות.

קל מאוד ליפול למלכודת של לעשות ניסוי אחד לכלל האוכלוסייה כמו שהיא.

אבל יש שונות מאוד גדולה בין המשתמשים – וצריך להכיר אותה ולתת לה מענה.

לדוג: משתמשים במחשב מול נייד וטאבלט, iOS מול אנדרואיד, כרום מול פיירפוקס מול ספארי ו-Explorer, מדינות שונות, משתמשים חדשים מול חוזרים, ואפילו דפים בהם כבר ביקרו.

כל אחד מהמימדים האלה עשוי לגרום לבלגאן ענק בנתונים – במיוחד אם אין הרבה תצפיות.

זה לא אומר שצריך לוותר מראש על הניסוי, זה רק אומר שצריך לוודא שהתפלגות האוכלוסיות בכל מימד יחסית דומות בכל וריאציה.

הדבר חשוב במיוחד במקרים האחרונים – של משתמשים חדשים מול חוזרים, או כאלה שהתעניינו בפיצ'רים/מסכים מסוימים במוצר.

שתי האוכלוסיות שונות לחלוטין, הן בעלות כוונות שונות לחלוטין (החוזרים החליטו לחזור, החדשים עדיין לא יודעים מה יש במוצר).

זה מתבטא ביחסי המרה שונים לגמרי – ואסור לטעות ולערבב בין האוכלוסיות.

עוד על נושא הסגמנטציה תוכל לקרוא במאמר כאן.

טריק 5 – הקצאת אוכלוסיות דינמית (סוג: הקצאת תנועה)

בניסוי A/B-Testing אנחנו יכולים לקבוע איזה אחוז מהמשתמשים תקבל כל וריאציה.

אם אנחנו חוששים מפגיעה במכירות/הרשמות כנובע מהניסוי, אז ככל הנראה נרצה לשמור אחוז גבוה מהמשתמשים עם הוריאציה המקורית – נניח כ-70-80%.

הוריאציה החדשה תקבל, בהתאמה, 30-20%.

אבל אם אנחנו קצת יותר אוהבי סיכונים (בכל זאת – אנחנו יזמים…) – נעמיד את התנועה על 50%:50%, ואולי אפילו יותר.

עכשיו, נניח שהחלטנו על הקצאה של 80:20.

עוד נניח – שהתוצאה של הניסוי היא שהוריאציה החדשה טובה פי 1.5 מהקיימת (יחס ההמרה גבוה ב-50%) – שזה יפה.

אבל בגלל שהוקצו לוריאציה החדשה רק 20% מהמשתמשים, ייתכן והיא עדיין תכלול מעט מדי תצפיות בשביל להיחשב למובהקת.

מאופטימיזציה על הנוסחה של המובהקות עולה, שהאלוקציה (הקצאה) האידאלית לצורך מובהקות צריכה להישאר סביב 50% (גם אם צופים שינוי של פי 2 – היא מגיעה לכ-58%).

לכן, אם בכל זאת אנחנו חוששים מפגיעה בהמרות/מכירות בגרסה החדשה, נוכל להתחיל בהקצאה נמוכה לגרסה החדשה.

לאחר שנראה שהביצועים של הוריאציה החדשה לא מאיימים לנו על ההמרות – נוכל להגדיל את אחוז המשתמשים שיקבלו אותה.

טריק 6 – להאריך את משך הניסוי (סוג: כמות תצפיות)

כן…. גם זה פתרון….

אמנם זה הפתרון הטריוויאלי, והוא משעמם ומעצבן, כי אנחנו רוצים להתקדם מהר.

אבל לפעמים זה מה שנדרש בשביל ללמוד מה עובד ומה לא עובד במוצר, כשיש מעט נתונים בניסוי A/B-Testing.

ככלל, עדיף להמשיך ניסוי מסוים לנצח מאשר לא לא לערוך ניסויים כלל.

אם זה לא מזיק לביצועי האתר (אפשר לבדוק זאת) – זה רק יעזור לנו להבין איך להשתפר.

סיכום

על החשיבות של ניסויים ולמידה מה המשתמשים מחפשים במוצר שלך לא צריך להכביר במילים;

סטארטאפ הוא תהליך למידה אחד גדול – וזו החשיבות של ניסויים – לאפשר לעצמנו את תהליך הלמידה הזה.

ככל שנערוך יותר ניסויים ונלמד איך עורכים אותם בצורה מסודרת ומובנית – נוכל להפיק מהם ערך רב יותר ולשפר את המוצר/ שיווק/ אופרציה בהתאם.

זה נכון גם כנתהיה עם המוני משתמשים ויספיק לנו יום בשביל להבין אם פיצ'ר חדש עובד או לא;

וזה נכון אפילו יותר כשעדיין אין לנו הרבה משתמשים ונרצה להבין כיצד לצמוח.

יש לך שאלה לגבי אחת מהדרכים שהוצגו במאמר? משהו עדיין לא ברור לך?

קדימה – נתאם שיחה בנושא!