מרגרסיה ליניארית ועד ניתוח אשכולות: 5 טכניקות של דאטה סיינס
Data Science, או בשמו בעברית מדע הנתונים, הוא מקצוע חדש ומבוקש בתעשיית ההייטק העוסק בהפקת תובנות מנתונים על מנת לספק יתרון עסקי לארגונים. מדען הנתונים (Data Scientist) מעבד וחוקר את ה-Data הארגוני באמצעות שילוב של כלים ושיטות שונים מתחומי הסטטיסטיקה, מתמטיקה, אלגוריתמי למידת מכונה ולמידה עמוקה ובסיסי נתונים. במקביל הוא נדרש להבנה עסקית על מנת לתמוך ביעדי הארגון.
ד"ר שי הורוביץ, מרצה בכיר בתכנית לתואר ראשון במדעי הנתונים Data science בפקולטה למדעי המחשב במסלול האקדמי המכללה למינהל, מונה 5 טכניקות עיקריות המצויות בשימוש בתחום ה-Data Science : "אנו עוסקים בתחום מגוון ביותר המשתנה באופן תדיר, בו משלבים שיטות מנצחות עם טכניקות החדשות המגיעות ממחקרים של השנים האחרונות. מבין השיטות הרבות, בולטות מספר משפחות של טכניקות בעיסוק היומיומי".
לדבריו, מרבית המשימות בתחום ה- Data Science יעשו שימוש בלפחות אחת מהמשפחות הבאות:
1. Classification: משפחה של שיטות הלומדות מודלים של סיווג. נותנים לאלגוריתם למצוא חוקיות בין הנתונים שלנו לבין משתנה בדיד שאותו נרצה לחזות. לדוגמה – בהינתן נתונים היסטוריים שנאספו על הלקוחות של מוצר מסוים, נרצה לחזות אם לקוח מסוים עומד לעזוב על מנת להציע לו הצעה אטרקטיבית. דוגמה נוספת – נרצה לזהות אם רכישה מסוימת של מוצר באתר נעשתה על ידי לקוח לגיטימי או שמדובר בהונאה.
2. Regression: משפחה העוסקת ברגרסיה. בדומה ל-Classification גם כאן מנסים למצוא חוקיות בין נתונים שנאספו לבין משתנה שנרצה לחזות, רק שהפעם מדובר על משתנה רציף. לדוגמה – נרצה לחזות את מחירה של דירה על פי פרמטרים שונים כגון מיקום, קומה, כיווני אוויר, סמיכות לפארק וכד'.
3. Clustering: משפחה העוסקת בחלוקת הנתונים לקבוצות או אשכולות, כך שבכל אשכול יימצאו נתונים דומים. לדוגמה – נרצה לחלק את הלקוחות למספר קבוצות, כך שלכל קבוצה יהיו מאפיינים טיפוסיים משלה על מנת להתאים קמפיין פרסומי ייעודי לכל קבוצה בנפרד.
4. Recommendation: משפחה של אלגוריתמים המסייעים למצוא תובנות של קשר בין קבוצות נתונים. לדוגמה – אם לקוח מסויים רכש את מוצר א' ואת מוצר ב', יש סבירות גבוהה שירכוש גם את מוצר ג' אם נשכיל להציע לו את אותו המוצר, בדיוק כפי ש-Netflix מציעה לנו לצפות בסרט חדש על בסיס הסרטים הקודמים שצפינו בהם.
5. Time-Series Analysis: משפחה של שיטות העוסקות בנתונים לאורך ציר הזמן. לדוגמה – לחזות את מחיר מניה מסוימת על ידי זיהוי תופעות של טרנדים והתנהגות חוזרת במחיר המניה הספציפית, ומחירי מניות אחרות לאורך הזמן. דוגמה נוספת – לחזות ביקוש של מוצר מסוים שאנו מוכרים באתר.
תכנית הלימודים בתואר הראשון במדעי הנתונים של המכללה למינהל כוללת לימוד והעמקה בשיטות אלו. "בנינו תכנית לימודים עדכנית בהתבסס על תכנית הלימודים באוניברסיטת Berkeley ובהתייעצות עם אוניברסיטת Stanford , תוך חיבור ישיר לדרישות התעשייה המשתנות" אומר ד"ר הורוביץ. "יש מחסור אדיר בתעשיה בבוגרים עם רקע בתחום, ואנחנו דואגים לעדכן את תכנית הלימודים שלנו בהתאם לטרנדים הנצפים בתעשייה".