Data science לעומת Data analytics - מה ההבדלים ומה מתאים לכם ללמוד?
כמויות המידע האדירות מהוות אתגר עבור ארגונים. הם צריכים למצוא דרכים יעילות לנהל את המידע, לאגור אותו ולנתח אותו, באופן שיקדם את המטרות העסקיות שלהם. הגידול בכמויות המידע מגביר את הביקוש לאנשי מקצוע שיכולים לסייע לארגונים לעמוד בכל אותם אתגרים אלו. לכן, בשנים האחרונות אנו רואים ביקוש רב למומחים בתחום הדאטה, וכתוצאה מביקוש זה - מוצעות לאנשי המקצוע בתחום משכורות גבוהות ותנאים אטרקטיביים.
מה הם התפקידים העיקריים בתחום מדע הנתונים, איזה כישורים הם מחייבים, ומה הם כלי העבודה העיקריים בכל אחד מהם?
ד"ר שי הורוביץ, ראש התמחות מדעי הנתונים ומרצה בכיר בפקולטה למדעי המחשב במסלול האקדמי המכללה למינהל, מציין כי ישנם שני תפקידים משמעותיים בסביבה העסקית בתחום הדאטה: Data Analyst ו- Data Scientist. "חשוב להדגיש כי בסביבות עסקיות שונות הפרשנות שניתנת לכל אחד מהתפקידים עשויה להיות שונה, כמו גם הכישורים הנדרשים לבצע את התפקיד, ואיך נראות המשימות ביום יום" הוא אומר.
Data Analyst: נדרש להבין את הארגון לעומק
לדבריו, תפקיד ה- Data Analyst הוא התחום הוותיק יותר מבין השניים, ורבים מהעובדים אשר עונים להגדרה זו נוטים גם להשתמש יותר בכלים הוותיקים והממוסדים שהוכיחו יצירת ערך לאורך השנים. דאטה אנליסט משתמש רבות בשפת SQL על מנת לתשאל מערכות בסיסי נתונים, בד"כ רלציוניות – קרי המבוססות על חישובים על גבי טבלאות, ומשלב אותה עם כלי Data Warehousing, ויזואליזציה ועוד, תוך שימוש בשיטות ניתוח ממוסדות מעולם הסטטיסטיקה, אומר ד"ר הורוביץ. "פעולות שגרתיות עשויות לכלול ניקוי הנתונים, שינוי פורמט, הסרת ערכי קיצון והתמודדות עם נתונים חסרים, ואז ניסוח שאילתות ויצירת דוחות למטרות שונות על פי הנדרש". לדבריו, האנליסט נדרש פעמים רבות להבין את הארגון לעומק – לדעת מהיכן באים הנתונים השונים ואילו החלטות מתקבלות בעקבות הדו"חות שאותם הוא יוצר. "חלק גדול מהאנליסטים יעבדו עם כלים המאפשרים ריכוז וניתוח נתונים לרוחב ולעומק כמו SAS , Power BI או Tableau ואפילו Excel כשצריך, ויעשו שימוש בשפות תכנות שונות, חלקן גנריות וחלקן מוכוונות לעולם הניתוח הסטטיסטי כמו שפת R".
Data Scientist: נדרש להכיר אלגוריתמי למידה וליכולות תכנות גבוהות
לעומת תפקיד ה- Data Analyst, Data Scientist, מדען נתונים, הוא מקצוע חדש יותר שצבר תאוצה בעיקר ב- 10 השנים האחרונות. "עידן ה- Big Data הביא איתו גל של חברות שאספו כמויות מידע גדולות. במקביל, התפתחו סביבות לאחסון המידע על גבי הענן והצעד הבא המתבקש היה לנתח את המידע האדיר שנצבר, על מנת להפיק ממנו תובנות ומסקנות שישפיעו על ביצועי הארגון - יכולת לבצע Big data analytics ", אומר ד"ר הורוביץ. "המידע שנצבר, לא תמיד נשמר בטבלאות, חלקו נכתב כ- log-ים, חלקו בנתונים בבסיסי נתונים שאינם רלציונים כמו MongoDB, לפעמים אף בתצורה של גרף כמו ב- Neo4J או סתם כקובץ, כך שכלי הניתוח הוותיקים המניחים הימצאותן של טבלאות לא תמיד מסייעים. המגוון בצורות הנתונים וכמויות המידע האדירות שנאספו, הביאו לסינרגיה בין טכניקות ותיקות בתחום הסטטיסטיקה, אלגוריתמים ושיטות מתקדמות בתחום למידת המכונה וסביבות ה- Big Data החדשות שאפשרו ניתוחים בהיקף רחב".
לדבריו, כיוון ששפת SQL לא מספקת מענה הולם לדרישות האלה, ה- Data Scientist משתמש לרוב בספריות בשפת התכנות python על מנת להפיק תובנות מהנתונים – החל מספריות לעיבוד נתונים בסיסי כמו Numpy ו- Pandas ועד לספריות מתקדמות יותר המשמשות אלגוריתמי למידה כמו SkLearn, Pytorch, Tensorflow Keras ואף סביבות לחישוב מקבילי מבוזר כמו Spark. "בשל כך, ה- Data Scientist מחויב גם בהבנת האלגוריתמים הבולטים בתחום וביכולות תכנות גבוהות יותר ומתבקש להשתמש בשיטות למידה מתקדמות כמו Regression, Recommendation, Clustering, Reinforcement Learning ותחזיות לעתיד. חלק מהשיטות מתבססות על רעיונות מתחום הלמידה החישובית והסטטיסטית וחלקן עושות שימוש בטכנולוגיות עדכניות מתחום ה- Deep Learning".
למרות דברים אלו, מציין ד"ר הורוביץ, כי חשוב להבין שבהחלט קיימים לא מעט אנליסטים העושים שימוש בכלים מתחום ה- Data Science וקיימים כמובן גם לא מעט מדעני נתונים העושים שימוש בשיטות הוותיקות יותר, וישנה מגמה של צמצום הפער בין המקצועות השונים בתחום. כך, שפת R מאבדת פופולאריות לטובת שפת פייתון והכלים השונים הופכים לפשוטים ודינאמיים יותר. "תארים חדשים כמו התואר במדע הנתונים של המסלול האקדמי המכללה למינהל מתאימים את עצמם לשינויים בשוק, ומספקים לבוגרים את הכלים הדרושים על מנת להשתלב במגוון התפקידים הרחב בתעשיה – הן כאנליסט והן כמדען נתונים".