סביבת עבודה colab
Google Colaboratory (או בקיצור: Colab) היא סביבת עבודה אינטואיטיבית וקלה לשימוש לכתיבה והרצה של קוד בשפת פייתון. סביבה זו מבוססת Jupyter Notebook, עובדת דרך הדפדפן ואינה דורשת התקנה כלשהי. את הקוד כותבים בתוך קובץ הנקרא 'מחברת Colab', מחברות אלה נשמרות ב-Google Drive (דרכו גם ניתן לשתף אותן). זו גם הסיבה לכך שכדי לעבוד במחברת Colab יש צורך בחשבון Google.
בתוך כל מחברת יש תאי קוד (Code cells) שבהם אפשר לכתוב שורת קוד אחת או יותר. מתחת לתא הקוד יופיע פלט לתוכנית, אם ישנו כזה, וכן הערך שחזר מהשורה האחרונה של התוכנית.
במחברת אפשר לשלב גם תאי טקסט (שאינם מכילים קוד) כדי ליצור מבנה מסודר לקובץ הכולל כותרות, כותרות משנה ותיעוד.
למחברות Colab מנגנון שיתוף משתמשים אחרים, הוספת הערות ושחזור גרסאות בדומה לאפליקציות אחרות של Google Drive. עם זאת, Colab היא אפליקציה נפרדת ונדרש לבצע תהליך חד פעמי קצר כדי 'להוסיף' אותה לחשבון ה-Google Drive.
הוספת האפליקציה נעשית בקישור זה. שימו לב: במידה ועל כפתור ההרשמה רשום Uninstall, המשמעות היא שהאפליקציה כבר מותקנת ואין צורך לבצע פעולות התקנה נוספות.
בעיבוד וניתוח נתונים אפשר להשתמש במחברת Jupyter Notebook, אך במהלך הקורס נשתמש ונדגים על מחברות Google Colab.
במהלך פיתוח קורס data.intro יצרנו מחברות Colab; לכל פרק בקורס מחברת נפרדת והן מכילות את התכנים שרן מציג לפי הסדר. תפקידן של המחברות הוא להדגים את הקוד שרן מקליד ומריץ, והן שימושיות כדי לעקוב ולתרגל בעצמכם את החומר המועבר בקורס. אנחנו מזמינים אתכם להעתיק את המחברת ל-Google Drive האישי שלכם (הוראות בהמשך) ולהתנסות בעצמכם.
שימו לב: כדי לעבוד במחברות Colab יש צורך בחשבון Google.
שלב א – יצירת קובץ חדש
- צרו ב-Google Drive תיקייה חדשה.
שימו לב: תנו לתיקיות ולקבצים שמות בעלי משמעות, למשל לתיקייה החדשה שיצרתם תוכלו לתת את השם 'data intro מבוא לניתוח נתונים בפייתון' - צרו קובץ חדש מסוג Google Colaboratory
בהמשך הקורס תוכלו להעתיק לתיקייה שיצרתם את קובצי ההדגמה והתרגול של הקורס.
שלב ב – התחלת עבודה ב-Google Colab
כשמחברת Colab חדשה נפתחת, זה מה שנראה באזור העבודה שמתחת לתפריט:

כפתור Code +
בלחיצה על כפתור זה נוסיף תא לכתיבת קוד פייתון. בתאים אלו נכתוב את הקוד ובסיום נריץ את התא באמצעות כפתור Play שבצידו השמאלי (או Shift+Enter). אם קיים פלט, כאמור, הוא יופיע מתחת לתא.
חשוב לזכור להריץ את התא לאחר כתיבת הקודאחרת הוא לא יתבצע.
נסו זאת בעצמכם. הוסיפו תא קוד וכתבו בו:
print("hello world")
כעת הריצו באמצעות כפתור ה-Play או Shift+Enter.
הרצתם? מצוין, כעת מחקו את הפלט. עשו זאת במעבר עם העכבר על החלק השמאלי של אזור הפלט עד שיופיע כפתור X (כדי שהכפתור יופיע יש לגלול את העכבר לאזור הכפתור) ולחצו עליו:

כפתור Text +
בלחיצה על כפתור זה נוסיף תא שהוא שדה טקסט עשיר ובאמצעותו נוכל להוסיף למחברת כותרות, טקסטים עם הסברים שונים, קישורים, תמונות ועוד.
נסו זאת בעצמכם. הוסיפו תא טקסט וכתבו בו "המחברת הראשונה שלי". לחצו על אזור כלשהו מחוץ לתא הטקסט.
זהו, עכשיו אתם מוכנים להתחיל לעבוד עם מחברת Colab!
הנתונים להדגמות ולעיבודים במחברת Colab שבהם אנו נשתמש צריכים להיות נתונים שחוללו באמצעות שימוש בפונקציית random או בנתונים מ-Dataset אמיתי שמגיע כקובץ csv. אם אין לנו קובץ ספציפי שנרצה לעבוד עליו, נוכל למצוא מאגרי נתונים בשלל נושאים באתרים כמו Kaggle.
כדי לעבד נתונים במחברת Colab צריך לגשת לקובץ הנתונים המקורי מתוך המחברת. יש דרכים שונות לעשות זאת, למשל להעלות את הקובץ ישירות למחברת Colab (או ליתר דיוק ל-Google Drive) או להעלות את הקובץ לשרת כלשהו (כמו github, ולוודא ש-repository במצב public) ולגשת אליו 'מרחוק' באמצעות קישור. על הדרכים השונות אפשר לקרוא לעומק באינטרנט.
בקורס זה העלינו את הקבצים לשרתי הקורס ויצרנו קישור (בדומה להעלאת קובץ ל-github וקישור אליו).
לכן כדי לגשת לקובץ השתמשנו בקוד הבא:
url = 'https://s3.eu-west-1.amazonaws.com/data.cyber.org.il/virtual_courses/introdata/colab/spotify_tracks.csv'
Name_of_Table = pd.read_csv(url)
לצפייה במחברת Colab עם דוגמה לטעינת נתונים.
אפשר לקרוא על שיטות נוספות להעלאת קבצים בקישור זה .
במהלך הקורס נשתמש ב data set הבאים:
- https://s3.eu-west-1.amazonaws.com/data.cyber.org.il/virtual_courses/introdata/colab/artists.csv
- https://s3.eu-west-1.amazonaws.com/data.cyber.org.il/virtual_courses/introdata/colab/spotify_tracks1.csv
- https://s3.eu-west-1.amazonaws.com/data.cyber.org.il/virtual_courses/introdata/colab/youth_survey_preprocessed.csv
במהלך הלמידה תקבלו קישורים למחברות Google Colab. הקישורים שתקבלו הם קישורים לצפייה בלבד ובמחברות האלה לא תוכלו לבצע שינויים.
אנחנו ממליצים ללחוץ על Copy to Drive ולהעתיק את המחברת ל-Google Drive האישי שלכם, כך תוכלו לבצע שינויים ולהתנסות בתוכן.

ההרצה בסביבת המשתמש עלולה להיכשל או להשתבש (כלומר לסטות מהתוצאות המצופות) מהסיבות הבאות:
- הרצה של תאים בלי להקפיד על סדר ההרצה – הקוד מסתמך על הרצה שיטתית של התאים מלמעלה למטה. דילוג על תאים ובמקרים מסוימים גם הרצה חוזרת של תאים שכבר הורצו, עלולים לשבש את הפלט המתקבל. בחלק מהמצבים לא מתקבלת כל התראה על התקלה ואפשר ללמוד עליה רק מהשוואה מדוקדקת למקור.
- היעדר גישה לקובצי הנתונים המלווים את הקורס – כדי לבצע את עיבוד הנתונים, נדרש קודם כל לטעון את הנתונים מהקבצים שבהם אנו נשתמש בקורס לסביבת העבודה שבה רצה המחברת. ראו כיצד לטעון נתונים תחת הכותרת "טעינת נתונים למחברת Google Colab".
תקלות נפוצות
זוהי תקלה נדירה שעלולה להתרחש כשהעבודה נעשית על Gmail ארגוני שחוסם אפליקציות חיצוניות.
התיקון: נסו לבדוק האם אתם משתמשים בכתובת Gmail רגילה מסוג gmail.com. לעיתים כתובות Gmail ארגוניות חוסמות את השימוש במחברות Colab. במקרה זה עליכם יהיה להשתמש בחשבון Gmail רגיל בלבד. אם אין לכם חשבון Gmail רגיל, לחצו כאן לפתיחת חשבון חדש:
בדקו האם העתקתם את המחברת לחשבון שלכם כפי שהוסבר.
הקליקו על המחברת עם הכפתור הימני של העכבר, בחרו 'פתיחה באמצעות' ולאחר מכן Google Colaboratory. זה יכול להיראות ככה:

אל חשש, לחצו על הכפתור Run Anyway:


בדקו: האם זכרתם להריץ את התא הראשון?


אם בטעות לחצתם על Show code או הקלקתם הקלקה כפולה (Double Click) על כל תא שהוא, אל תיבהלו אם ייפתח לכם חלון כזה מצד שמאל:

הפתרון הוא להקליק שוב הקלקה כפולה על צד ימין של התא – והחלון ייסגר בחזרה.
היכנסו לניהול התהליכים ומחקו תהליכים מיותרים:
- לחצו על תפריט התהליכים (חץ קטן מצד ימין למעלה, כמו שמסומן בתמונה) ובחרו Manage sessions
- לחצו TERMINATE כדי לסיים תהליכים ולפנות מקום לתהליכים חדשים.
כשסביבת ההפעלה משתבשת נידרש לאתחל אותה. לחצו על תפריט Runtime ובחרו באפשרות Restart runtime:
