linkedin facebook twitter youtube logo-edx
דלג לתוכן ראשי

סביבת עבודה colab

Google Colaboratory (או בקיצור: Colab) היא סביבת עבודה אינטואיטיבית וקלה לשימוש לכתיבה והרצה של קוד בשפת פייתון. סביבה זו מבוססת Jupyter Notebook, עובדת דרך הדפדפן ואינה דורשת התקנה כלשהי. את הקוד כותבים בתוך קובץ הנקרא 'מחברת Colab', מחברות אלה נשמרות ב-Google Drive (דרכו גם ניתן לשתף אותן). זו גם הסיבה לכך שכדי לעבוד במחברת Colab יש צורך בחשבון Google.

בתוך כל מחברת יש תאי קוד (Code cells) שבהם אפשר לכתוב שורת קוד אחת או יותר. מתחת לתא הקוד יופיע פלט לתוכנית, אם ישנו כזה, וכן הערך שחזר מהשורה האחרונה של התוכנית.
במחברת אפשר לשלב גם תאי טקסט (שאינם מכילים קוד) כדי ליצור מבנה מסודר לקובץ הכולל כותרות, כותרות משנה ותיעוד.

למחברות Colab מנגנון שיתוף משתמשים אחרים, הוספת הערות ושחזור גרסאות בדומה לאפליקציות אחרות של Google Drive. עם זאת, Colab היא אפליקציה נפרדת ונדרש לבצע תהליך חד פעמי קצר כדי 'להוסיף' אותה לחשבון ה-Google Drive.
הוספת האפליקציה נעשית בקישור זה. שימו לב: במידה ועל כפתור ההרשמה רשום Uninstall, המשמעות היא שהאפליקציה כבר מותקנת ואין צורך לבצע פעולות התקנה נוספות.

בעיבוד וניתוח נתונים אפשר להשתמש במחברת Jupyter Notebook, אך במהלך הקורס נשתמש ונדגים על מחברות Google Colab.

במהלך פיתוח קורס data.intro יצרנו מחברות Colab; לכל פרק בקורס מחברת נפרדת והן מכילות את התכנים שרן מציג לפי הסדר. תפקידן של המחברות הוא להדגים את הקוד שרן מקליד ומריץ, והן שימושיות כדי לעקוב ולתרגל בעצמכם את החומר המועבר בקורס. אנחנו מזמינים אתכם להעתיק את המחברת ל-Google Drive האישי שלכם (הוראות בהמשך) ולהתנסות בעצמכם.

שימו לב: כדי לעבוד במחברות Colab יש צורך בחשבון Google.

שלב א – יצירת קובץ חדש

  1. צרו ב-Google Drive תיקייה חדשה.
    שימו לב: תנו לתיקיות ולקבצים שמות בעלי משמעות, למשל לתיקייה החדשה שיצרתם תוכלו לתת את השם 'data intro מבוא לניתוח נתונים בפייתון'
  2. צרו קובץ חדש מסוג Google Colaboratory

בהמשך הקורס תוכלו להעתיק לתיקייה שיצרתם את קובצי ההדגמה והתרגול של הקורס.

שלב ב – התחלת עבודה ב-Google Colab

כשמחברת Colab חדשה נפתחת, זה מה שנראה באזור העבודה שמתחת לתפריט:

צילום מסך של מחברת קולאב ריקה

כפתור Code +

בלחיצה על כפתור זה נוסיף תא לכתיבת קוד פייתון. בתאים אלו נכתוב את הקוד ובסיום נריץ את התא באמצעות כפתור Play שבצידו השמאלי (או Shift+Enter). אם קיים פלט, כאמור, הוא יופיע מתחת לתא.

חשוב לזכור להריץ את התא לאחר כתיבת הקודאחרת הוא לא יתבצע.

נסו זאת בעצמכם. הוסיפו תא קוד וכתבו בו:
print("hello world")
כעת הריצו באמצעות כפתור ה-Play או Shift+Enter.
הרצתם? מצוין, כעת מחקו את הפלט. עשו זאת במעבר עם העכבר על החלק השמאלי של אזור הפלט עד שיופיע כפתור X (כדי שהכפתור יופיע יש לגלול את העכבר לאזור הכפתור) ולחצו עליו:

צילום מסך  של מחברת קולאב שמראה הרצה של שורת הקוד: print('hellow world').

כפתור Text +
בלחיצה על כפתור זה נוסיף תא שהוא שדה טקסט עשיר ובאמצעותו נוכל להוסיף למחברת כותרות, טקסטים עם הסברים שונים, קישורים, תמונות ועוד.
נסו זאת בעצמכם. הוסיפו תא טקסט וכתבו בו "המחברת הראשונה שלי". לחצו על אזור כלשהו מחוץ לתא הטקסט.

זהו, עכשיו אתם מוכנים להתחיל לעבוד עם מחברת Colab!

הנתונים להדגמות ולעיבודים במחברת Colab שבהם אנו נשתמש צריכים להיות נתונים שחוללו באמצעות שימוש בפונקציית random או בנתונים מ-Dataset אמיתי שמגיע כקובץ csv. אם אין לנו קובץ ספציפי שנרצה לעבוד עליו, נוכל למצוא מאגרי נתונים בשלל נושאים באתרים כמו Kaggle.

כדי לעבד נתונים במחברת Colab צריך לגשת לקובץ הנתונים המקורי מתוך המחברת. יש דרכים שונות לעשות זאת, למשל להעלות את הקובץ ישירות למחברת Colab (או ליתר דיוק ל-Google Drive) או להעלות את הקובץ לשרת כלשהו (כמו github, ולוודא ש-repository במצב public) ולגשת אליו 'מרחוק' באמצעות קישור. על הדרכים השונות אפשר לקרוא לעומק באינטרנט.

בקורס זה העלינו את הקבצים לשרתי הקורס ויצרנו קישור (בדומה להעלאת קובץ ל-github וקישור אליו).

לכן כדי לגשת לקובץ השתמשנו בקוד הבא:
url = 'https://s3.eu-west-1.amazonaws.com/data.cyber.org.il/virtual_courses/introdata/colab/spotify_tracks.csv'
Name_of_Table = pd.read_csv(url)

לצפייה במחברת Colab עם דוגמה לטעינת נתונים.

אפשר לקרוא על שיטות נוספות להעלאת קבצים בקישור זה .

במהלך הקורס נשתמש ב data set הבאים:

  • https://s3.eu-west-1.amazonaws.com/data.cyber.org.il/virtual_courses/introdata/colab/artists.csv
  • https://s3.eu-west-1.amazonaws.com/data.cyber.org.il/virtual_courses/introdata/colab/spotify_tracks1.csv
  • https://s3.eu-west-1.amazonaws.com/data.cyber.org.il/virtual_courses/introdata/colab/youth_survey_preprocessed.csv

במהלך הלמידה תקבלו קישורים למחברות Google Colab. הקישורים שתקבלו הם קישורים לצפייה בלבד ובמחברות האלה לא תוכלו לבצע שינויים.

אנחנו ממליצים ללחוץ על Copy to Drive ולהעתיק את המחברת ל-Google Drive האישי שלכם, כך תוכלו לבצע שינויים ולהתנסות בתוכן.

צילום מסך של כפתור copy to drive

ההרצה בסביבת המשתמש עלולה להיכשל או להשתבש (כלומר לסטות מהתוצאות המצופות) מהסיבות הבאות:

  1. הרצה של תאים בלי להקפיד על סדר ההרצה – הקוד מסתמך על הרצה שיטתית של התאים מלמעלה למטה. דילוג על תאים ובמקרים מסוימים גם הרצה חוזרת של תאים שכבר הורצו, עלולים לשבש את הפלט המתקבל. בחלק מהמצבים לא מתקבלת כל התראה על התקלה ואפשר ללמוד עליה רק מהשוואה מדוקדקת למקור.
  2. היעדר גישה לקובצי הנתונים המלווים את הקורס – כדי לבצע את עיבוד הנתונים, נדרש קודם כל לטעון את הנתונים מהקבצים שבהם אנו נשתמש בקורס לסביבת העבודה שבה רצה המחברת. ראו כיצד לטעון נתונים תחת הכותרת "טעינת נתונים למחברת Google Colab".


תקלות נפוצות

זוהי תקלה נדירה שעלולה להתרחש כשהעבודה נעשית על Gmail ארגוני שחוסם אפליקציות חיצוניות.

התיקון: נסו לבדוק האם אתם משתמשים בכתובת Gmail רגילה מסוג gmail.com. לעיתים כתובות Gmail ארגוניות חוסמות את השימוש במחברות Colab. במקרה זה עליכם יהיה להשתמש בחשבון Gmail רגיל בלבד. אם אין לכם חשבון Gmail רגיל, לחצו כאן לפתיחת חשבון חדש:

בדקו האם העתקתם את המחברת לחשבון שלכם כפי שהוסבר. צילום מסך של כפתור copy to drive

הקליקו על המחברת עם הכפתור הימני של העכבר, בחרו 'פתיחה באמצעות' ולאחר מכן Google Colaboratory. זה יכול להיראות ככה:

צילום מסך של לחיצה על כפתור פתיחה באמצעות ואז על כפתור Google colaboratory.

אל חשש, לחצו על הכפתור Run Anyway:

צילום מסך של הודעת שגיאה: warning: this notebook was not authored by Google. יש ללחוץ על run anyway.
צילום מסל של הודעה שגיאה.

בדקו: האם זכרתם להריץ את התא הראשון?

צילום מסך של כפתור play
צילום מסך ממחברת הקולאב עם הטקסט: לחצו כאן כדי להריץ את התא (בכל התחברות למחברת). ומתחת כפתור show code.

אם בטעות לחצתם על Show code או הקלקתם הקלקה כפולה (Double Click) על כל תא שהוא, אל תיבהלו אם ייפתח לכם חלון כזה מצד שמאל:

צילום מסך לאחר לחיצה בטעות על כפתור show code.

הפתרון הוא להקליק שוב הקלקה כפולה על צד ימין של התא – והחלון ייסגר בחזרה.

היכנסו לניהול התהליכים ומחקו תהליכים מיותרים:

  • לחצו על תפריט התהליכים (חץ קטן מצד ימין למעלה, כמו שמסומן בתמונה) ובחרו Manage sessions
  • לחצו TERMINATE כדי לסיים תהליכים ולפנות מקום לתהליכים חדשים. צילום מסך של כפתור manage sessions. צילום מסל של כפתור terminate.

כשסביבת ההפעלה משתבשת נידרש לאתחל אותה. לחצו על תפריט Runtime ובחרו באפשרות Restart runtime:

צילום מסך של כפתור restart runtime.