מה זה למידת מכונה (Machine Learning)?

למידת מכונה (Machine Learning) היא אחד התחומים הטכנולוגיים הצומחים ביותר, אך למרות התדירות שבה המילים "למידת מכונה" נזרקות, יכול להיות קשה להבין מהי למידת מכונה, במדויק.

למידת מכונה אינה מתייחסת רק לדבר אחד, זה מונח כולל שניתן ליישם על הרבה מושגים וטכניקות שונות. הבנת למידת מכונה פירושה היכרות עם צורות שונות של ניתוח מודלים, משתנים ואלגוריתמים. בואו נסתכל מקרוב על למידת מכונה כדי להבין טוב יותר מה היא כוללת.

מהי למידת מכונה?

בעוד שניתן ליישם את המונח למידת מכונה על דברים רבים ושונים, באופן כללי, המונח מתייחס לאפשר למחשב לבצע משימות מבלי לקבל הוראות מפורשות שורה אחר שורה בכדי לעשות זאת. מומחה למידת מכונה לא צריך לכתוב את כל השלבים הדרושים כדי לפתור את הבעיה מכיוון שהמחשב מסוגל "ללמוד" על ידי ניתוח דפוסים בתוך הנתונים והכללת דפוסים אלה לנתונים חדשים.

למערכות למידת מכונה יש שלושה חלקים בסיסיים:

  • קלטים (Inputs)
  • אלגוריתמים
  • פלטים (Outputs)

הקלטים הם הנתונים המוזנים למערכת למידת המכונה, וניתן לחלק את נתוני הקלט לתוויות ותכונות. תכונות הן המשתנים הרלוונטיים, המשתנים ינותחו כדי ללמוד דפוסים ולהסיק מסקנות. בינתיים, התוויות הן מחלקות/תיאורים שניתנו למופעים הבודדים של הנתונים.

ניתן להשתמש בתכונות ובתוויות בשני סוגים שונים של בעיות למידת מכונה: למידה מפוקחת ולמידה ללא פיקוח.

מה זה למידת מכונה (Machine Learning)?

למידה ללא פיקוח לעומת למידה בפיקוח

בלמידה מפוקחת, נתוני הקלט מלווים באמת יסודית (ground truth). לבעיות למידה מפוקחות יש את ערכי הפלט הנכונים כחלק ממערך הנתונים, כך שהשיעורים הצפויים ידועים מראש. זה מאפשר למדען הנתונים לבדוק את ביצועי האלגוריתם על ידי בדיקת הנתונים על מערך בדיקה ולראות איזה אחוז מהפריטים סווגו נכון.

לעומת זאת, לבעיות למידה ללא פיקוח אין תוויות של אמת יסודית מוצמדות אליהן. אלגוריתם למידת מכונה שהוכשר לבצע משימות למידה ללא פיקוח חייב להיות מסוגל להסיק את הדפוסים הרלוונטיים בנתונים עבור עצמו.

אלגוריתמי למידה מפוקחים משמשים בדרך כלל לבעיות סיווג, כאשר לאחד יש מערך נתונים גדול מלא במופעים שיש למיין לאחת מחלקות רבות ושונות. סוג אחר של למידה מפוקחת היא משימת רגרסיה, שבה פלט הערך על ידי האלגוריתם הוא רציף במהותו במקום קטגורי.

בינתיים, אלגוריתמי למידה ללא פיקוח משמשים למשימות כמו הערכת צפיפות, אשכולות ולמידת ייצוג. שלוש המשימות הללו זקוקות למודל למידת מכונה כדי להסיק את מבנה הנתונים, אין שיעורים מוגדרים מראש שניתנו למודל.

בואו נסתכל בקצרה על כמה מהאלגוריתמים הנפוצים ביותר המשמשים הן בלמידה לא מפוקחת והן בלמידה מפוקחת.

מהי למידת מכונה?

סוגי למידה מפוקחת

אלגוריתמי למידה מפוקחים נפוצים כוללים:

  • Support Vector Machines הם אלגוריתמים המחלקים מערך נתונים למחלקות שונות. נקודות נתונים מקובצות לאשכולות על ידי ציור קווים המפרידים בין המחלקות. נקודות שנמצאו בצד אחד של הקו יהיו שייכות למחלקה אחת, בעוד שהנקודות בצד השני של הקו הן מחלקה אחרת. Support Vector Machines שואפות למקסם את המרחק בין הקו לנקודות שנמצאות משני צדי הקו, וככל שהמרחק גדול יותר כך המסווג בטוח יותר שהנקודה שייכת למחלקה אחת ולא למחלקה אחרת.
  • רגרסיה לוגיסטית Logistic Regression היא אלגוריתם המשמש במשימות סיווג בינארי כאשר נקודות נתונים צריכות להיות מסווגות כשייכות לאחת משתי מחלקות. רגרסיה לוגיסטית פועלת על ידי תיוג נקודת הנתונים או 1 או 0. אם הערך הנתפס של נקודת הנתונים הוא 0.49 או מתחת, היא מסווגת כ-0, ואילו אם היא 0.5 ומעלה היא מסווגת כ-1.
  • אלגוריתמי עץ ההחלטה Decision Tree algorithms פועלים על ידי חלוקת מערכי נתונים לפרגמנטים קטנים יותר ויותר. הקריטריונים המדויקים המשמשים לחלוקת הנתונים תלויים במהנדס למידת מכונה, אך המטרה היא בסופו של דבר לחלק את הנתונים לנקודות נתונים בודדות, אשר לאחר מכן יסווגו באמצעות מפתח.
  • אלגוריתם יער אקראי Random Forest algorithm הוא בעצם הרבה מסווגים בודדים של עץ החלטה המקושרים יחד למסווג חזק יותר.
  • הסיווג Naive Bayes מחשב את ההסתברות שנקודת נתונים נתונה התרחשה על סמך ההסתברות להתרחשות אירוע קודם. הוא מבוסס על משפט בייס והוא מציב את נקודות הנתונים במחלקות על סמך ההסתברות המחושבת שלהן. כאשר מיישמים מסווג Naive Bayes, ההנחה היא שלכל המנבאים יש אותה השפעה על תוצאת הכיתה.
  • רשת עצבית מלאכותית (Artificial Neural Networks), או פרצפטרון רב-שכבתי, הם אלגוריתמים של למידת מכונה בהשראת המבנה והתפקוד של המוח האנושי. רשתות עצבים מלאכותיות מקבלות את שמן מהעובדה שהן עשויות מצמתים/נוירונים רבים המקושרים יחד. כל נוירון מפעיל את הנתונים עם פונקציה מתמטית. ברשתות עצביות מלאכותיות, ישנן שכבות קלט, שכבות נסתרות ושכבות פלט.

השכבה הנסתרת של הרשת העצבית היא המקום שבו הנתונים למעשה מתפרשים ומנתחים עבור דפוסים. במילים אחרות, זה המקום שבו האלגוריתם לומד. נוירונים נוספים המחוברים יחדיו יוצרים רשתות מורכבות יותר המסוגלות ללמוד דפוסים מורכבים יותר.

סוגי למידה ללא פיקוח

למידת מכונה - למידה ללא פיקוח לעומת למידה בפיקוח

אלגוריתמי למידה ללא פיקוח כוללים:

K-means clustering היא טכניקת סיווג ללא פיקוח, והיא פועלת על ידי הפרדת נקודות נתונים לאשכולות או קבוצות על סמך התכונות שלהן. K-means clustering מנתח את התכונות שנמצאות בנקודות הנתונים ומבחין בהן דפוסים שהופכים את נקודות הנתונים שנמצאות באשכול מחלקה נתון דומות יותר זו לזו מאשר הן לאשכולות המכילות את נקודות הנתונים האחרות. זה מושג על ידי הצבת מרכזים אפשריים עבור האשכול, או המוקדים, בגרף של הנתונים והקצאה מחדש של המיקום של המרכז עד שנמצא מיקום שממזער את המרחק בין המרכז לבין הנקודות השייכות למחלקה של אותו מרכז. החוקר יכול לציין את המספר הרצוי של אשכולות.

ניתוח רכיבים עיקריים Principal Component Analysis, היא טכניקה המצמצמת מספר רב של תכונות/משתנים למרחב תכונה קטן יותר/פחות תכונות. "המרכיבים העיקריים" של נקודות הנתונים נבחרים לשימור, בעוד שהמאפיינים האחרים נדחסים לייצוג קטן יותר. הקשר בין שיקוי הנתונים המקוריים נשמר, אך מכיוון שהמורכבות של נקודות הנתונים פשוטה יותר, קל יותר לכמת ולתאר את הנתונים.

מקודדים אוטומטיים Autoencoders, הם גרסאות של רשתות עצביות שניתן ליישם על משימות למידה ללא פיקוח. מקודדים אוטומטיים מסוגלים לקחת נתונים ללא תווית, בצורה חופשית ולהפוך אותם לנתונים שרשת עצבית מסוגלת להשתמש בהם, בעצם ליצור נתוני אימון מתויגים משלהם. המטרה של מקודד אוטומטי היא להמיר את נתוני הקלט ולבנות אותם מחדש בצורה מדויקת ככל האפשר, ולכן זה בתמריץ של הרשת לקבוע אילו תכונות הן החשובות ביותר ולחלץ אותן.

הגדילו את התנועה האורגנית שלכם עם SurferSEO
Jasper ai - ניסיון חינם

אולי יעניין אותך לקרוא…