מה זה בינה מלאכותית מולטי-מודאלית? מודלים רב-מודאליים גדולים, הסבר מעמיק

מה זה בינה מלאכותית מולטי-מודאלית?

מודלים של שפה גדולה (LLMs), כמו GPT של OpenAI, הם מודלי הבינה המלאכותית המתקדמת והגדולים ביותר שיצרו אינספור כותרות בשנים האחרונות. הטובים מבין ה-LLMs הללו מסוגלים לנתח, להבין, לפרש ולייצר טקסט, כמו גם רוב בני האדם – ומסוגלים לעמוד במבחנים סטנדרטיים רבים.

אבל עדיין יש הרבה דברים ש-LLMs לא יכולים לעשות בעצמם, כמו להבין צורות שונות של תשומות. לדוגמה, LLMs לא יכולים להגיב באופן טבעי להוראות בקול או בכתב יד, לקטעי וידאו או כל דבר אחר שאינו רק טקסט. כמובן, העולם אינו מורכב רק מטקסט שכתוב בצורה מסודרת, כך שחוקרי בינה מלאכותית מאמינים שאימון מודלים גדולים של בינה מלאכותית צריכים להיות מסוגלים להבין סוגי “מודאליות” שונים – כמו תמונות, סרטונים ואודיו – וזהו השלב הבא והחשוב במחקר בינה מלאכותית.

ואנחנו כבר רואים שחברות הפיתוח המובילות בתחום הבינה המלאכותית כבר עמוק בשלב פיתוח המודלים המולטי-מודאליים הגדולים האלה או בשפתם: LMMs. גוגל, OpenAI ואנתרופיק, כולן מדברות על העוצמה של מודלי הבינה המלאכותית ועל היכולות המודאליות שלהם.

אז אם מודלים רב-מודאליים גדולים הם השלב הבא של AI, בואו נבחן מה הם, איך הם עובדים ומה הם יכולים לעשות.

מהו AI מולטי-מודאלי?

מודלים מולטי-מודאליים גדולים הם מודלים של בינה מלאכותית המסוגלים להגיב במספר מודאליות (מייצגים חושיים).

בלמידת מכונה ובמחקר בינה מלאכותית, מודאליות היא סוג נתון (דאטה). אז טקסט הוא מודאליטי, כמו גם תמונות, סרטונים, אודיו, קוד מחשב, משוואות מתמטיות וכו’. רוב מודלי הבינה המלאכותית הקיימים כרגע יכולים לעבוד רק עם מודאליות בודדת או להמיר מידע ממודאליות אחת לאחרת.

לדוגמה, מודלים של שפות גדולות, כמו GPT-4, בדרך כלל עובדים רק עם אופציה אחת: טקסט. הם לוקחים הודעת טקסט כקלט, עושים כמה פעולות AI נסתרות מאחורי הקלעים, ואז מחזירים טקסט כפלט.

זיהוי תמונות עם בינה מלאכותית ומודלים שממירים טקסט לתמונה פועלים שניהם עם שתי מודאליות: טקסט ותמונות. מודלים של זיהוי תמונות בינה מלאכותית לוקחים תמונה כקלט ומוציאים תיאור טקסט, בעוד שמודלים של טקסט לתמונה לוקחים הנחית טקסט ומייצרים תמונה מתאימה.

שאנו משתמשים ב-LLM שעובד עם כמה מודאליות, סביר להניח שהוא משתמש במודל AI נוסף כדי להמיר את הקלט האחר לטקסט. לדוגמה, לפני ההשקה של GPT-4o (מודל מולטי-מודאלי), ChatGPT השתמש ב-GPT-3.5 וב-GPT-4 כדי להפעיל את תכונות הטקסט שלו, אך הוא הסתמך על Whisper לצורך ניתוח אודיו ו-DALL·E 3 ליצירת תמונות.

אבל כל זה מתחיל להשתנות.

מודלי בינה מלאכותית מולטי-מודאלית הופכים למיינסטרים: Gemini, GPT-4o, GPT-4o mini, וקלוד 3

כשגוגל הכריזה על סדרת מודלי הבינה המלאכותית שלה, Gemini, היא עשתה עניין גדול לגבי האופן שהם “מולטי-מודאליים מטבעם”. במקום להדביק יחד מודלים שונים כדי לתת מראה של מולטי-מודאליות, הם כנראה הוכשרו מראש להיות מסוגלים להתמודד עם טקסט, תמונות, אודיו, וידאו ועוד.

OpenAI הוציאה לאחרונה את GPT-4o, מודל רב-מודאלי המציע ביצועים ברמת GPT-4 (או טוב יותר) במהירויות גבוהות הרבה יותר ובעלויות נמוכות יותר. כרגע הוא זמין למשתמשי ChatGPT Plus ו-Enterprise, והרב-מודאליות שלו פירושה שאתם יכולים ליצור ולנתח תמונות במהירות, לפרש נתונים ולנהל שיחות קוליות שוטפות עם ה-AI – בין שאר המשימות.

זמן קצר לאחר שחרורו של GPT-4o, חברת OpenAI השיקה את GPT-4o mini – מודל שפה קטן יותר, מהיר וזול יותר מ-GPT-4o. נכון לכתיבת שורות אלה, GPT-4o mini אינו תומך בכל אותן כניסות ויציאות כמו GPT-4o – כגון: וידאו ואודיו – אך OpenAI אומרת שהיא מתכננת להפיץ את זה בעתיד הקרוב.

באופן דומה, אנתרופיק טוענת של-קלוד 3 יש “יכולות ראייה מתוחכמות בדומה למודלים מובילים אחרים”. לכן, בעוד שמודל רב-מודאלי גדול הוא מונח חדש ומפואר, הוא בעצם מתאר את הכיוון שאליו הלכו כל ה-LLM הגדולות.

כיצד פועלים מודלים מולטי-מודאליים גדולים?

מודלים מולטי-מודאליים גדולים דומים מאוד למודלים של שפות גדולות בצורה ההדרכה, עיצוב ותפעול. הם מסתמכים על אותן אסטרטגיות אימון וחיזוק, ויש להם את אותה ארכיטקטורת טרנספורמרים הבסיסית. אם תרצו פרטים והסבר על מושגים אלו של ChatGPT המאמר הבא יהיה מקום טוב להמשיך בו.

אנחנו בעידן של מסחור בבינה מלאכותית, אז הרבה מידע מעניין וחשוב על מודלי הבינה המלאכותית השונים כבר לא מפורסם לציבור. ולכן יש להרכיב את הפאסל מהמידע שמוצג בהכרזות הטכניות, מפרטי המוצר והכיוון הכללי של המחקר. כתוצאה מכך, זוהי יותר השקפה כוללת לגבי אופן הפעולה של מודלים אלה כמכלול, במקום פירוט מפורט של האופן שבו פותח LMM ספציפי.

בנוסף לכמות בלתי נתפסת של טקסט, LMMs מאומנים גם על מיליוני או מיליארדי תמונות (עם תיאורי טקסט נלווים), קטעי וידיאו, קטעי אודיו ודוגמאות לכל מידע שמודל הבינה המלאכותית נועד להבין (למשל, קוד ). באופן מדהים, כל האימון הזה מתרחש באותו זמן. הרשת העצבית הבסיסית – האלגוריתם שמפעיל את כל מודל בינה מלאכותית – לא רק לומדת את המילה “כלב”, אלא היא גם לומדת את הרעיון של מה זה כלב, כמו גם איך כלב נראה ונשמע. בתיאוריה, זה צריך להיות מסוגל לזהות תמונה של כלב או לזהות נביחה בקליפ אודיו באותה מידה שהוא מסוגל לזהות את המילה “כלב”.

כמובן, אימון מקדים זה הוא רק הצעד הראשון ביצירת מודל AI פונקציונלי. סביר להניח שעל הדרך הוא שילב כמה סטריאוטיפים לא ממש בריאים ורעיונות רעילים – עיקרון האינטרנט כולו אינו טוב למוח האנושי, שלא לדבר על רשתות מלאכותיות המבוססות עליהם. כדי לקבל מודל רב-מודאלי גדול שמתנהג כצפוי, וחשוב מכך, שהוא יהיה שימושי בפועל, התוצאות עדיין מכוונות באמצעות טכניקות כמו למידה חיזוקית עם משוב אנושי (RLHF), מודלים של AI מפוקח ו”צוות אדום” (כדי לנסות למצוא את הסדקים הללו).

לאחר שכל זה נעשה, התוצאה אמורה להיות מודל רב-מודאלי גדול שדומה למודל שפה גדול, אך מסוגל להתמודד גם עם סוגי מודליטי אחרים.

מה יכול לעשות מודל רב-מודאלי גדול?

ChatGPT מחולל תמונה של כלב בולדוג צרפתי מצייר תמונה של גלקסיות עצומות

אם תרצו לראות הדגמה די פנומנלית של לאן מועדות פניהם של LMMs, אני ממליץ לכם לבדוק את ההדגמה של מודל GPT-4o של OpenAI. גם גוגל שיתפה הדגמה עבור החזון שלהם למודל מולטי-מודאלי עתידי עם Google Astra.

לסיכום, להלן רשימה של חלק מהפונקציות שתוכלו לבצע עם ה-LMMs שזמינים כרגע:

  • להעלות תמונה ולקבל תיאור של מה שמתרחש בה, בנוסף ניתן להשתמש בתמונה כחלק מהנחיה ליצירת טקסט או תמונות נוספות.
  • להעלות תמונה ולשאול שאלות לגביה, כמו גם שאלות המשך לגבי אלמנטים ספציפיים של התמונה.
  • לתרגם את הטקסט בתמונה, למשל תפריט של מסעדה, לשפה אחרת, ולאחר מכן להשתמש בתרגום כחלק מהנחיית טקסט.
  • להעלות תרשימים וגרפים ולשאול שאלות המשך מסובכות לגבי מה שהם מציגים.
  • להעלות דגם עיצובי של אתר או אפליקציה ולקבל את קוד ה-HTML וה-CSS הדרוש ליצירתו.
  • צ’אט קולי עם ה-AI בדיאלוג בשפה טבעית.

וככל שמודלי ה-LMM יהיו נגישים ונפוצים יותר, היכולות שלהם יתרחבו בהתאם. לדוגמא: צ’אט בוט רפואי רב-מודאלי, שיוכל לאבחן טוב יותר תופעות שונות ושינויי צבע בעור של מטופל.

מודלי AI מולטי-מודאליים שזמינים היום

הדרך הקלה ביותר לראות איך מרגיש מודל מולטי-מודאלי היא עם GPT-4o, באמצעות ChatGPT. אבל קלוד ו-Gemini הם גם דוגמאות טובות, רק עם קצת פחות תכונות נוצצות.

כך או כך, במהלך השנה-שנתיים הקרובות, אנו צפויים לראות יותר כלי בינה מלאכותית מולטי-מודאליים המסוגלים לעבוד עם טקסט, תמונות, קטעי וידאו, אודיו, קוד ושיטות אחרות שכנראה אפילו עוד חשבנו עליהן עדיין.

גילוי נאות:

תוכן המאמר נכתב לאחר מאמץ ומחקר על מנת לספק את התוכן האמין ביותר שניתן. כמו כן התוכן מתייחס למידע שקיים בעת שעודכן לאחרונה בתאריך: 11/09/2024, ולכן עשויים להיות שינויים ואי התאמות שחלו מאז.
כמו כן, כל המאמרים המסקרים מוצרים או שירותים כלשהם הינם מוצרים שרכשתי והתנסתי בהם בעצמי. בחלק מהמקרים אני אקשר לאתרי המוצרים באמצעות קישור שיתופי (Affiliate), שיתוף פעולה זה מאפשר לי לעיתים לספק לכם הגולשים הטבות מיוחדות ובתמורה אני מתוגמל באופן חלקי ואינו משפיע על העלות הסופית.
תודה על שיתוף הפעולה. ומקווה שהפקתם את המיטב מקריאה זו.

אולי יעניין אותך לקרוא…

חברים יקרים!
אהבתם מה שקראתם?
אז תהיו חברים…
קבלו ישירות אליכם למייל:
חדשות, טיפים ומדריכים, מבצעים וכלי בינה מלאכותית.
השאירו שם ומייל וגם אתם לא תצטרכו לדאוג שתפספסו משהו בעולם ה-AI!
שדה זה מיועד למטרות אימות ויש להשאיר אותו ללא שינוי.
פרטיות(חובה)
This field is hidden when viewing the form
This field is hidden when viewing the form
חברים יקרים!
אהבתם מה שקראתם?
אז תהיו חברים…
קבלו ישירות אליכם למייל:
חדשות, טיפים ומדריכים, מבצעים וכלי בינה מלאכותית.
השאירו שם ומייל וגם אתם לא תצטרכו לדאוג שתפספסו משהו בעולם ה-AI!
שדה זה מיועד למטרות אימות ויש להשאיר אותו ללא שינוי.
פרטיות(חובה)
This field is hidden when viewing the form
This field is hidden when viewing the form
Send this to a friend