רוב הסיכויים שלא יצא לכם להתקל בבעיה עם הנחייה ארוכה מידיי בצ׳אט AI? אלא אם כן העתקתם את התוכן של ספר שלם לתוך שיחה עם צ’אט בוט בינה מלאכותית, או שביקשתם ממנו לכתוב דוח מפורט על כל סוגי הפטריות בעולם (ויש מיליונים כאלה…), אז למה בכל זאת זה חשוב?
כי יש גבול לכמות המידע שצ’אט בוט יכול לקלוט או להגיב בבת אחת. מגבלה זו תלויה בחלון ההקשר של ה-LLM (או אורך ההקשר): שזהו מספר הטוקנים שמודל השפה הגדולה (LLM) או המודל הרב-מודאלי הגדול (LMM) יכול לעבד בבת אחת, כולל הוראת הקלט והפלט שנוצר.
חלונות הקשר גדולים יותר הופכים לחשובים יותר ויותר בפיתוח LLMs ו-LMMs ממספר סיבות. אבל יש טרייד-אוף לאפשרות של תשומות ותפוקות ארוכות יותר. בואו נסביר.
LLMs: תקציר זריז
לפני שניכנס לפרטים העמוקים יותר על חלונות ההקשר, כדאי שתהיה לנו הבנה כללית על אופן הפעולה של מודלי הבינה המלאכותית העדכניים. להסבר מפורט, אני ממליץ לעיין במאמר שלנו על איך ChatGPT עובד (העקרונות הבסיסיים דומים בכל ה-LLMs). אבל לעת עתה, הנה מה שאתה צריך לדעת:
LLMs מפרקים טקסט ל”טוקנים”, כאשר כל טוקן שווה לארבעה תווים בערך. כל טוקן מקודד בנפרד בתוך הרשת העצבית של LLM ומתאים למושג, מילה או חלק ספציפי של מילה. כדי לקבל מושג טוב יותר כיצד קטע טקסט מקבל טוקן על ידי LLM, תוכלו לשחק עם הטוקנייזר של OpenAI (כפי שמוצג בתמונה למטה).
לאחר מכן, ה-LLMs מייצרים פלט על ידי לקיחת קלט טקסט, פירוקו לטוקנים המתאימים לו, עיבוד כל הנתונים הרלוונטיים ממקורות ההדרכה והמידע הנכלל בהנחיה, והחזרת מה שהוא מחשיב כטוקני ההמשך הסבירים ביותר.
עכשיו שתמצתנו את כל העניין הזה, בואו נתעמק בנושא חלון ההקשר.
מה זה חלון הקשר ב-AI?
חלון הקשר ב-AI הוא המספר המרבי של טוקנים ש-LLM יכול לעבד במכה אחת. למרות שזה נשמע פשוט, הדברים מסתבכים כשחושבים שה-LLM צריך להשתמש בחלון ההקשר כדי לעקוב אחר הקלט וגם הפלט.
הדברים נעשים מבולגנים עוד יותר כשתתחילו להשתמש ב- LLMs בעולם האמיתי. לצורך העניין נבחן את ChatGPT. למודל החזק ביותר שלו (נכון לכתיבת שורות אלו), GPT-4o, יש חלון תוכן מקסימלי של 128,000 טוקנים. זה אומר שתוכלו פשוט להכניס את הטקסט המלא של ספר שלם ל-ChatGPT ולצפות לנהל על זה שיחה.
וזו הסיבה: בנוסף להנחיה שלכם, ChatGPT צריך גם לעבד מידע אחר – הכל בתוך חלון התוכן המרבי שלו:
- הוראות מ-OpenAI (החברה שמאחורי ChatGPT)
- כל הנחיות ברירת המחדל שהגדרתם
- היסטוריית השיחות שלכם
- התוכן של כל הקבצים או האתרים המצורפים שהוא חיפש
ואז אתם צריכים לקחת בחשבון שלמשתמשי ChatGPT שונים יש גישה למודלי GPT שונים עם אורכי הקשר שונים. לדוגמה, לגרסה אחת של GPT-4o יש חלון הקשר של 8,192 טוקנים, בעוד שלאחרת יש לכל היותר 32,768 טוקנים (הגרסה שבה ChatGPT משתמש תלוי בדברים כמו ביקוש וסוג המנוי שבה אתם נמצאים).
מצד שני, אם אתם משתמשים ב-GPT-4o API, תוכלו לגשת לחלון ההקשר המלא (128,000 טוקנים) ולהשתמש בו כדי לעשות משהו ספציפי עם הטקסט של הספר המלא שלכם. במקרה כזה, ייתכן שתוכלו להתאים את כל מה שאתם צריכים לחלון ההקשר.
חלונות ההקשר של LLM שונים
כדי לתת לכם מושג טוב יותר על המספרים, הנה סקירה מהירה של כמה מה-LLMs הפופולריים ביותר ויכולת העיבוד שלהם. תזכרו: רוב הסיכויים שהמספרים הללו יגדלו עד שתקראו את זה.
חלון ההקשר של Gemini
ל-Gemini 1.5 Pro יש חלון הקשר של עד מיליון טוקנים. אבל מפתחים יכולים לקבל גישה לעד 2 מיליון טוקנים באמצעות Google AI Studio ו-Google Vertex AI.
חלון ההקשר של GPT-4o
ל-GPT-4o יש חלון הקשר של 128,000 טוקנים – נמוך בהרבה מזה של Gemini אבל עדיין כנראה יותר ממה שאי פעם תצטרכו.
חלון ההקשר של Claude
קלוד היה המוביל עד לאחרונה באורך ההקשר שלו עם – 200,000 טוקנים באמצעות המודל האחרון שלו, קלוד 3.5 סונט. אבל עם ההתקדמות האחרונה של Gemini מאזן הכוחות השתנה.
חלון ההקשר של Llama
ל-Llama 3 יש חלון הקשר הקטן ביותר של 8,000 טוקנים, אבל Meta (החברה שמאחורי Llama) אמרה שהם מתכננים להגדיל את זה כחלק מהפיתוחים הקרובים.
היתרונות והחסרונות של חלון הקשר גדול ב-AI
בעוד שחלון הקשר ארוך יותר הוא התפתחות מרכזית, הוא לא חף מחסרונותיו. להלן היתרונות והחסרונות של חלון הקשר גדול ב-LLMs.
- שיחות ארוכות וקוהרנטיות יותר
- פחות ״הזיות״
- יכולת לעבד יותר מידע ונתונים
- עלויות גבוהות יותר לשימוש
- אפשרויות גבוהות יותר לבלבל את הבינה המלאכותית
- לא בהכרח מספק תגובות איכותיות יותר
היתרונות של חלון הקשר גדול ב-AI:
שיחות ארוכות וקוהרנטיות יותר
היתרון הברור של חלון הקשר גדול יותר הוא שאתם יכולים לתת למודל AI יותר מידע לעבוד איתו. תוכלו לספק לו בקשות ספציפיות יותר, לנהל שיחות ארוכות יותר מבלי שהצ’אטבוט ישכח פרטים קודמים, ולסמוך על כך שהוא ייצר תגובה על סמך מידע מפורט יותר.
נניח שאתם פותחים בשיחה עם ChatGPT. עם חלון הקשר של 128,000, זה אומר (באופן תיאורטי) שאתם יכולים לשוחח איתו כמעט ללא הגבלת זמן והוא עדיין יוכל לזכור את ההוראות שנתתם לו בהנחיה הראשונית שלכם. על מנת שכלי בינה מלאכותית כמו עוזרי פגישות יעזרו לכם באמת להיות יעילים יותר, הם יזדקקו לזכרון ארוך כזה.
פחות הזיות
נניח שאתם בונים צ’אט בוט פנימי לצורך טיפולי IT. חלון הקשר גדול יותר מאפשר לכם להדריך את מסד הנתונים שלכם עם כל ההקשרים שאתם חושבים שה-LLM יכול להעלות על הדעת כדי לענות על בקשות טיפוסיות. זה כולל דברים כמו מדריכים לעובדים, מסמכי עזרה ושיחות לדוגמה. כשמישהו שואל את הצ’אט בוט שאלה – למשל: “איך אני נכנס לחשבון האימייל שלי בסמארטפון האישי שלי?” – הצ’אט בוט מחפש במסד הנתונים הקשר ודוגמאות רלוונטיים, ופולט אותם אוטומטית בהנחיה.
טכניקה זו – הידועה בשם Retrieval-Augmented Generation (RAG) – מגדילה את הסיכויים שהצ’אטבוט יספק תגובה מדויקת ומקטינה באופן דרסטי את הסיכוי שהוא ימציא משהו או יגיד למשתמשים תשובה כמו: איך להיכנס ל-Gmail.
ניתוח כמויות גדולות של נתונים
הדבר המרגש הנוסף באורך הקשר ארוך יותר הוא האפשרות למודלים של AI לנתח מסמכים ארוכים יותר ובסיסי קוד גדולים. אז אם אתם רוצים ״להאכיל״ את הבינה המלאכותית באותו ספר בן 500 עמודים ולגלות כמה פעמים שתי דמויות ספציפיות מקיימות אינטראקציה בספר, חלון הקשר גדול יכול לאפשר זאת.
החסרונות של חלון הקשר גדול ב-AI:
עלויות גבוהות יותר לשימוש
הדרישות לעיבוד הנחיות בינה מלאכותית מתרחבות פי 4 עם אורך הטוקן. לדוגמה, נדרשים פי ארבעה משאבי מחשוב כדי לעבד 2,000 טוקנים מאשר 1,000. זה אומר שלא רק שייקח יותר זמן לקבל תגובה, אלא שזה גם יעלה לכם יותר.
בואו נמשיך להסתכל על ChatGPT: מודל ה-GPT-4o עולה $5 למיליון טוקני קלט ו-$15 למיליון טוקני פלט (מחיר הקלט והפלט נחתכים בחצי אם תשתמשו בממשק API). מיליון טוקנים אולי נשמעים הרבה, אבל בהתאם לכמות ההקשר שהמודל צריך לעבד עם כל בקשה, דברים מצטברים במהירות.
חלון הקשר ארוך לא בהכרח מספק תגובות איכותיות יותר
חלון הקשר גדול פותר בעיות כמו אחזור נתונים ודיוק עם ה-LLMs, אבל לא את כולם. אם תספקו ל-LLM הרבה נתונים באיכות נמוכה, הוא לא ימצא באורך פלא את הנקודה הרלוונטית בעצמו. אתם עדיין צריכים להזין אותו בהקשר איכותי ולפעול לפי כל העקרונות של כתיבת הנחיה יעילה.
אפשרויות גבוהות יותר לבלבל את הבינה המלאכותית
בעוד שחלון הקשר גדול יכול להפחית את הסיכויים להזיות, אם לא תיזהרו, הוספת הקשרים מיותרים עלולה לבלבל ולגרום לתגובות לא מדויקות. לדוגמה, אם תזינו מידע סותר, יש סיכוי טוב שהוא יספק תגובות לא עקביות. ואם המידע הסותר הזה קבור עמוק בתוך מקורות מידע ארוכים, יהיה לכם קשה למצוא את מקור הבעיה ולתקן אותה.
האם חלון הקשר גדול הוא דבר טוב?
במידה ואורך ההנחיה שלכם מוסיפה הרבה מידע נוסף שיעזור ל- LLM לתת לכם תשובה טובה יותר, אז מדהים. אבל אם אתם זורקים הרבה מידע וקישורים לא רלוונטיות רק בגלל שאתם יכולים, בסופו של דבר תקבלו את התוצאה ההפוכה. אחת כמה וכמה אם אתם משתמשים ב-API, יכול להיות שתזרקו כסף לטמיון.
המפתח כאן הוא למצוא את האיזון הנכון, במיוחד עם מודלי AI קטנים יותר הפועלים על מכשירים כמו סמארטפונים ומחשבים ניידים.
הקשר לכולם
LLMs ממשיכים להיות חזקים ושימושיים יותר. אם עד לפני כשנה, חברות בינה מלאכותית היו נלחמות על מספר הפרמטרים הגדול ביותר. עכשיו כשכל המודלים הגדולים יש מספיק פרמטרים לביצועים ברמה גבוהה, כנראה שאורך ההקשר הוא הדבר הבא להתרברב בו. אני צופה שזה יימשך שנה או שנתיים עד שלכל המודלים יהיה חלון הקשר של לפחות מיליון. ואז נעבור לדבר הבא – כנראה מהירות ויעילות.