אחרי חודשים של טיזרים ברשתות החברתיות מאחורי שם הקוד “Project Strawberry”, מודל השפה החדש והמצופה מ-OpenAI סוף סוף כאן – הוא נקרא ‘o1’.
זה קצת לא שגרתי שהם לא קראו לזה GPT-5 או GPT-4.1. אז למה הם הלכו עם o1?
על פי הצהרה של OpenAI, ההתקדמות במודלים החדשים כל כך משמעותית עד שהם חשו צורך לאפס את המונה בחזרה ל-1:
But for complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.
המיקוד העיקרי של מודלים אלו הוא לחשוב ולהגיב באמצעות משימות מורכבות ולפתור בעיות קשות יותר. אז, אל תצפו שזה יהיה מהיר יותר; במקום זאת, הוא מספק תשובות טובות והגיוניות יותר מהמודלים הקודמים.
משפחת המודלים o1 מגיעה בשתי גרסאות: o1-mini ו-o1-preview.
- o1-preview: זוהי תצוגה מקדימה של מודל o1 הרשמי והמתקדם ביותר שישוחרר בעתיד. o1 מקדם באופן משמעותי את השימוש בהיגיון AI.
- o1-mini: זהו מודל חשיבה מהיר יותר וזול יותר, יעיל במיוחד בקידוד. כמודל קטן יותר, o1-mini זול ב-80% מ-o1-preview, מה שהופך אותו למודל חזק וחסכוני עבור יישומים הדורשים היגיון אך לא דורשים ידע עולמי רחב.
OpenAI מדגישה שהמודלים החדשים הללו מאומנים עם למידת חיזוק לביצוע חשיבה מורכבת. אבל מה בדיוק המשמעות של היגיון בהקשר של LLMs?
איך פועל היגיון במודל AI?
בדומה לאופן שבו בני אדם חושבים זמן מה לפני שהם עונים על שאלה קשה, o1 משתמש בשרשרת מחשבה כאשר מנסים לפתור בעיה.
הוא לומד לזהות ולתקן את הטעויות שלו. הוא לומד לפרק שלבים מסובכים לפשוטים יותר. הוא לומד לנסות גישה אחרת כשהגישה הנוכחית לא עובדת.
נקודת המפתח היא שההיגיון מאפשר למודל לשקול גישות מרובות לפני יצירת תגובה סופית.
- לא צריך מודל ענק כדי לבצע פעולות היגיון (reasoning). הרבה פרמטרים מוקדשים לשינון עובדות, על מנת לבצע ביצועים טובים במדדים כמו שאלות טריוויה. אפשר לחלץ חשיבה מתוך ידע, כלומר “גרעין היגיון” קטן שיודע לקרוא לכלים כמו דפדפן ומאמת קוד. חישוב טרום אימון עשוי להיות מופחת.
- כמות עצומה של מחשוב מנוצלת להצגת מסקנות במקום לפני/אחרי אימון. LLMs הם סימולטורים מבוססי טקסט. על ידי הפעלת אסטרטגיות ותרחישים אפשריים רבים בסימולטור, המודל יתכנס בסופו של דבר לפתרונות טובים.
במילים פשוטות, במקום להציע תשובות מעורפלות לשאלות מורכבות, ChatGPT יחשוב כעת יותר לעומק לפני שיספק תשובות טובות יותר.
הנה דוגמה שהוצגה על ידי צוות OpenAI:
זו אולי לא הדוגמה הטובה ביותר, אבל זה צריך לתת לכם את הרעיון הכללי.
איך o1 משתווה ל-GPT-4o?
כדי לבדוק כיצד מודלי o1 מתמודדים מול GPT-4o, חברת OpenAI ביצעה קבוצה מגוונת של בחינות אנושיות ומדדי ML.
הגרף שלמעלה מדגים ש-o1 משתפר מאוד בהשוואה ל-GPT-4o במדדי חשיבה מאתגרים הכוללים שאלות מתמטיקה, קידוד ומדעים.
בהערכת מודלי ה-o1 החדשים, OpenAI גילתה שהם מצטיינים במדד GPQA-Diamond – מבחן אינטליגנציה מאתגר שמעריך מומחיות בכימיה, פיזיקה וביולוגיה.
כדי להשוות את ביצועי המודל לאלו של בני אדם, OpenAI שיתפה פעולה עם מומחים בעלי דוקטורט שענו על אותן שאלות GPQA-Diamond.
באופן מדהים, o1 התעלתה על המומחים האנושיים הללו, והפכה למודל הראשון שעושה זאת על פי מדד זה. אמנם זה לא מרמז ש-o1 עדיף על דוקטורט מכל הבחינות, אבל זה מצביע על כך שהמודל מיומן יותר בפתרון בעיות מסוימות שדוקטורט היה צפוי לפתור.
תוכל לקרוא עוד על הדוח הטכני של מודלי o1 כאן.
כעת, כדי לראות את יעילות הביצועים של o1 באמצעות בעיה קלאסית: ספירת האותיות R במילה: strawberry.
שאלתי גם את ChatGPT-4o וגם את קלוד, והם נתנו לי תשובה מהירה מאוד אבל שגויה לשאלה הפשוטה.
כפי שתוכלו לראות, זו לא הייתה שאלה קשה, אבל הם לא היו מסוגלים לחשוב לפני שהם הגיבו.
עכשיו, אם נשאל את אותה שאלה למודל ChatGPT האחרון, “o1”, הוא יבצע חשיבה של כמה שניות לפני מענה ויתן תשובה מדויקת.
o1 הוא לא מושלם
אפילו סם אלטמן הודה ש-o1 עדיין פגום ומוגבל בדברים מסויימים. זה עשוי להיראות מרשים יותר בשימוש הראשון מאשר אחרי שימוש מתמשך.
דבר נוסף שיש לציין הוא שמודלי o1 מציעים התקדמות משמעותית בהיגיון אך אינם מיועדים להחליף את GPT-4o בכל מקרי השימוש.
עבור יישומים הזקוקים לקלט תמונה, קריאת פונקציות או זמני תגובה מהירים באופן עקבי, מודלי GPT-4o ימשיכו להיות הבחירה המתאימה.
איך לקבל גישה למודל o1?
o1 מושק כבר עכשיו ב-ChatGPT לכל משתמשי Plus וצוותים, וב-API למפתחים בשכבה 5.
אם אתם משתמשים ב- ChatGPT בחינם, OpenAI ציינו שהם מתכננים לספק גישה בהמשך ל-o1-mini לכל משתמשי ChatGPT Free, אבל לא פורסם לוח זמנים ספציפי.
o1 זמין גם ב-OpenAI Playground. פשוט התחברו אל https://platform.openai.com ותחת הכרטיסייה Playground, הגדירו את המודל ל”o1-mini” או “o1-preview”.
טיפים להנחיות עבור מודלי o1
הנחיות שאתם כנראה רגילים להשתמש עם מודלים כמו Claude 3.5 Sonnet, Gemini Pro, או GPT-4o, פחות אפקטיביות עבור מודלי o1.
מודלי o1 מתפקדים בצורה הטובה ביותר עם הנחיות פשוטות. טכניקות מוכרות של הנדסת הנחיות, כמו הנחיה: “לחשוב צעד אחר צעד”, עשויות שלא לשפר את הביצועים ולעיתים עלולות להפריע לו.
אלו כמה שיטות עבודה מומלצות עם מודלי o1:
- שמירה על הנחיות פשוטות וישירות: מודלי o1 מצטיינים בהבנה ובהיענות להנחיות קצרות וברורות ללא צורך בהדרכה מקיפה.
- הימנעות מהנחיות שרשרת: מכיוון שמודלי o1 מבצעים חשיבה פנימית, הנחיות של “לחשוב צעד אחר צעד” או “להסביר את ההגיון שלך” אינה נחוצה.
- שימוש בסימני פיסוק לצורך בהירות: שימוש בסימנים כמו מרכאות משולשות, תגי XML או כותרות למקטעים כדי לציין בבירור חלקים נפרדים של הקלט, ולעזור למודל לפרש מקטעים שונים כראוי.
- הגבלת הקשר נוסף ב-Retrieval Augmented Generation (RAG): בעת מתן הקשר או מסמכים נוספים, יש לכלול רק את המידע הרלוונטי ביותר כדי למנוע מהמודל לסבך יתר על המידה את תגובתו.
מחשבות אישיות לסיכום
אוקיי, אז o1 מרשים בכל הנוגע לפתרון בעיות מבוססי צ’אט ויצירת תוכן. אבל אני הכי מתלהב מהשילוב שלו בעוזרי קידוד כמו Cursor AI.
כבר ראיתי דוגמאות של אנשים שמחברים את מפתחות ה-API שלהם ל-Cursor AI ומשתמשים ב-o1 כדי לכתוב עבורם קוד. עדיין לא ניסיתי את זה, אבל זה משהו שבטוח אני הולך לנסות את זה.
מהבדיקות הראשוניות שלי, היכולת של o1 לחשוב, לתכנן ולבצע היא בהחלט מרשימה יותר מכל מה שחוויתי עד כה. אנחנו בעצם עדים לרגע ש- ChatGPT הופך להיות מערכת מחוללת קוד. ההשלכות של היכולות החדשות שלה הן עצומות.
אני באמת מאמין שגל המוצרים החדשים שייבנו עם זה יהיה משהו שלא ראינו אף פעם. האפשרויות החדשות בעולם פיתוח התוכנה מדהימות, ואני בטוח ש- o1 תחולל מהפכה בדרך שבה אנו מקודדים ובונים יישומים בעתיד הקרוב.