בדיוק כשחשבתי שגוגל תחזיק בכתר לזמן מה כמודל עריכת תמונות AI הטוב ביותר עם Gemini 2.0 Flash שיצא לאחרונה, התבדיתי. היום, OpenAI שחררה את GPT-4o עם יכולת יצירת תמונות מובנית. המודל החדש הזה מאפשר לכם ליצור תמונות, לערוך תמונה בודדת באמצעות הנחיות טקסט, ואפילו לשלב מספר תמונות לתמונה אחת.
בניגוד למחולל התמונות הקודם ב-ChatGPT שהופעל על ידי Dall-E 3, יוצר התמונות החדש הוא חלק ממודל GPT-4o. כן, GPT-4o הוא מודל “אומנימודלי” המסוגל לעבד וליצור טקסט, אודיו ותמונות.
המעבר ממודלים נפרדים לשילוב מקורי בתוך GPT-4o הוא התקדמות ארכיטקטונית עצומה, המשפרת ביצועים ויכולות באמצעות צימוד הדוק יותר של הבנת שפה וסינתזה חזותית.
גישה ראשונית לתכונה החדשה הזו מתגלגלת למשתמשי Plus, Pro, Team ו-Free של ChatGPT החל ממרץ 2025. גישה למשתמשי Enterprise ו-Education, כמו גם גישת API למפתחים, צפויה להגיע בקרוב.
אם אתם רוצים ללמוד עוד על איך זה עובד, בדקו את המסמך הטכני כאן.
איך להשתמש
יש מספר דרכים לנסות את המודל החדש:
- ChatGPT: זו הדרך הקלה והפשוטה ביותר לנסות את יוצר/עורך התמונות החדש. עדכנו את אפליקציית ChatGPT השולחנית או גשו דרך chatgpt.com ותארו את התמונה שאתם רוצים ליצור.
- Sora: שימו לב ש-OpenAI הוסיפה לשונית “Images” חדשה לגמרי בפאנל השמאלי של האתר. אתם יכולים לערבב או להפוך את התמונה לוידאו באמצעות Sora.
דוגמאות ליצירת תמונות
בואו נתחיל עם יצירת תמונות. באופן אישי, מעולם לא הסתמכתי על ChatGPT ליצירת תמונות AI כי האיכות של Dall-E 3 הייתה ירודה, ויחס הגובה-רוחב תמיד נתקע על 1:1. עם זאת, עם העדכון האחרון של GPT-4o, האיכות השתפרה משמעותית, וכעת ניתן להתאים אישית את יחס הגובה-רוחב.
ניסיתי בעצמי, והתוצאות מרשימות בדיוק כמו תמונות ההדגמה.
תראו כמה מפורט ומדויק פיזית הנושא בתמונה. אפילו האנשים ברקע מוצגים נכון, למרות שהם לא במוקד התמונה.
בואו נעשה השוואה מהירה של התוצאות של GPT-4o ו-Flux 1.1 Pro Ultra.
A candid, Polaroid-style photo of four diverse friends (early 20s) in a dive bar. Harsh direct flash with sharp shadows and overexposed vintage feel. Muted colors with early-2000s emo aesthetic. Light graffiti on wall behind them. Sharp, detailed quality with minimal grain. Friends showing silly, chaotic energy—grimacing, smiling, or feigning toughness. One playfully has another in a headlock. All with closed mouths. No borders, logos, or signs
איזו לדעתכם נראית טוב יותר? שתיהן נראות נהדר, אז זה תלוי בהעדפה. אבל אני מניח ש-Flux תפס את אפקט הפולארויד טוב יותר מ-ChatGPT.
הצגת טקסט
שיפור משמעותי ביצירת תמונות עם GPT-4o הוא היכולת המשופרת שלו להציג טקסט מדויק בתוך תמונות. ראו את הדוגמה למטה:
קחו רגע להעריך את העיצוב הזה. ChatGPT יכול כעת להיות מעצב הגרפי הפנימי שלכם.
הצגת הטקסט המשופרת היא התקדמות משמעותית לעומת מודלים קודמים ופותחת אין ספור יישומים מעשיים, כמו יצירת תפריטי מסעדות עם טקסט קריא, יצירת הזמנות עם ניסוח מדויק, והפקת דיאגרמות הדרכה עם תוויות ברורות.
דוגמאות לעריכת תמונות
אתם יכולים אפילו ליצור עיצובים גרפיים למוצרים בהתאמה אישית בהנחיה אחת, כמו זו שנוצרה על ידי ג’ייקוב פוזל ב-X. מי צריך מעצב גרפי עכשיו?
הוא אפילו ניסה להעלות שתי תמונות וביקש מ-ChatGPT למזג את האלמנטים בשתי התמונות כדי ליצור עיצוב מודעת מוצר מדהים.

זהו כנראה אחד מהשימושים המגניבים ביותר שראיתי עד כה והוא גם פורץ דרך עבור מעצבים גרפיים ומשווקי מוצרים.
מלבד התכונות שהזכרתי למעלה, GPT-4o מסוגל גם לבצע את הדברים הבאים:
- יצירה רב-שלבית: מכיוון שיצירת תמונות היא כעת מקורית ל-GPT-4o, המודל יכול להתבסס על תמונות וטקסט קודמים בהקשר הצ’אט, להבטיח קוהרנטיות לאורך התהליך היצירתי. לדוגמה, בעת עיצוב דמות משחק וידאו, מראה הדמות נשאר עקבי כאשר המשתמש מעדן ומתנסה בתכונות או תנוחות שונות באמצעות הנחיות שיחה.
- מעקב אחר הוראות: GPT-4o מדגים יכולת משופרת לעקוב אחר הנחיות מפורטות עם תשומת לב לפרטים מורכבים. בעוד שמערכות יצירת תמונות אחרות עשויות להתקשות בהנחיות הכוללות כ-5-8 אובייקטים נפרדים, GPT-4o יכול לטפל בהנחיות עם עד 10-20 אובייקטים שונים. יכולת מוגברת זו לטיפול באובייקטים מרובים בהנחיות מאפשרת יצירת סצנות מורכבות ומפורטות יותר, ומאפשרת למשתמשים להביע נרטיבים חזותיים מורכבים שהיו מאתגרים להשגה בעבר עם יצירת תמונות AI.
- למידה בהקשר: GPT-4o יכול לנתח וללמוד מתמונות שהועלו על ידי המשתמש, לשלב בצורה חלקה את הפרטים שלהן להקשר שלו כדי להשפיע על יצירת תמונות עתידית. למידה בהקשר זו מאפשרת למודל לקבל השראה מהפניות חזותיות שסופקו על ידי המשתמש, ומאפשרת יצירת תמונות שמתאימות יותר לתמונות עם העדפות או דרישות אסתטיות ספציפיות.
זמינות API
בדיוק כמוני, רבים מהמפתחים בחוץ ממתינים בדריכות לקבל גישה למודל חדש זה דרך API. עם זאת, נכון למרץ 2025, גישת API ליצירת תמונות החדשה של GPT-4o עדיין אינה זמינה אך צפויה להיות בעתיד הקרוב.
בעוד שמחולל התמונות הופץ מיד למשתמשי ChatGPT בתוכניות השונות, העיכוב בקבלת גישת API מרמז על אסטרטגיית פריסה מדורגת, כנראה כדי לנהל את דרישות העיבוד ולשלב משוב מבסיס המשתמשים הראשוני לפני שחרור רחב יותר למפתחים.
סביר מאוד שפונקציונליות זו תהיה נגישה דרך ה-Chat Completions API הקיים, בדומה לאופן שבו GPT-4 עם תכונות ה-Voice פועל כיום, בהתחשב באופיו הרב-מודלי של GPT-4o.
מגבלות נוכחיות
יחד עם כל ההתקדמות, יצירת תמונות עם GPT-4o עדיין מתקשה עם כמה דברים:
בעיות חיתוך: תמונות גדולות כמו פוסטרים לפעמים יכולות להיחתך בצורה מסויימת.
טקסט בשפות אחרות: שפות שאינן אנגלית, במיוחד שפות שאינן לטיניות, עלולות שלא להציג את הטקסט כראוי.
פרטי טקסט קטנים: גופנים קטנים או מפורטים במיוחד עלולים לאבד חדות או להפוך לבלתי קריאים.
דיוק בעריכה: שינוי חלק אחד של תמונה עלול להשפיע גם על חלקים סמוכים בה. עשיתי שרשור של הנחיות ושמתי לב ש-GPT-4o לא שומר לחלוטין על הפרטים של התמונה הקודמת. זה משהו שב-Gemini 2.0 Flash לא קורה.
כמובן ש-OpenAI עובדת על שיפור כל הבעיות הללו, וכנראה שהם בתהליך כיוונון המודל כל הזמן כדי לתקן את הבעיות האלה.
בטיחות וסימון
כדי לשמור על שקיפות ובטיחות, כל תמונה שנוצרה עם GPT-4o כוללת מטא-נתוני C2PA. זה אומר שניתן לבדוק האם התמונה נוצרה על ידי AI.
בעוד שמטא-נתוני C2PA מציעים מנגנון חשוב לזיהוי תוכן שנוצר על ידי AI, רצוי להכיר במגבלותיו. ניתן להסיר את המטא-נתונים מתמונה בקלות יחסית, מה שאומר שהוא עשוי לא להיות יעיל לחלוטין במניעת הפצת מידע שגוי או שימוש לרעה בתמונות שנוצרו על ידי AI.
OpenAI גם בנתה כלי שעוזר לזהות תמונות שנוצרו על ידי GPT-4o והכניסה כללים חזקים לחסום דברים מזיקים — כמו כל תוכן עירום, מטעה או פוגעני.
הם זהירים במיוחד כשמדובר בתמונות הכוללות אנשים אמיתיים, עם הגבלות הדוקות יותר. כדי לדאוג לבטיחות הילדים, בעת העלאת תמונות רפרנס המערכת יודעת לסווג אנשים לאחת משלוש התוויות:
- אין אדם פוטוריאליסטי
- מבוגר פוטוריאליסטי
- ילד פוטוריאליסטי
אם תמונה מכילה גם מבוגר פוטוריאליסטי וגם ילד פוטוריאליסטי, המסווג מתוכנן להחזיר “ילד פוטוריאליסטי”.
מנכ”ל OpenAI סם אלטמן כינה את השחרור הזה “שיא חדש לחופש יצירתי”. המטרה היא לתת למשתמשים הרבה גמישות ליצור, בזמן ש-OpenAI צופה איך משתמשים בזה וממשיכה להשתפר תוך כדי תנועה.
מחשבות לסיכום
אני כבר הייתי המום כשגוגל שחררה את Gemini 2.0 Flash עם כלי יצירת התמונות בתוך הצ׳אט, ועכשיו התרשמתי עוד יותר עם מודל GPT-4o המעודכן מ-OpenAI. אני צופה שמתחרים אחרים כמו xAI, Black Forest Labs, וכמובן Midjourney ישחררו יכולות דומות עבור מודלי התמונות שלהם.
היכולות המשופרות של המודל בהצגת טקסט, מעקב אחר הנחיות, יצירה רב-שלבית, וניצול ידע עולמי ממקמות אותו ככלי חזק למגוון רחב של יישומים בתחומים יצירתיים, מסחריים, חינוכיים ומחקריים.
האם זה גם יכול להביא לחוסר תלות במעצבים גרפיים? האם זה יחסל את פוטושופ? האם זה יגרום לרוויה בתוכן בינוני שנוצר על ידי AI באינטרנט? מה לגבי דיפ-פייק? יש טונות של שאלות שצריך לטפל בהן מעל כל הדברים הטובים שהוא מציע. חשוב להמשיך לטפל בשיקולים האתיים ופרוטוקולי הבטיחות הקשורים למודלים גנרטיביים חזקים כאלה כדי להבטיח את השימוש האחראי והמועיל שלהם.
לעת עתה, בואו נמשיך לצפות באילו סוגי שימושים אנשים יגלו כדי לנצל את הכלי החדש הזה. כאשר גישת API תהיה זמינה למפתחים, נוכל לצפות לגל של יישומים חדשניים שמנצלים את החוזקות הייחודיות של יצירת התמונות של GPT-4o. כמפתח בעצמי, אני נרגש לשלב את זה במוצרים שלי.