Flux.1 הגיע, ומציב רף חדש בעולם של מודלי תמונה. עם 12 מיליארד פרמטרים, הוא מתעלה על ענקיות התעשייה כמו Midjourney, Dall-E ו-Leonardo Ai מבחינת איכות תמונה וביצועים.
לצוות מאחורי Flux.1 יש היסטוריה מעניינת.
הם המפתחים המקוריים של הטכנולוגיה שמניעה את ה-Stable Diffusion והממציאים של latent diffusion. בעקבות כמה בעיות פנימיות ב-Stability AI, חברי צוות המפתחים עזבו כדי להקים סטארטאפ חדש בשם Black Forest Labs.
סוג זה של “בריחת טכנולוגיה” מוביל לעתים קרובות לחדשנות. כאשר אנשים מוכשרים גדלים בזכות עצמם, הם חופשיים לחפש רעיונות חדשים, נועזים וללא המגבלות של ארגונים גדולים יותר.
מה זה Flux.1?
Flux.1 היא חבילה של מודלים של מחוללי טקסט לתמונה המגדירים מצב חדש (SOTA) ברמת הפירוט של תמונה, עקביות בהנחיות, גיוון סגנונות ומורכבות סצנה בסינטזציה של טקסט לתמונה.
המודל של Flux מגיע בשלוש גרסאות:
- Flux.1 Pro: מציע ביצועים מהירים מאוד ביצירת תמונות, ומספק עקביות נהדרת אחר הנחיות טקסט, איכות חזותית גבוהה, פירוט תמונה וגיוון בתוצרים.
- Flux.1 Dev: מודל בעל משקל פתוח (open-weight), נטול הדרכה מקדימה המיועד לשימוש לא מסחרי. הוא מזוקק יותר מ-Flux.1 Pro, משיג איכות ועקביות בהנחיות דומה למודל ה-Pro תוך שהוא יעיל יותר ממודל טיפוסי באותו גודל.
- Flux.1 Schnell: זהו המודל המהיר ביותר שלהם ונועד לפיתוח לוקאלי ולשימוש אישי. זמין לכולם תחת רישיון Apache 2.0.
כל המודלים הציבוריים של Flux.1 משתמשים בשילוב טרנספורמרים של דיפוזיה מקבילים ומולטי-מודאליים ויש להם 12 מיליארד פרמטרים. מודלים אלו טובים יותר ממודלים מוקדמים של diffusion מכיוון שהם משתמשים ב- flow matching, שיטה קלה לאימון מודלים מחוללים תמונות הכוללת דיפוזיה.
בנוסף, המודלים מתפקדים טוב יותר ומשתמשים בחומרה בצורה יעילה יותר.
6 דרכים לגשת למחולל התמונות Flux.1 בחינם!
ימים ספורים לאחר שחרורו, Flux.1 מהיוצרים: Black Forest Labs גנב את אור הזרקורים ומתיימר להיות מחולל תמונות AI הטוב ביותר.…
האם Flux.1 טוב יותר מ- Midjourney?
לפי החוקרים והבודקים, Flux.1 Pro ו-Flux.1 Dev מתעלים (על הנייר) על מודלים פופולריים כמו Midjourney v6.0, Dall-E3 ו-Stable Diffusion 3 Ultra בכל אחד מההיבטים הבאים:
- איכות ויזואלית
- קוהרנטיות בהנחיות
- שונות בגודל וקנה מידה
- טיפוגרפיה
- גיוון בתפוקה
אבל האם זה באמת נכון? בואו ננסה את הדוגמה הזו:
a portrait of an old woman with glasses, photo, 50mm, f1.4, natural light, Pathéchrome
מה אתם חושבים, איזו תמונה נראית הכי טוב?
כל הגרסאות של מודל Flux.1 תומכות במגוון רחב של יחסי רוחב-גובה ורזולוציות בין 0.1 ל-2.0 מגה-פיקסל, כפי שמוצג בדוגמאות הבאות.
תמונות לדוגמה
תראו כמה מהתמונות בדוגמאות המדהימות שנוצרו עם Flux.1 Pro. נתחיל עם תמונות של אנשים עם התמקדות בפרטים הקטנים, כמו השיער, הקמטים, האצבעות והגפיים.
האיכות מאוד דומה ל- Midjourney בתמונה השמאלית. רמת הפירוט בתכונות אנושיות כמו שיער, קמטים ואצבעות היא באמת טובה.
A humanoid robot spraying graffiti on a brick wall that reads the following text:”I visualise a time when we will be to robots what dogs are to humans, and I’m rooting for the machines”
עיבוד טקסט בתוך תמונה הוא אחד התחומים הקשים ביותר ביצירת תמונות AI. אפילו הגרסה האחרונה של Midjourney v6.1 עדיין לא מצליחה במיוחד בבדיקות הראשוניות שלי. Flux.1 נראה ממש טוב, אפילו עם טקסטים ארוכים.
anime girl with long white hair holding her teddy bear close to her heart, wearing a black school uniform and red bow tie against a simple background in the cute style of high quality with a white skin tone and white space around the character in the anime art style of a drawing and digital painting as an upper body portrait.
זה נראה מבטיח מאוד. הגוונים הרכים וההדגשות הזוהרות מעניקים לו מראה מקצועי ומלוטש המתחרה ביצירות אמנות ידי אדם.
פוטוריאליזם ברמה מטורפת
חלק מהמשתמשים שהייתה להם גישה ל-Flux מיהרו לגלות עד כמה התמונות ריאליסטיות. הנה כמה תמונות הסלפי המציאותיים ביותר ששותפו ב-X.
אני התנסיתי בלא מעט מחוללי תמונות בינה מלאכותית כבר תקופה ארוכה, אני יכול לומר בביטחון שאלו כמה מהפורטרטים המציאותיים ביותר שראיתי שנוצרו עם בינה מלאכותית.
איך להשתמש ב-Flux.1
עבור אלה שלהוטים לנסות את Flux.1, קיימות מספר אפשרויות חינמיות שזמינות כרגע (אני בטוח שבקרוב מאוד יפתחו אפשרויות רבות נוספות):
הנה יצירה לדוגמה עם Fal.
Eye tiger single, close-up extreme. Frontal direct view. Iris, pupil detailed. Eye texture, color sharp focus. Lighting natural, eye shine authentic and depth capture. “FLUX” word painted over, brush strokes white big, texture visible
גישה באמצעות API
ניתן לגשת ל-Flux.1 Pro גם דרך API בלינק הזה. זה כרגע במצב תצוגה מקדימה; חלות מגבלות מסוימות.
- חשבונות מופעלים רק עבור שותפים נבחרים.
- ה-API אינו יציב ונתון לשינויים.
הנה קוד Python לדוגמה:
import os
import requests
request = requests.post(
'https://api.bfl.ml/v1/image',
headers={
'accept': 'application/json',
'x-key': os.environ.get("BFL_API_KEY"),
'Content-Type': 'application/json',
},
json={
'prompt': 'A cat on its back legs running like a human is holding a big silver fish with its arms. The cat is running away from the shop owner and has a panicked look on his face. The scene is situated in a crowded market.',
'width': 1024,
'height': 1024,
},
).json()
print(request)
request_id = request["id"]
שימו לב ששליחת בקשות אל /v1/image מוגבלת ל-12 משימות פעילות. אם תחרגו מהמגבלה שלכם, זה יחזיר קוד סטטוס 429 ותצטרכו לחכות עד שתסתיים אחת המשימות הקודמות שלכם.
תוכלו לבדוק את התהליך המלא כיצד להשתמש ב-API כאן.
שימוש מסחרי ורישוי
אולי חלקכם חושבים, האם אפשר למכור או להפיץ את התמונות למטרות מסחריות? ובכן, התשובה היא כן ולא, תלוי בגרסה שבו אתם משתמשים.
- Flux.1 Pro: שימוש מסחרי ב-Flux.1 Pro אפשרי, אך הגישה למודל זה מוגבלת כעת לשותפים דרך פלטפורמות כגון Replicate ו-Fal.ai.
- Flux.1 Dev: השימוש בתמונות מוגבל רק למטרות לא מסחריות, כלומר אתם לא יכולים למכור או להפיץ תמונות שנוצרו על ידי מודל זה למטרות מסחריות.
- Flux.1 Schnell: הוא זמין באופן פתוח תחת רישיון Apache 2.0, המאפשר גמישות רבה יותר בשימוש. משמעות הדבר היא שתוכלו להשתמש ב-Flux.1 Schnell הן למטרות אישיות והן למטרות מסחריות, בתנאי שאתם עומדים בתנאי הרישיון Apache 2.0.
לסיכום, אם אתם מחפשים להשתמש במודלי Flux.1 למטרות מסחריות, Flux.1 Pro ו- Flux.1 Schnell הן האפשרויות הטובות ביותר עבורכם. Flux.1 Pro מספק את האיכות הגבוהה ביותר וזמינה באמצעות שותפויות ספציפיות, בעוד Flux.1 Schnell מציע פתרון נגיש יותר תחת רישיון קוד פתוח.
מחשבות לסיכום
אמנם האופי הפתוח של מודלי Flux מרגש, אך ישנה מגבלה מעשית שיש לקחת בחשבון. הפעלת מודלים אלה באופן מקומי לצד מודל שפה גדול (LLM) דורשת כוח מחשוב משמעותי – בדרך כלל GPU A100 או טוב יותר. עם 12 מיליארד פרמטרים (24 GB בדיסק) פלוס מקודד טקסט בנפח 9 GB, מודל Flux.1 הוא מעבר ליכולות של רוב הצרכנים.
המודל הפתוח, Schnell, הוא כבר עכשיו ברמה גבוהה. אין לי ספק שהקהילה תפעל למציאת טכניקות חדשות לכוונון, אימון והרחבה של גרסת אפאצ’י 2.0. אני מאמין שמתחרה חדש בנוף מחוללי תמונות AI ישדרג את הרף עבור כולם. ויהיה מרגש לראות מודלים מדהימים יוצאים החוצה ומייצרים תמונות מרהיבות.