באחד מהמאמרים הקודמים שלי, הצגתי מחולל וידאו בינה מלאכותית סינית בשם Vidu. קראתי לו מתחרה אמיתי של סורה בגלל הסרטונים המרשימים שהוצגו לדוגמה. היום נחשף כלי נוסף שמחולל וידאו בינה מלאכותית בשם Kling, והוא נראה אפילו טוב יותר מ-Vidu.
מה זה Kling?
Kling הוא מחולל וידאו בינה מלאכותית חדש מבית Kuaishou (“יד מהירה”), חברה מבייג’ין שמתחרה ב-TikTok.
Kling יכול ליצור סרטוני וידאו של עד 120 שניות עם 30 פריימים לשנייה ברזולוציית 1080P ויחס רוחב-גובה חופשי. לדברי יוצריו, מודל הבינה המלאכותית שלהם יכול להבין פיזיקה טוב יותר ולהציג תנועה מורכבת בצורה מדויקת.
עובדה מעניינת:
Sora דורשת שמונה יחידות עיבוד גרפיות של NVIDIA A100 (GPU) הפועלות במשך יותר משלוש שעות כדי להפיק קליפ של דקה אחת. NVIDIA A100 אחד עולה מעל 10,000 דולר. אז על פניו Kling כנראה ידרוש כפול מכוח המחשוב הזה כדי להפיק תוצאת וידאו של 2 דקות!?
תסתכלו על הסרטונים האלו לדוגמא:
תוכלו לראות כמה טובה מידת הקוהרנטיות (Temporal coherence) בסרטון לדוגמה זה.
מידת קוהרנטיות בסרטוני AI מתייחסת ליכולת של מודל מחולל וידאו ליצור רצף של פריימים שהם עקביים ומחוברים באופן הגיוני מבחינת זמן.
המשמעות היא שהמודל צריך להיות מסוגל לשמור על נרטיב עקבי, לשמור על אותה סצנה או תפאורה ולהבטיח שהפעולות והתנועות של אובייקטים בתוך הסצנה יהיו קוהרנטיות והגיוניות לאורך זמן.
תוכלו לחקור את האתר של Kling ולהתפעל מהדוגמאות. וגם דרך הסרטונים לדוגמה שצירפתי כאן. Kling פתוח כעת לבדיקה באפליקציית הווידאו של Kuaishou שנקראת Kmovie.
איך זה בהשוואה ל-Sora?
פעולות המשפיעות על מצב העולם הן האתגרים הקשים ביותר שעומדים בפני מחולל וידאו בינה מלאכותית. לדוגמה, משיכות מכחול של צייר על גבי הקנבס שנמשכות לאורך זמן, או אדם שאוכל המבורגר ומשאיר סימני נשיכה.
גם Sora וגם Kling מסוגלים לעמוד במשימה.
אז למה לא לשים אותם זה לצד זה? הנה סרטון לדוגמה שמבצע השוואה בינהם:
ובכן, שניהם מלהיבים באיכותם. קל להתבדות בכך שלא מדובר בסרטונים אמיתיים במבט ראשון.
אבל בהסתכלות מקרוב על הדוגמאות הללו, תוכלו לראות שלתוצאה של Sora יש יותר פרטים של הנושא ותנאי תאורה טובים יותר.
עם זאת, Kling יכול להפיק סרטון וידאו בן שתי דקות, שאורכו כפול ממה ש-Sora מסוגלת לייצר.
איך מקבלים גישה?
כרגע, מודל הבינה המלאכותית או האפליקציה הזו ליצירת סרטונים אינם זמינים לציבור. לפי הדיווחים, הוא זמין דרך אפליקציית Kwaiying עבור בודקי בטא מוזמנים בלבד.
לחדשות עדכניות נוספות על זמינותו, תוכלו לבדוק את האתר הרשמי שלהם, אם כי כל הטקסט הוא בסינית.
משתמש אחד ב- Reddit טען ש-Kling יהיה זמין לכולם בהמשך השנה או בשנה הבאה.
מלבד מחולל הטקסט לווידאו, Kuaihou גם הוציא כלי שיכול ליצור סרטון ריקוד מתמונה בודדת של אדם.
אמנם יש אפליקציות קיימות שיכולות ליצור סרטוני בינה מלאכותית, אבל מה שמייחד את Kling הוא עד כמה כל פריים עובר בצורה חלקה, ומעניק לו ריאליזם ברמה אחרת. האופן שבו הבגדים מתקשרים עם התנועה של הנושא הוא גם ממש טוב.
מה התחושות שלי?
בסך הכל, Kling הוא מודל AI מרשים בהתבסס על הדוגמאות שהציגו יוצריו. האם זה יותר טוב מסורה? במקרים מסוימים, כן. אבל Sora נחשפה לפני חודשים ואולי עשתה שיפורים ש-OpenAI עדיין לא הכריזה.
האם זה טוב יותר מ- Veo של גוגל? כן.
האם זה טוב יותר מ-Pika Labs, RunwayML ו-StableVideo? במידה מסויימת, כן.
עוד גרסה אחת או שתיים ו-Kling עשויים לערער את כל תעשיית תוכן הווידאו. ההתקדמות המהירה בטכנולוגיית ייצור וידאו בינה מלאכותית פשוט מדהימה. עם כל מהדורה חדשה, הגבול בין תוכן אמיתי לתוכן שנוצר עם בינה מלאכותית מיטשטש עוד יותר.
הציבור מחכה כעת ל-OpenAI להכרזה על עדכונים חדשים ב- Sora.