Stability AI משחררת פלטפורמת אודיו AI

Stability AI, חברה הידועה בעיקר בזכות מחולל התמונות AI שלה, השיקה פלטפורמת AI המחוללת טקסט לאודיו בשם Stable Audio.

Stable Audio משתמש במודל דיפוזיה, אותו מודל בינה מלאכותית שמניע את פלטפורמת התמונה הפופולרית יותר של החברה, Stable Diffusion, אך מאומן עם אודיו ולא תמונות. משתמשים יכולים להשתמש בו כדי ליצור שירים או אודיו רקע עבור כל פרויקט.

מודלים של פיזור אודיו נוטים ליצור אורך קבוע של אודיו, וזה נורא להפקה מוזיקלית מכיוון ששירים יכולים להשתנות באורכם. הפלטפורמה החדשה של Stability AI מאפשרת למשתמשים להשמיע צלילים באורכים שונים, מה שמחייב את החברה לאמן את המודל במוזיקה ולהוסיף מטא נתונים של טקסט סביב זמן ההתחלה והסיום של השיר.

Stable Audio משתמש במודל דיפוזיה, מודל בינה מלאכותית

בעבר, אודיו שנלמד בקליפ של 30 שניות יכול ליצור רק 30 שניות של אודיו וליצור קטעים שרירותיים של שירים. Stability AI טוענים כי התאמה של המודל מאפשרת כעת למשתמשי Stable Audio לקבל שליטה רבה יותר על משך הזמן של השיר.

החברה מצהירה, "Stable Audio מייצגת את מחקר ייצור האודיו המתקדם על ידי מעבדת מחקר האודיו הגנרטיבית של Stability AI, Harmonai. אנחנו ממשיכים לשפר את ארכיטקטורות המודל, מערכי הנתונים ונהלי ההדרכה שלנו כדי לשפר את איכות הפלט, יכולת השליטה, מהירות ואורך הפלט."

לדברי החברה, היא הכשירה את Stable Audio עם "מערך נתונים המורכב מיותר מ-800,000 קובצי אודיו המכילים מוזיקה, אפקטים קוליים וכלי נגינה מבודדים" ומטא נתוני טקסט מחברת רישוי המוזיקה AudioSparx. מערך הנתונים מייצג יותר מ-19,500 שעות של צלילים. על ידי שיתוף פעולה עם חברת הרישוי, מחברת Stability AI נאמר, שיש לה הרשאה להשתמש בחומר המוגן בזכויות יוצרים.

ל-Stable Audio יהיו שלוש רמות תמחור: גרסה חינמית המאפשרת למשתמשים ליצור עד 45 שניות של אודיו עבור 20 רצועות בחודש; רמה מקצועית של $11.99 עבור 500 רצועות באורך של עד 90 שניות; ומנוי Enterprise, שדרכו חברות יכולות להתאים אישית את השימוש והמחיר שלהן. עם זאת, אלה המשתמשים בגרסה החינמית לא יכולים להשתמש באופן מסחרי באודיו שהם יוצרים עם Stable Audio.

יצירת טקסט לאודיו עם בינה מלאכותית

יצירת טקסט לאודיו אינה חדשה, מכיוון ששמות גדולים אחרים בתחום הבינה המלאכותית הגנרטיבית שיחקו עם הרעיון. Meta הוציאה את AudioCraft באוגוסט, חבילת מחוללי AI שעוזרים ליצור ERM, סאונד ומוזיקה בצלילים טבעיים מהנחיות טקסט. כמו כן גם גוגל עם MusicLMהמרפשר להפיק צלילים באמצעות בינה מלאכותית. אך כרגע הכלים שלהם זמינים רק לחוקרים ולכמה אנשי מקצוע בתחום האודיו.

כמו בפלטפורמות אודיו AI אחרות, חלק גדול ממקרי השימוש הפוטנציאליים של Stable Audio יהיה ביצירת מוזיקת רקע לפודקאסטים או סרטונים כדי להפוך את זרימות העבודה הללו למהיר יותר.

הגדילו את התנועה האורגנית שלכם עם SurferSEO
Jasper ai - ניסיון חינם

אולי יעניין אותך לקרוא…