Stability חשפה מחולל טקסט למוזיקה, ואתם יכולים לנסות אותו. הנה כיצד
Monday, 25-09-23, 12:48, מקור: Reuven Mansharoff ::: ::: נושא: AI בינה מלאכותית @ 172725
Stable Audio משתמשת בטכניקות AI גנרטיביות ליצירת מוזיקה, אפקטים קוליים ואודיו באורך של עד 90 שניות על סמך הנחיות המשתמש
המודל משתמש בדיפוזיה סמויה בדומה ל-Stable Diffusion ומאומן על 800,000+ ערוצי אודיו ואפקטים. דגמי ה-Stable Audio הם מודלים המורכבים מכמה חלקים שונים, בדומה ל-Stable Diffusion: מקודד אוטומטי (VAE), מקודד טקסט ומודל דיפוזיה מותנה מבוסס U-Net.
הצגת מודלים מחוללים מבוססי דיפוזיה הביאה למהפכה בתחום ה-AI הגנרטיבי בשנים האחרונות, והובילה לשיפורים מהירים באיכות וביכולת השליטה של תמונות, וידאו ואודיו שנוצרו. מודלים של דיפוזיה הפועלים במרחב הקידוד הסמוי של מקודד אוטומטי מאומן מראש, המכונים ״מודלים של דיפוזיה סמויה״, מספקים שיפורי מהירות משמעותיים לאימון ולהסקת מודלים של דיפוזיה.
אחת הבעיות העיקריות ביצירת אודיו באמצעות מודלים של דיפוזיה היא שמודלים אלה מאומנים בדרך כלל לייצר פלט בגודל קבוע. לדוגמה, מודל הפצת אודיו עשוי להיות מאומן על קטעי אודיו של 30 שניות, והוא יוכל ליצור אודיו רק בנתחים של 30 שניות. זו בעיה כאשר מתאמנים ומנסים לייצר אודיו באורכים משתנים מאוד, כפי שקורה בעת יצירת שירים מלאים.
דגמי פיזור אודיו נוטים להיות מאומנים על נתחי אודיו חתוכים באקראי מקבצי אודיו ארוכים יותר, חתוכים או מרופדים במילוי כדי להתאים לאורך האימון של מודל הדיפוזיה. במקרה של מוזיקה, הדבר גורם למודל להפיק קטעים שרירותיים של שיר, שעשויים להתחיל או להסתיים באמצע ביטוי מוזיקלי.
וכאן אנו מציגים את Stable Audio, ארכיטקטורת מודל דיפוזיה סמוי לאודיו המותנית במטא נתונים של טקסט וכן משך קובץ אודיו ושעת התחלה, המאפשרת שליטה על התוכן והאורך של האודיו שנוצר. התניית תזמון נוספת זו מאפשרת לנו ליצור אודיו באורך מוגדר עד לגודל חלון האימון.
עבודה עם ייצוג סמוי של אודיו שהופחת בכבדות מאפשרת זמני הסקה מהירים בהרבה בהשוואה לאודיו גולמי. באמצעות ההתקדמות העדכנית ביותר בטכניקות דגימת דיפוזיה, דגם הדגל Stable Audio מסוגל להציג 95 שניות של אודיו סטריאו בקצב דגימה של 44.1 קילו-הרץ בפחות משנייה אחת ב-NVIDIA A100 GPU.
כדי להכשיר את מודל הדגל Stable Audio, החברה השתמשה במערך נתונים המורכב מיותר מ-800,000 קובצי אודיו המכילים מוזיקה, אפקטים קוליים וסטמס של כלים בודדים, כמו גם מטא-נתונים מתאימים של טקסט, שסופקו באמצעות חבירה לספקית המוזיקה AudioSparx. מערך נתונים זה מוסיף ליותר מ-19,500 שעות של שמע
כדי להכשיר את מודל הדגל Stable Audio, החברה השתמשה במערך נתונים המורכב מיותר מ-800,000 קובצי אודיו המכילים מוזיקה, אפקטים קוליים וסטמס של כלים בודדים, כמו גם מטא-נתונים מתאימים של טקסט, שסופקו באמצעות חבירה לספקית המוזיקה AudioSparx. מערך נתונים זה מוסיף ליותר מ-19,500 שעות של שמע
תכלס
עד כאן הטכני, ומה זה אומר לנו היוצרים? שיש התקדמות עצומה במחוללי מוזיקה בהתאמה אישיתֿ ובו בזמן מתגלים פתרונות טכנולוגיים חכמים ליצירת התאמת ציפיות בין היוצר לתוצאה, ובסיכןמן שך תהליך - זמן שהולך ומתקצר בין רעיון או השראה ליצירה מוגמרת.
התנסות חופשית כאן (לא להתרגש אם התוצאות עדיין בלתי צפויות עבור מי שמתחיל את דרכו בהנחיות לבינה מלאכותית).
משתמשים יכולים לבחון את הטכנולוגיה בעצמם באמצעות הגרסה החינמית הבסיסית, המאפשרת ליצור עד 20 טראקים לא מסחריים של 45 שניות בחודש.
אם אתה מתכנן להשתמש בכלי זה כחלק מזרימת העבודה שלך, שקול להשקיע במנוי ה-Pro, המספק עד 500 ערוצים ארוכים של 90 שניות בחודש יחד עם רישיון מסחרי.
Stability AI אומרים שכלי ה-AI יהיה שימושי במיוחד עבור מוזיקאים שיכולים להשתמש בו כדי ליצור דגימות לשילוב במוזיקה שלהם.
להתרשמות מקטעים שנוצרו בדרך זו, מוזיקה וגם אפקטים, ניתן להיכנס לקישור הבא.התנסות חופשית כאן (לא להתרגש אם התוצאות עדיין בלתי צפויות עבור מי שמתחיל את דרכו בהנחיות לבינה מלאכותית).
כיצד להתנסות?
- כנסו לקישור של המחולל, יתכן שתתקלו בהודעה שחש עומס כבד על השרת (מה הפלא) בעיקר בשעות הפעילות בארה״ב. התעלמו או נסו שוב, רצוי בשעות הבוקר בישראל.
- הירשמו עם כתובת דוא'ל חוקית או השתמשו בנוחות בחשבון Google קיים. ודאו שהפרטים מדויקים כדי למנוע בעיות כניסה עתידיות.
- ברגע שאתם בפנים, כל מה שצריך לעשות הוא להקליד הנחיה עבור האודיו שאתם רוצים שייווצר, ולאחר כ-15 שניות, אתם יכולים לצפות לתוצאה שלכם.
- לכתיבת הבקשה, תוכלו לכלול פרטים רבים ככל שתרצו כדי לקבל את התוצאות הטובות ביותר, כולל פרטים כגון ז'אנר, מצב רוח, אורך, BPM ועוד.
- הנחיות לדוגמה של Stability AI כוללות ״פוסט-רוק, גיטרות, ערכת תופים, בס, מיתרים, אופורית, מעודד, מצב רוח, זורם, גולמי, אפי, סנטימנטלי, 125 BPM״ או משהו פשוט כמו ״מכונית חולפת״ (באנגלית הכל בינתיים).
- דוגמה באנגלית: ״Heavy metal, thrash, headbanging, concert promotion, shredding guitar, aggressive, 180 bpm״
- לאחר הזנת ההנחיה, לחצו על החץ כדי להתחיל בתהליך יצירת המוזיקה. המתנה קצרה לאחר מכן, תוכלו להאזין לתוצאת האודיו ולהעריך אם היא עונה על החזון היצירתי שלכם.
- למטה, ניתן למצוא את היצירה שלנו, ללחוץ על כפתור ההפעלה כדי לקבל תחושה של מה ש-Stable Audio יכול להשיג, נכון לעכשיו.
כיצד להזין הנחיות אודיו כמו מקצוען?
ציין את הפרטים
בין אם אתם מדמיינים ז'אנר ספציפי או מצב רוח בעל ניואנסים, הבהירו זאת. ככל שההנחיה שלך תהיה מפורטת יותר, כך הפלט יתיישר יותר עם החזון האמנותי שלך.
הכתב את האווירה
מחולל המוזיקה של Stability AI - מאפשר לך לנסח העדפות מצב רוח ישירות בהנחיה שלך. רוצה משהו אופטימי, מלא נשמה או אולי מדיטטיבי? רק תגיד זאת, וה-AI יפנק אותך.
כייל את הקצב
שים לב לקצבים לדקה (BPM) כאשר אתה רוצה לשלוט גם בקצב וגם בז'אנר של המוזיקה שלך. זה מבטיח שהיצירה שנוצרה היא לא רק שיקוף של הטעם שלך אלא גם עונה על דרישות התזמון שלך.