The Future of Sound Production: Exploring the Latest Innovations in Audio Technology
תפריט
שלום אורח ::: Sat, 08 Feb 2025, 13:52
logo המגזין הישראלי לטכנולוגיות באודיו ומוסיקה Musical Act Magazine AI

שומעים?! מכונת הסאונד הגמישה ביותר בעולם הופיעה לראשונה!

Wednesday, 27-11-24, 11:18, מקור: Reuven Mansharoff ::: ::: נושא: AI בינה מלאכותית @ 525

באמצעות טקסט ו/או אודיו, ‘Fugatto’ החדשני מבית NVIDIA יכול ליצור כל שילוב של מוזיקה, קולות וצלילים! תוכנות DAW מפנות את הדרך לפרק הבא של יצירת מוזיקה והעולם כמרקחה.



בעולם המוזיקה והאודיו המקצועי, טכנולוגיות בינה מלאכותית חדשניות הופכות מרעיון לכלי עבודה יומיומי. הפתרון החדש של NVIDIA, הנקרא פוגאטו (Fugatto), מציע יכולות חסרות תקדים העתידות לשנות את דרך החשיבה שלנו על יצירה, עיבוד ועריכת צלילים.
בעוד שדגמי AI מסוימים יכולים להלחין שיר או לשנות קול, לאף אחד אין את המיומנות של מה שמציעה המערכת החדשה.

המהות של Fugatto

פוגאטו, שמשמעותו המלאה היא "Foundational Generative Audio Transformer Opus 1", הוא מודל בינה מלאכותית רב-תכליתי המאפשר יצירה והמרה של צלילים באמצעות טקסט ואודיו.
מדובר במעין " אולר שוויצרי" של כלי אודיו דיגיטליים, המציע גמישות חסרת תקדים ביצירת מוזיקה, קולות וסאונדים.
"רצינו ליצור מודל שמבין ומפיק צלילים בדומה לבני אדם," אומר רפאל וואלה, מנהל מחקר אודיו יישומי ב-NVIDIA, אחד מהאנשים העומדים מאחורי פוגאטו, שהוא מנצח תזמורת ומלחין.
 
פוגאטו תומך במספר משימות של יצירה והמרת אודיו, והוא המודל הראשון של בינה מלאכותית המציג תכונות מתהוות - יכולות הנוצרות מהאינטראקציה בין כישוריו המאומנים השונים - ויכולת לשלב הוראות בצורה חופשית. "פוגאטו הוא הצעד הראשון שלנו לעתיד שבו למידה רב-משימתית בלתי מפוקחת של סינתזה והמרת אודיו, צומחת מנתונים וגודל המודל," אומר וואלה.

 יכולות מרשימות

המודל מציע מספר יכולות מהפכניות:
  1. יצירת מוזיקה מטקסט: הזן הנחיה טקסטואלית ופוגאטו ייצר קטע מוזיקלי מלא.
  2. עיבוד אודיו דינמי: הוספה או הסרה של כלי נגינה, שינוי מצב רגשי בקול, ויצירת אפקטים קוליים שלא היו קיימים קודם.
  3. בקרה אמנותית מדויקת: המשתמשים יכולים לשלוט בדקויות כמו עוצמת רגש, עומק של מבטא ואפילו "לערבב" תכונות קוליות שונות.

 יכולות מיוחדות: מעבר לגבולות הדמיון

אחד החידושים המרגשים של פוגאטו הוא היכולת ליצור צלילים שמעולם לא נשמעו קודם. למשל, המודל מסוגל להפוך חצוצרה לנביחת כלב או סקסופון למיאו של חתול. כל מה שתוכלו לתאר במילים, פוגאטו יכול ליצור.

הנה כמה מהיכולות של פוגאטו - כיצד משתמשים יכולים להפיק צלילים באמצעות הנחיות כמו: ״צור צליל שבו רכבת עוברת והופכת לתזמורת מיתרים שופעת.״ פוגאטו גם מאפשר למשתמשים לבודד קולות משירים, בין שאר התכונות שמציג הסרטון.

המודל משתמש בטכניקה מתקדמת הנקראת ComposableART, המאפשרת שילוב הנחיות שהיו מופרדות בעבר. כך למשל, ניתן לבקש טקסט מדובר בצרפתית עם הבעה עצובה, תוך שליטה מדויקת על עוצמת המבטא או דרגת העצב.

רוהן באדלאני, חוקר AI שעיצב היבטים אלה של המודל, מציין: "רציתי לאפשר למשתמשים לשלב תכונות באופן סובייקטיבי ואמנותי, תוך בחירת המשקל שהם נותנים לכל אחד מהם". בדיקותיו הראו תוצאות מפתיעות שגרמו לו להרגיש כמו אמן, למרות היותו מדען במקצועו.

יתרה מכך, פוגאטו מסוגל ליצור סאונדים דינמיים המשתנים לאורך זמן. למשל, יצירת סאונד של סערה המתקדמת במרחב עם רעמים שמתגברים ודועכים לאט. המודל אפילו מאפשר למשתמשים שליטה עדינה באופן התפתחות הנוף הקולי.

בניגוד למודלים אחרים המסוגלים לשחזר רק את נתוני האימון שלהם, פוגאטו מאפשר יצירת נופים קוליים שמעולם לא נראו קודם - כמו סערה הנרגעת לאור הזריחה עם צלילי ציפורים.

דוגמאות שימוש

כדוגמה, מפיקי מוזיקה יכולים להשתמש בפוגאטו כדי לבצע פרוטוטייפ או לערוך רעיון לשיר, תוך ניסוי של סגנונות, קולות וכלים שונים. הם יכולים גם להוסיף אפקטים ולשפר את איכות האודיו הכוללת של ערוץ קיים.
"היסטוריית המוזיקה היא גם היסטוריית הטכנולוגיה. הגיטרה החשמלית נתנה לעולם רוק אנד רול. כאשר הסמפלר הופיע, נולד ההיפ-הופ," אומר זמישלני. "עם בינה מלאכותית, אנחנו כותבים את הפרק הבא של המוזיקה. יש לנו כלי חדש, כלי חדש ליצירת מוזיקה - וזה מרגש מאוד."

כלים מונעי בינה מלאכותית כמו Fugatto מקלים מאי פעם על יוצרים לחקור דרכים חדשות לשינוי קולות ויצירת אפקטים קוליים מקוריים. תארו לעצמכם יצירת פסקול מורכב או שינוי קולו של שחקן עבור סצנה ספציפית - הכל בלחיצת כפתור. הכוח של AI הוא הבאת יכולות כאלה לחיים שפעם היה אפשר רק לדמיין.
 
סוכנות פרסום, לדוגמא,  יכולה להשתמש בפוגאטו כדי לכוונן במהירות קמפיין קיים למספר אזורים או מצבים, תוך החלת מבטאים ורגשות שונים בהקלטות הקול.
כלים ללימוד שפות יכולים להיות מותאמים אישית לשימוש בכל קול שהדובר בוחר. דמיינו קורס מקוון המדבר בקולו של בן משפחה או חבר.
מפתחי משחקי וידאו יכולים להשתמש במודל כדי לשנות מדיה מוקלטת מראש בכותר שלהם כך שיתאימו לפעולה המשתנה בזמן שהמשתמשים משחקים את המשחק. או, הם יכולים ליצור מדיה חדשה במהירות מהוראות טקסט ןייבוא אודיו אופציונליות.

המשמעות עבור מוזיקאים ואנשי מקצוע

רוד זמישלני, מפיק  עתיר תקליטי פלטינה, מתאר את פוגאטו כ"כלי יצירה שלא היה קיים קודם". המודל מאפשר:
  • פיתוח רעיונות מוזיקליים במהירות
  • עריכה והתאמה של קטעי אודיו
  • יצירת סאונדים חדשניים שלא היו אפשריים בעבר

הטכנולוגיה שמאחורי הקלעים

פוגאטו נבנה עם 2.5 מיליארד פרמטרים, מתורגל על מאגרי אודיו ענקיים, ומאפשר יצירת צלילים שמעולם לא נראו (או נשמעו) קודם.
כפי שאומר רפאל וואלה, מנהל המחקר של NVIDIA: "פוגאטו הוא הצעד הראשון לעתיד שבו למידה רב-משימתית באודיו תעלה מתוך נתונים וגודל מודל".

פוגאטו נוצר על ידי קבוצה מגוונת של אנשים מרחבי העולם, כולל הודו, ברזיל, סין, ירדן ודרום קוריאה. שיתוף הפעולה שלהם הפך את היכולות הרב-מבטאות והרב-לשוניות של Fugatto לחזקות יותר.
 
אחד החלקים הקשים ביותר במאמץ היה יצירת מערך נתונים מעורב המכיל מיליוני דגימות אודיו המשמשות לאימון. הצוות השתמש באסטרטגיה רבת פנים כדי ליצור נתונים והוראות שהרחיבו במידה ניכרת את מגוון המשימות שהמודל יכול לבצע, תוך השגת ביצועים מדויקים יותר ואפשרות משימות חדשות ללא צורך בנתונים נוספים.
הם גם בדקו בקפדנות מערכי נתונים קיימים כדי לחשוף קשרים חדשים בין הנתונים. העבודה הכוללת נמשכה יותר משנה.

הויכוח סביב שחרור הכלי לציבור ושימוש אחראי בו

נכון לעכשיו, ל- Nvidia אין תוכניות מיידיות לשחרר את פוגאטו בפומבי. החברה מכירה בפוטנציאל לניצול לרעה ונוקטת בגישה זהירה. בריאן קטנזארו, סגן נשיא Nvidia למחקר יישומי ללמידה עמוקה, הצהיר שכל טכנולוגיה יוצרת, במיוחד כזו שיוצרת אודיו, תמיד טומנת בחובה סיכונים מסוימים. הוא הדגיש את הצורך להקפיד על אופן השימוש בטכנולוגיה כדי להימנע מיצירת תוכן מזיק או הפצת מידע מוטעה.
שומעים?! מכונת הסאונד הגמישה ביותר בעולם הופיעה לראשונה!

ההשפעה של AI יצרני על זכויות יוצרים ומידע שגוי

בעיה דחופה נוספת עם מודלים של AI גנרטיביים היא הפוטנציאל שלהם להפר זכויות יוצרים וקניין רוחני. לדוגמה, בינה מלאכותית יכולה לשמש כדי לשכפל קולו של ידוען מפורסם או אפילו ליצור דמויות המוגנות בזכויות יוצרים, מה שעלול להפר את חוקי הקניין הרוחני. ככל שהטכנולוגיה מתקדמת, יוצרים וחברות צריכים למצוא פתרונות כדי למנוע בעיות אלו להתעורר.
מצד שני, אנחנו במעבר עדיין. כלי AI למיניהם רוצים כעת להוכיח שהם יכולים לבצע אמנותית את כל מה שגדלנו עליו, אבל! נוכח יכולות הכלים האלה המוזיקה ודרכי השימוש בא הולכים להשתנות לבלי הכר, כך שלא יהיה צורך כבר לחקות ״מה שהיה פעם״.
 

מה הדבר הבא עבור AI בתעשיית הבידור?

השימוש בבינה מלאכותית בתעשיית הבידור מתפתח במהירות, וה-Fugato של Nvidia הוא רק דוגמה אחת לאופן שבו בינה מלאכותית יכולה לשנות תהליכים יצירתיים. עם זאת, היחסים בין מפתחי בינה מלאכותית להוליווד נותרו מתוחים, במיוחד לאחר תקריות כמו השחקנית ההוליוודית סקרלט ג'והנסון שהאשימה את OpenAI בחיקוי קולה.

לסיכום, פוגאטו אינו רק כלי טכנולוגי חדש, אלא מהפכה בתפיסת היצירה הנשמעת. הוא מציב סטנדרט חדש של גמישות, יצירתיות וחופש ביצירה המוזיקלית.
מוצרי אלקטרוניקה ומחשבים במחירים הזולים ביותר, אספקה מהירה - כמו לרכוש בארץ
  • קידום עצמי
    שיר חדש שהופק עם שילוב סינמטי של בינה מלאכותית מתקדמת
    chai050: אז זה הוא השיר החדש בשמו מרכבה של המוסיקאית והזמרת העוצמתית אופל... לשרשור המלא אחרון
  • SoundBoard - סאונד מקצועי
    RE: הסרת צלילי תופים מתקליט קיים
    Rock_Artist: בפועל יש יחסית מעט מודלים קיימים שבהם משתמשים כולם. רוב המודלים... לשרשור המלא אחרון
  • מאסטרינג
    עידו אופיר מאסטרינג - מספר טלפון
    Meir Shilony: היי חברים, אשמח לקבל את המספר של טכנאי המאסטרינג עידו אופיר, למי... לשרשור המלא אחרון
  • כלים וירטואליים, פלאגים - VST/i
    RE: VST ARSENAL 2024
    mixtrim: פוסט שלם המוקדש אך ורק לתחום הסאונד האפקטים והדמיות ההגבר -... לשרשור המלא אחרון