SAM Audio: המהפכה השקטה שמפרקת סאונד לגורמים [+ מדריך]

Wednesday, 17-12-25, 18:27, ACT ::: ::: נושא: AI בינה מלאכותית @ 330

מודל הקוד הפתוח של Meta מאפשר להפריד כל צליל מכל הקלטה - ולמה זה משנה למוזיקאים, מפיקים וטכנאי אולפן

SAM Audio: המהפכה השקטה שמפרקת סאונד לגורמים [+ מדריך]
בעשור האחרון התרגלנו לכך שבינה מלאכותית עוזרת לנו לנקות רעשים, ליישר קולות או לבודד שירה. אבל SAM Audio, מודל חדש מבית Meta AI, לוקח את הרעיון הזה צעד משמעותי קדימה: לא רק הפרדת שירה מכלי נגינה, אלא הפרדה חכמה של כל צליל מכל מקור אודיו או וידאו, באמצעות פרומפטים פשוטים ואינטואיטיביים.

מדובר בהרחבה של משפחת Segment Anything המוכרת מעולם הווידאו והתמונה, והפעם – באודיו.

מה זה בעצם SAM Audio?

SAM Audio (Segment Anything Model Audio) הוא מודל קוד פתוח להפרדת אודיו, vמאפשר למשתמש לבחור מה הוא רוצה לשמוע, ולא רק איך לנקות את הסאונד.

שיטת העבודה מבוססת על בחירה של צליל מטרה, והפקת שני ערוצים: הצליל הנבחר וכל שאר מרכיבי ההקלטה.

הבחירה נעשית באמצעות כמה סוגי פרומפטים:

טקסט
בחירה ויזואלית מתוך וידאו
טווח זמן
או שילוב של כולם

SAM Audio: המהפכה השקטה שמפרקת סאונד לגורמים [+ מדריך]

למה זה מעניין במיוחד לאנשי סאונד?

שליטה יצירתית במקום תיקון טכני

במקום לעבוד עם אלגוריתם שמנחש מהו ווקאל ומהו רעש, המשתמש מגדיר למודל בדיוק מה הוא מחפש, לדוגמא:

קול נשי לוחש
תיפוף רקע
רעש קהל

דוגמה: ניגון עם גיטרה – SAM Audio מאפשר בידוד כלי נגינה מסרטון.

עבודה מול וידאו ולא רק אודיו

SAM Audio יודע להשתמש במידע ויזואלי. אם בווידאו רואים דלת נטרקת, ניתן ללחוץ עליה ולבודד את הצליל שלה בלבד.

התאמה למצבים מורכבים

המודל מתמודד היטב עם:

הקלטות לייב
סשנים צפופים
חפיפות בין דיבור, מוזיקה ורעש סביבתי

שימושים מעשיים באולפן ובשטח

למפיקים מוזיקליים

חילוץ כלי נגינה מסאמפלים מורכבים
ניקוי ערוצים מוקלטים לפני עיבוד
רמיקסים מבוססי סאונד ולא רק סטמים מוכנים

לטכנאי אולפן

הצלת הקלטות בעייתיות
הפרדת נשימות, קליקים ורעשי רקע
הכנה חכמה למיקס
מתאים מאוד לניתוח הקלטות שיח ובידוד דובר גם במחקר (כוחות בטחון)

ליוצרי תוכן ואנשי פוסט

בידוד דיאלוג מסצנות עמוסות
הפרדת מוזיקה מאפקטים
שליטה מדויקת בסאונד מתוך וידאו קיים

Visual prompting (הפעלה ויזואלית): לחיצה על האדם או האובייקט שמפיקים את הצליל לבידוד הסאונד שלהם.

מדריך קצר: איך מתחילים?

שלב 1: התנסות מהירה אונליין

Meta מציעה סביבת דמו אינטראקטיבית כאן.
שם ניתן:

העלאת קובץ אודיו או וידאו
בחירת צליל באמצעות טקסט, קליק או טווח זמן
האזנה והורדת התוצאה

Span prompting (הפעלה לפי טווח זמן): סימון קטעי זמן בהם הסאונד הרצוי מתרחש.

שלב 2: עבודה מקומית (למתקדמים)

המודל זמין כרגע בקוד פתוח ב-GitHub:
כולל:

קוד מלא
משקולות מאומנות
דוגמאות שימוש בפייתון

ומה לגבי איכות?

לפי נתוני Meta, SAM Audio מציג ביצועים ברמה הגבוהה ביותר כיום בכל סוגי הפרומפטים.
בנוסף, שוחרר גם סט הערכה פתוח לבחינת הפרדת אודיו, כולל מודל שיפוט שמדמה הערכה אנושית. כאן.

השורה התחתונה

SAM Audio לא בא להחליף פלאגין כזה או אחר, אלא לשנות את צורת החשיבה על הפרדת סאונד.
במקום לשאול "מה האלגוריתם יודע להפריד", אתם שואלים: "מה אני רוצה לשמוע?" וזו כבר קפיצת מדרגה אמיתית ביצירה ובפוסט-פרודקשן.

הכותב: ראובן מנשרוף, מייסד ועורך אקט מוסיקלי ומומחה אודיו בעל 45 שנות ניסיון.

למידע נוסף/רכישה: SAM Audio קישור ישיר לכתבה זו