סרטון שנוצר עם סורה
צילום: טוויטר
מדריך

סורה של OpenAI משנה את חוקי המשחק - מדריך

סצנה קולנועית, פרסומת למוצר או הדמיה לתלמידים - מודל הבינה המלאכותית שהופך תיאור טקסטואלי לסרטון, כבר כאן. מה אפשר לעשות איתו, איך משתמשים בפועל, ומה בכל זאת החסרונות והסיכונים בכלי שהופך דמיון למציאות    

עמית בר |
נושאים בכתבה סורה OpenAI

אחרי ששינתה את הדרך שבה אנו כותבים, מדברים ויוצרים תמונות, OpenAI לוקחת את המהפכה שלה צעד אחד קדימה – אל המסך המלא. סורה, הכלי שהושק לאחרונה לציבור הרחב, מאפשר לכל אחד ליצור סרטוני וידאו מרהיבים מתוך תיאור טקסטואלי פשוט, בלי צורך במצלמה, שחקנים או צוות הפקה. תארו לעצמכם סצנה של משקיעים מתלהבים ממניית אנבידיה, או להבדיל - דרקון מעופף מעל הרים מושלגים בשקיעה, רכב ספורט שועט במדבר עם ענני אבק מאחוריו – כל זה נוצר תוך דקות, בלחיצת כפתור. סורה מבטיחה לשנות את כללי המשחק ביצירת תוכן ויזואלי, אבל עם היכולות המרשימות מגיעות גם שאלות גדולות על אתיקה, זכויות יוצרים והשלכות חברתיות.

מה זה סורה, ולמה כולם מדברים עליה?

סורה היא מודל בינה מלאכותית מבית OpenAI, החברה שפרצה לעולם עם ChatGPT ו-DALL·E. היא נועדה להפוך תיאורים כתובים לסרטונים קצרים – עד דקה אחת – שמרגישים כאילו צולמו על ידי במאי מקצועי. סורה הושקה בפברואר 2024, ושודרגה לקראת סוף 2024 והיא זמינה כרגע בעיקר למנויי ChatGPT Plus ו-Pro. השם - "סורה", משמעותו "שמיים" ביפנית.

מה שמייחד את סורה הוא היכולת שלה לעבד תיאורים מורכבים ולתרגם אותם לסצנות דינמיות. תחשבו על משהו פשוט כמו "כלב רץ בשלג, משאיר עקבות, כשהשמש זורחת מאחור", או משהו מורכב יותר כמו "אישה צעירה עם מעיל עור רצה ברחוב טוקיו מואר בניאונים, גשם יורד, והמצלמה עוקבת אחריה בזווית נמוכה, עם השתקפויות צבעוניות על המדרכה". סורה לא רק יוצרת את התמונה – היא מבינה תנועה, תאורה, אווירה ואפילו פרטים קטנים כמו טיפות גשם או אבק שמתעופף. התוצאה? סרטונים איכותיים, קולנועיים ולעיתים כמעט בלתי ניתנים להבחנה מצילום אמיתי.

ההשקה של סורה עוררה התרגשות עצומה בקרב יוצרים, מפרסמים ואמנים, אבל גם חששות. היכולת ליצור סרטונים כל כך משכנעים מעלה שאלות על זכויות יוצרים ואפילו עתיד מקצועות הקולנוע. היא מצטרפת לגל של כלים כמו Runway, Pika.art ו-Stable Video Diffusion, אבל נראה שהיא מעל כולם, לפחות בינתיים.

איך סורה עובדת מאחורי הקלעים?

התהליך מתחיל כשאתם כותבים תיאור, או "פרומפט". נניח, "ציפור צבעונית עפה מעל יער טרופי, עם מפל מים ברקע, והמצלמה זזה לאט סביבה". סורה מפרקת את הטקסט הזה לשכבות של משמעות: מי הדמות המרכזית (הציפור), מה הסביבה (יער ומפל), איך התנועה (עפה, מצלמה מסתובבת), ומה האווירה (צבעוני, טרופי). היא לא רק "מציירת" תמונות – היא מבינה את ההקשר הפיזיקלי של העולם. למשל, היא יודעת שמפל מים יוצר ערפל קל, שציפור תניע את כנפיה בדפוס מסוים, או שיער של דמות יזוז ברוח.

סורה משתמשת בטכניקה שבה היא מתחילה ממסך "רעש" – מעין תמונה אקראית – ומשכללת אותו בהדרגה עד שהוא הופך לסרטון. היא מפרקת את הווידאו ל"תיקונים" מרחביים-זמניים, שמאפשרים לה לעבד גם את התמונה וגם את התנועה לאורך זמן. בנוסף, היא ממנפת ידע ממודלים קודמים של OpenAI, כמו מודלי שפה שמבינים הקשרים טקסטואליים ומודלי תמונה שמבינים קומפוזיציה חזותית. התוצאה היא סרטון שנותן תחושה של קוהרנטיות, כאילו כל פריים תוכנן בקפידה.

המודל הוכשר על בסיס כמויות עצומות של סרטונים ותמונות, רבים מהם ציבוריים או מורשים, עם כיתובים מפורטים שנוצרו על ידי מערכות AI אחרות. זה מאפשר לסורה ללמוד איך תנועה, תאורה וסביבה עובדות יחד. היא יכולה ליצור סצנות מלאות חיים, כמו ילד שקופץ לשלולית ומתיז מים, או ספינת פיראטים שמתנדנדת על גלים סוערים, תוך שמירה על תחושת עומק וריאליזם.

אבל סורה לא מסתפקת בטקסט בלבד. היא יכולה לקבל גם תמונות או קטעי וידאו קיימים כקלט. לדוגמה, אפשר להעלות תמונה של חוף ים ולבקש ממנה להפוך אותה לסרטון שבו הגלים מתנפצים והשמש שוקעת. או להעלות קטע של שלוש שניות של ריקוד, והיא תמשיך אותו קדימה או תחזור אחורה, תוך שמירה על הסגנון והתנועה.

מה סורה יכולה לעשות? דוגמאות שהופכות דמיון למציאות

הנה כמה תרחישים שממחישים את הפוטנציאל של סורה:

סצנה קולנועית: תארו לעצמכם סרטון של לוחם סמוראי עומד על גבעה, רוח מלטפת את גלימתו, כשחרבו מונפת לעבר שמיים סגולים בשקיעה. המצלמה מסתובבת סביבו, מתקרבת לפניו, ואז מתרחקת כדי לחשוף יער במבוק מתנועע ברקע. סורה יכולה ליצור את הסצנה הזו תוך דקות, עם תאורה דרמטית ותנועה חלקה שמרגישה כמו קטע מסרט של אקירה קורוסאווה.

פרסומת מוצר: דמיינו קמפיין לבושם חדש. אתם כותבים: "בקבוק בושם מוזהב מונח על שולחן שיש, מוקף בעלי כותרת ורודים שנופלים לאט. המצלמה מסתובבת, ואור השמש נשבר דרך הבקבוק, יוצר קשת צבעים". סורה מפיקה סרטון מלוטש שנראה כאילו עלה מיליונים להפיק אותו, עם תשומת לב לפרטים כמו השתקפויות ומרקמים.

הדמיה חינוכית: מורה להיסטוריה רוצה להראות לתלמידים איך נראתה רומא העתיקה. הוא כותב: "שוק הומה ברומא העתיקה, עם סוחרים שמוכרים תבלינים, אנשים בטוגות, ומרכבה שחולפת ברחוב אבן. השמש זורחת, והצללים ארוכים". סורה מפיקה סרטון שמביא את התקופה לחיים, עם תחושת אותנטיות שמסייעת לתלמידים לדמיין את העבר.

תוכן למדיה חברתית: משפיען רשת רוצה ליצור סרטון ויראלי. הוא מבקש: "חתול עם משקפי שמש רוקד על חוף ים, עם דקלים ברקע ומוזיקה קצבית שמרגישה כמו מסיבה". סורה מספקת סרטון קצר וקליל, מושלם לטיקטוק או אינסטגרם, שמושך לייקים תוך שניות.

המשכת סרטונים קיימים: נניח שיש לכם קטע קצר של רכבת נוסעת דרך הרים. אתם מבקשים מסורה להמשיך אותו: "הרכבת נכנסת למנהרה, ואז יוצאת לעמק מלא בפרחים צהובים, עם עננים שזזים בשמיים". היא ממשיכה את הסרטון בצורה חלקה, כאילו הוא צולם כמקשה אחת.


סורה לא רק יוצרת סרטונים – היא מאפשרת לכם לערוך אותם. תוכלו לשנות את הרקע של סצנה (למשל, להפוך עיר למדבר), להוסיף אפקטים כמו ערפל או גשם, או אפילו לשלב שני סרטונים למעבר חלק. היא תומכת בסגנונות מגוונים – מאנימציה דמוית פיקסאר, דרך סרטי נואר בשחור-לבן, ועד סגנון סטופ-מושן מחימר. אתם יכולים לבחור יחסי מסך שונים – אנכי לסטוריז, רוחבי לקולנוע, או ריבועי לפוסטים – ואפילו להתאים את הרזולוציה עד 1080p.

איך משתמשים בסורה בפועל?

השימוש בסורה פשוט מאוד, אבל דורש קצת תרגול כדי להגיע לתוצאות מרשימות באמת. כרגע, היא זמינה בעיקר דרך sora.com למנויי ChatGPT Plus (20 דולר לחודש) או Pro (200 דולר לחודש). מנויי Plus יכולים ליצור עד 50 סרטונים קצרים ברזולוציה בינונית, בעוד שמנויי Pro מקבלים גישה לסרטונים ארוכים יותר ובאיכות גבוהה. הגישה עדיין מוגבלת בחלק מהמדינות, כולל ישראל, אבל הצפי הוא שהיא תתרחב בחודשים הקרובים.

כדי להתחיל, נכנסים לפלטפורמה וכותבים תיאור של הסרטון שרוצים. הנה כמה דוגמאות לפרומפטים שיכולים לעזור לכם להבין איך לעבוד עם סורה:

פשוט ויומיומי: "ילד משחק עם כלב בפארק, השמש זורחת, והעלים נושרים מהעצים. המצלמה מתקרבת לחיוך של הילד".

דרמטי וקולנועי: "אביר בשריון כסוף רוכב על סוס לבן דרך ערפל סמיך, עם טירה מוארת ברקע. המצלמה עוקבת מלמעלה, והמוזיקה מרגישה אפית".

פרסומי וממוקד: "מאוורר שולחני חדש על שולחן עץ, עם רוח קלה שמזיזה וילונות לבנים ברקע. המצלמה מסתובבת סביב המוצר, מדגישה את העיצוב המלוטש".

המפתח לתוצאות טובות הוא פירוט. במקום לכתוב "מכונית נוסעת", עדיף לכתוב "מכונית ספורט אדומה נוסעת במהירות בכביש הררי, עם צוקים משמאל וים כחול מימין, והמצלמה עוקבת מלפנים". הוסיפו תיאורים של תאורה ("שמש שוקעת"), תנועה ("המכונית מחליקה בעיקול"), ואווירה ("מרגיש כמו סרט מרדפים"). אם אתם רוצים סגנון מסוים, ציינו אותו – "בסגנון אנימה של סטודיו ג'יבלי" או "כמו סרט של ווס אנדרסון".

לאחר שתכתבו את הפרומפט, תוכלו לבחור הגדרות כמו משך הסרטון, יחס מסך, או סגנון ויזואלי. סורה תפיק את הסרטון תוך 2 עד 10 דקות, תלוי במורכבות. אם התוצאה לא מושלמת, תוכלו לערוך אותה – לשנות צבעים, להוסיף אלמנטים, או לבקש וריאציה חדשה. תוכלו גם להשתמש בכלי כמו "סטוריבורד" כדי לתכנן סצנות מרובות, או "בלנד" כדי למזג סרטונים שונים למעבר חלק.

אם יש לכם תמונה או סרטון קיים, תוכלו להעלות אותם כבסיס. לדוגמה, תמונה של בית כפרי יכולה להפוך לסרטון שבו השמש עולה מאחוריו, עם עשן שיוצא מהארובה. או קטע של רחוב עירוני שסורה תמשיך לסצנה של פסטיבל לילה עם זיקוקים.

מה אפשר לעשות עם סורה? שימושים שמשנים תעשיות

סורה פותחת עולם של אפשרויות, והיא כבר מתחילה להשפיע על תחומים שונים. הנה כמה מהשימושים המרתקים ביותר, עם דוגמאות קונקרטיות:

קולנוע וסטוריטלינג: במאי צעיר יכול להשתמש בסורה כדי להפיק טריילר לסרט מדע בדיוני, כמו סצנה של חללית שחגה סביב כוכב זר, עם ערים צפות ברקע. במקום להשקיע עשרות אלפי דולרים בצילומים, הוא יוצר הכל מהלפטופ שלו. תסריטאי יכול להציג לסוכן שלו סצנה מלאה מהתסריט שלו – למשל, גיבור שקופץ ממטוס מעל ג'ונגל – עוד לפני שהפרויקט מקבל אור ירוק.

פרסום ושיווק: משרד פרסום רוצה לשווק קו חדש של נעלי ריצה. הם יוצרים סרטון שבו רץ חוצה גשר תלוי מעל קניון, עם זריחה דרמטית וזיעה שמבריקה על פניו. הסרטון מוכן תוך יום, במקום שבועות של תכנון והפקה. חברות קטנות, שלא יכלו להרשות לעצמן פרסומות יקרות, משתמשות בסורה כדי ליצור תוכן מלוטש לרשתות חברתיות.

חינוך והדרכה: מרצה לפיזיקה יכול להפיק סרטון שמראה כדור שמתגלגל במדרון, עם חצים שמסבירים את חוקי התנועה של ניוטון. מורה לגיאוגרפיה יכולה ליצור סרטון של הר געש מתפרץ, עם לבה שזורמת והשמיים מתכסים בעשן, כדי להמחיש את התהליך לתלמידים. סורה הופכת מושגים מופשטים לחוויות ויזואליות.

גיימינג ומציאות מדומה: מפתחי משחקים משתמשים בסורה כדי ליצור סביבות וירטואליות – כמו יער מכושף עם פטריות זוהרות או עיר סייברפאנק מלאה בשלטי ניאון. סרטונים אלה משמשים כהדמיות ראשוניות לפני בניית המשחק. בסביבות VR, סורה יכולה ליצור סצנות דינמיות שמשתלבות עם חוויית המשתמש.

תוכן ויראלי למדיה חברתית: יוצר תוכן רוצה להפתיע את העוקבים שלו עם סרטון של פינגווין שגולש על קרח, עם קשת בענן ברקע. הוא מפרסם אותו בטיקטוק, והסרטון צובר מיליוני צפיות תוך שעות. סורה מאפשרת ליצור תוכן קצר, מושך ומדויק לקהל היעד.

הדוגמאות האלה הן רק ההתחלה. סורה יכולה לשמש להדמיות של מוצרים לפני ייצור, ליצירת סרטונים תדמיתיים לחברות סטארט-אפ, ואפילו להמחשת חלומות או זיכרונות אישיים. היא נותנת כוח לכל מי שיש לו רעיון – גם אם אין לו תקציב או ניסיון טכני.

לא הכל מושלם: מהם החסרונות של סורה?

למרות היכולות המרשימות, סורה נתקלת בכמה אתגרים שחשוב להכיר:

פיזיקה לא תמיד מדויקת: לפעמים סורה יוצרת תנועות שמרגישות לא טבעיות. לדוגמה, בסרטון של קבוצת אנשים שרוקדים, ייתכן שדמות תיעלם פתאום או תזוז בצורה מוזרה. בסצנה של כוס שנופלת, המים עלולים להתיז לכיוון הלא נכון.

קושי בהמשכיות: אם תבקשו סרטון של אדם שאוכל עוגייה, ייתכן שהעוגייה תחזור לגודלה המקורי בפריים הבא. סורה מתקשה לשמור על פרטים קטנים לאורך זמן, כמו תנועה עקבית של חפץ או שינויים הדרגתיים בסביבה.

משך מוגבל: הסרטונים מוגבלים כרגע לדקה אחת, מה שמגביל את השימוש בסיפורים ארוכים יותר. כדי ליצור סרטונים ארוכים, תצטרכו לשלב קטעים ידנית.

תלות בפרומפטים: התוצאות תלויות מאוד באיכות התיאור. פרומפט כמו "סצנה יפה" עלול להפיק משהו כללי ומבולגן, בעוד שפרומפט מפורט ייתן תוצאה מדויקת. ניסוח הפרומפט דורש תרגול ולמידה.

צריכת משאבים: יצירת וידאו דורשת כוח חישוב עצום, מה שמעלה שאלות על ההשפעה הסביבתית של המודל. OpenAI לא מפרסמת נתונים מדויקים, אבל התהליך כנראה צורך אנרגיה רבה.

גישה מוגבלת: בשלב זה, סורה לא זמינה לכולם, והמגבלות על מספר הסרטונים שמנויים יכולים ליצור עלולות לתסכל משתמשים שרוצים להתנסות בהרחבה.

למרות המגבלות, התוצאות של סורה כל כך מרשימות שרוב המשתמשים מוכנים להתפשר. עם הזמן, OpenAI צפויה לשפר את המודל, במיוחד בתחומים כמו פיזיקה והמשכיות.

מדהים אך גם מדאיג: האם סורה היא חרב פיפיות?

היכולת ליצור סרטונים כל כך משכנעים פותחת פתח לשימושים בעייתיים, ו-OpenAI מודעת לכך. הנה כמה מההיבטים האתיים והבטיחותיים המרכזיים:

דיפ-פייקס ומידע כוזב: סרטון של דמות דומה לפוליטיקאי שמדבר על מדיניות שנויה במחלוקת, או של סלב שמפרסם מוצר מזויף, עלול לגרום לנזק עצום. OpenAI מגבילה את יצירת סרטונים עם דמויות אנושיות אמיתיות, אבל החשש הוא שגרסאות פיראטיות של המודל יופצו ברשת וישמשו למטרות זדוניות.

תוכן פוגעני: סורה חוסמת יצירת תוכן אלים, פורנוגרפי או מפלה, אבל ההגדרה של "פוגעני" יכולה להיות חמקמקה. לדוגמה, סרטון שנראה תמים על פניו עלול לשמש להעברת מסר מוסווה שקשה לזהות.

זכויות יוצרים: סורה הוכשרה על סרטונים ותמונות, חלקם ממקורות ציבוריים כמו יוטיוב. יוצרים מסוימים טוענים שזה שימוש לא הוגן ביצירות שלהם, בלי פיצוי או אישור. קבוצה של משתתפי הבטא של סורה אף פרשה במחאה על תנאי השימוש, וחלקם הדליפו קטעי קוד או סרטונים כצעד התנגדות.

השפעה על תעשיית הקולנוע: אנשי מקצוע כמו עורכי וידאו, צלמים ואנימטורים חוששים שסורה תפגע בפרנסתם. השחקן והמפיק טיילר פרי, למשל, הביע דאגה שהכלי עלול להפוך תפקידים מסורתיים למיותרים. מצד שני, יש שטוענים שסורה תשחרר יוצרים ממגבלות תקציב ותאפשר להם להתמקד בסיפור במקום בלוגיסטיקה.

כדי להתמודד עם החששות, OpenAI נוקטת כמה צעדים:

סימון תוכן: כל סרטון של סורה כולל מטא-דאטה של C2PA, שמציין שהוא נוצר על ידי AI. זה עוזר למנוע שימוש מטעה.

בדיקות בטיחות: לפני ההשקה, סורה נבדקה על ידי מומחים למידע כוזב, תוכן פוגעני והטיות, כדי לזהות סיכונים.

מגבלות שימוש: המודל לא מאפשר ליצור תוכן עם דמויות מפורסמות או תרחישים שנויים במחלוקת, והגישה מוגבלת למשתמשים מאומתים.

פיתוח כלי זיהוי: OpenAI עובדת על מערכות שיכולות לזהות סרטונים שנוצרו על ידי סורה, כדי להפחית את הסיכון לדיפ-פייקס.

למרות המאמצים והניסיונות להתמודד עם הבעיות, רוב השאלות נותרות פתוחות, בעיקר השאלה אם מה שאנחנו רואים הוא אמיתי או פייק.

סורה מול המתחרות: מי מוביל את המרוץ?

סורה לא לבד בשטח. יש כמה כלים אחרים שמנסים לכבוש את שוק יצירת הווידאו ב-AI, כמו למשל:

Runway Gen-3: מציע כלי עריכה מתקדמים וסרטונים ארוכים יותר, אבל התוצאות פחות ריאליסטיות לעיתים, והממשק מורכב יותר.

Pika.art: מתמקד בתוכן קצר ומהיר למדיה חברתית, כמו סרטונים ויראליים.

Stable Video Diffusion: כלי חינמי וקוד פתוח, אבל התוצאות פחות מלוטשות, והוא דורש ידע טכני כדי להפיק ממנו את המיטב.

Google’s Veo: עדיין בשלבי פיתוח, עם פוטנציאל גדול אבל פחות נגיש כרגע.


היתרון של סורה הוא השילוב של ריאליזם, קלות שימוש ואינטגרציה עם הכלים האחרים של OpenAI, כמו ChatGPT ו-DALL·E. היא מצטיינת ביצירת סצנות מורכבות עם תנועות מצלמה דינמיות, תאורה משכנעת ותחושת סיפור. עם זאת, המתחרות מציעות לעיתים גמישות רבה יותר, כמו סרטונים ארוכים יותר או גישה חינמית, שיכולים למשוך משתמשים מסוימים.

OpenAI כבר רומזת על שיפורים עתידיים, כמו סרטונים ארוכים יותר: היכולת ליצור סרטונים של כמה דקות, שיאפשרו סיפורים מלאים יותר; שילוב קול: הוספת דיבוב, מוזיקה ואפקטים קוליים ישירות בסורה, במקום להסתמך על תוכנות חיצוניות; אינטגרציה עם ChatGPT: דמיינו שיחה עם ChatGPT שבה אתם מתארים סצנה, והוא יוצר אותה כסרטון תוך כדי; שיפורי פיזיקה והמשכיות: תיקון בעיות כמו תנועות לא טבעיות או חוסר עקביות בפרטים; גישה רחבה יותר: הפיכת סורה לזמינה לקהל הרחב, אולי עם תוכנית חינמית מוגבלת; יישומים חדשים: שימוש בסורה לסימולציות רפואיות, הדמיות אדריכליות, או אפילו יצירת עולמות וירטואליים שלמים.

ההשפעה של סורה כבר מורגשת. בתחום השיווק, חברות מפיקות קמפיינים שלמים תוך ימים במקום חודשים. בחינוך, מורים יוצרים סרטונים שממחישים מושגים מורכבים, כמו תנועת כוכבי לכת או תהליכים כימיים. בקולנוע, יוצרים צעירים משתמשים בסורה כדי להציג רעיונות לסרטים, ובגיימינג, מפתחים בונים סביבות וירטואליות להדמיות ראשוניות.

אבל השאלה הגדולה היא לא מה סורה יכולה לעשות, אלא מה אנחנו נעשה איתה. האם היא תהפוך לכלי שמשחרר יצירתיות ופותח דלתות לאמנים חדשים? או שמא היא תציף את הרשת בתוכן מזויף ותפגע בפרנסתם של יוצרים מסורתיים? התשובה תלויה במשתמשים, במפתחים ובחברות שמנהלות את הטכנולוגיה הזו.

הגב לכתבה

השדות המסומנים ב-* הם שדות חובה