אנבידיה הואנג
אנבידיה הואנג

אנבידיה רוכשת את Slurm ומעמיקה את האחיזה בתשתיות ה-AI

קוד המקור של תוכנת ניהול העומסים למחשוב עתיר ביצועים נפתח לציבור, כחלק מהמהלך לבניית שכבת תשתית רחבה ל-AI ארגוני

ליאור דנקנר |


אנבידיה NVIDIA Corp. 3.14%   ממשיכה להתרחב מעבר לשבבים, והפעם היא עושה את זה דרך התוכנה שמנהלת את מרכזי המחשוב הכבדים מאחורי הקלעים. החברה מודיעה שהיא רוכשת את SchedMD, המפתחת של Slurm, תוכנת ניהול עומסים ותזמון משימות שנמצאת בלב הפעילות של מחשבי על ומרכזי נתונים, כולל כאלה שמריצים עומסי עבודה כבדים של AI. עבור אנבידיה, שליטה בשכבה הזו היא לא עניין תפעולי בלבד, אלא חלק מהאופן שבו מערכות AI עובדות בפועל. 

SchedMD היא החברה שמובילה את הפיתוח והתחזוקה של Slurm כבר יותר מעשור. היא הוקמה ב-2010, יושבת בליברמור שבקליפורניה ומעסיקה כ-40 עובדים, עם לקוחות כמו קורוויב ומרכז מחשבי העל בברצלונה. אנבידיה לא מפרטת את תנאי העסקה, אבל מבהירה ש-Slurm נשארת בקוד פתוח, כך שהקהילה ממשיכה לקבל גישה מלאה לקוד ולתרום לפיתוח.


התוכנה שמחליטה מי רץ מתי ועל מה

Slurm יושבת בשכבה שפחות רואים, אבל בלי השכבה הזו כל העסק מתחיל לקרטע. במרכז נתונים או במחשב על יש אלפי שרתים, מאות אלפי ליבות עיבוד והמון משימות שרצות במקביל. מישהו צריך להחליט איזה תהליך מקבל משאבים עכשיו, כמה זמן הוא רץ, על אילו שרתים, ומה קורה אם יש עומס או תקלה. זה בדיוק התפקיד שלה ואיפה שהשינוי הופך למשמעותי.

היא מנהלת “תור” חכם. היא מתזמנת עבודות, מחלקת משאבים ומנסה להשאיר את התשתית מנוצלת בצורה יעילה. זה חשוב במחשוב מדעי קלאסי, אבל ב-AI זה מקבל טוויסט. אימון מודל גדול לא בנוי ממשימה אחת, אלא מהרבה תהליכים שמדברים אחד עם השני, מחלקים נתונים, מחכים לסנכרון, ואז ממשיכים. אם הסנכרון מתעכב או שמשאבים מוקצים לא טוב, אפשר לאבד שעות של חישוב יקר.

עולם ה-AI עובד הרבה עם מעבדים גרפיים, והניהול שלהם מורכב יותר מניהול שרת “רגיל”. יש צורך להקצות קבוצות של מעבדים ביחד, לשמור על זמינות רציפה, לפעמים גם לנהל עומסים לפי עדיפויות, לפי פרויקט או לפי מחלקה. לכן תוכנת תזמון שיודעת לעבוד בקנה מידה גדול הופכת לחלק מהתשתית ולא רק “כלי תפעולי”.


לקריאות מעניינות נוספות:


קוד פתוח, Nemotron 3 והמרוץ על הסטנדרט

הרכישה מגיעה יחד עם צעד נוסף של אנבידיה, השקת Nemotron 3, סדרת מודלים פתוחים שמכוונת למשימות מורכבות ורב-שלביות. לפי החברה, גרסת Nano זמינה כבר עכשיו ושתי גרסאות גדולות יותר צפויות לצאת בתחילת 2026. החיבור בין מודלים פתוחים לבין תשתית פתוחה לניהול עומסים משרת את אותו צורך פרקטי: לא רק ‘יש מודל’, אלא גם איך מריצים אותו בצורה מסודרת על תשתית עמוסה, עם תורים, הרשאות ומדיניות שימוש.

קיראו עוד ב"גלובל"

ברקע, קוד פתוח הופך בשוק ה-AI לפחות עניין אידאולוגי ויותר כלי תחרות. יש גל של מודלים פתוחים מסין שמקבלים תאוצה, ובמקביל יש רגישות גוברת בארצות הברית סביב שימוש במודלים מסוימים בסביבות ממשלתיות וארגוניות. בתוך הסיטואציה הזו, היכולת להציע סט כלים פתוח גם ברמת המודל וגם ברמת התשתית שמריצה אותו, מקלה על אימוץ מצד קהילות פיתוח, ומספקת לארגונים שכבת עבודה שנראית שקופה יותר וניתנת לשליטה.

במקביל, זה מחדד את המתח המוכר של קוד פתוח: הבסיס פתוח, אבל הכיוון נקבע דרך מי שמוביל את הפיתוח, את האינטגרציות ואת התמיכה סביבו. במצב כזה, התחרות עוברת פחות לשאלה אם הקוד סגור, ויותר לשאלה מי מצליח להפוך את הכלים לחלק טבעי ממה שכבר מותקן ורץ במרכזי הנתונים.

הוספת תגובה

תגובות לכתבה:

הגב לכתבה

השדות המסומנים ב-* הם שדות חובה