הבנצ'מארק של ה-AI: האתר שמודד את ביצועי הצ'טבוטים והסערה סביב מטא
בזמן שעיני כל העולם היו נשואות לקריסה בשווקים, חובבי הבינה המלאכותית התעסקו בדירוג של מודל הבינה המלאכותית החדש באתר הפופלארי צ'טבוט ארנה; איך מדרגים את המודלים החדשים והאם החברות עושות מניפולציה על המשתמשים?
בזמן שכל העולם עסוק בטלטלה בשווקים הפיננסים בעקבות תוכנית המכסים של הממשל האמריקאי, חובבי הבינה המלאכותית מוטרדים בכלל מאמינות המודל החדש שהשיקה חברת מטא. במוקד המיני-סערה עומד הדירוג של המודל באתר בשם "צ'טבוט ארנה" (Chatbot Arena), שמדרג באופן עצמאי את המודלים בשוק, והפך בשנה וחצי האחרונות לבנצ'מארק של הצ'אטבוטים, אשר מציף שאלות רבות בנוגע לאופן שבו בוחנים את פלטפורמות הבינה המלאכותית שיוצאות כל העת אל השוק.
תחילתו של האירוע בהשקה של דגם הבינה המלאכותית החדשים של חברת מטא העונה לשם Maverick. המודל, דורג במקום השני בצ'טבוט ארנה, אך עד מהרה נטען כי הגרסה של Maverick אותה פרסמה החברה באתר שונה מהגרסה שזמינה לציבור המפתחים. מי שעלו על הדבר הם חוקרי בינה מלאכותית שהבחינו בהבדלים משמעותיים בתשובות של Maverick בגרסה ששוחררה לציבור לבין זה שנמצאת בצ'טבוט ארנה. כך, הם מצאו שהמודל באתר הפופולארי מספק תשובות ארוכות ומשתמש בהרבה אימוג'ים.
החשיפה של המקרה, מהווה אבן בוחן בכל הקשור לדירוגים של המודלים השונים. למעשה, ייתכן שזו הפעם הראשונה שחברת בינה מלאכותית תאלץ להודות שהיא ביצעה התאמות במודל שלה כדי לקבל ציון טוב יותר באתר הדירוג שהפך לפופולארי (ראו הרחבה בהמשך). מה שגם מצית מחדש שאלות בנוגע לאופן שבו ניתן למדוד את הביצועים של המודלים השונים וכן את הדרכים שבהן החברות מנסות להשיג יתרון על פני מתחרותיהן בשוק שהופך צפוף ותחרותי מיום ליום.
הבנצ'מארק של ה-AI
צ'טבוט ארנה החלה את דרכה בתחילת 2023 על רקע העניין הציבורי הגובר בעקבות השקת ChatGPT של OpenAI. האתר נוצר על ידי אוניברסיטת ברקלי שבקליפורניה כפרויקט מחקרי הבוחן שורה של דגמי AI חדשים, ומאפשר למשתמשים בצ'אטבוטים לדרג אותם בהתאם לביצועיהם. "כולם אומרים שהמודל שלהם הוא הטוב ביותר. אז שקיפות ועצמאות עוזרים לבחון זאת", הסביר ווי-לין צ'יאנג, פוסט-דוקטורנט באוניברסיטה, שגם מוביל את האתר, את המוטיבציה מאחורי הפרויקט. ואכן, האתר הפך במהרה למקום פופולרי עבור מי שמתעניין בתחום ובמידה מסוימת לאינדיקטור המוביל ביחס לדירוג המודלים.
- בשירות ה-AI: חופי ארה״ב ייפתחו לקידוחי נפט וגז
- פלנטיר חתמה על עסקה של 200 מיליון דולר עם ענקית הטלקום לומן
- המלצת המערכת: כל הכותרות 24/7
האתר, שזוכה לכ-1 מיליון מבקרים מדי חודש, הפך לזירה שבה בודקים חברות בינה מלאכותית מובילות את הדגמים החדשים שלהם. חברות מסוימות אפילו מפרסמות באתר דגמים לפני שהן מפרסמות אותן לציבור הרחב (כפי ש-OpenAI עשתה עם GPT-4o שלה באביב שעבר). נכון לתחילת פברואר, האתר דירג יותר מ-200 דגמים, כולל אלה של גוגל, אנטרופיק, מטא, OpenAI ו-xAI. האתר פועל בקוד פתוח, כך שהנתונים והקוד שלו זמינים לשימוש של אחרים, והוא נתמך על ידי כמה מענקים חיצוניים, כגון מקרנות ההון סיכון סקויה ואנדרסון הורוביץ.
מכיוון שמדובר בפרויקט מחקר אקדמי, סטודנטים של ברקלי הם בעיקר אלה שתמחזיקים את האתר. המשתמשים מדרגים את הצ'אטבוטים בצורה אנונימית, כך שהם מקבלים הוראה להעלות שאלה לשני צ'אטבוטים, מבלי שהם יודעים באלו מדובר, ואז לבחור בתשבוה המועדפת. לאחר ההצבעה נחשף שמו של כל צ'אטבוט, כאשר הצבעות משמשות כדי לסייע ביצירת דירוג המעריך את החוזק של כל דגם. עד כה, בוצעו באתר יותר מ-2.6 מיליון הצבעות של משתמשים עבור דגמי הבינה המלאכותית המועדפים עליהם.
אך כמו בכל דבר, גם במקרה של צ'טבוט ארנה הביקורת לא איחרה לבוא. ראשית, נטען כי הקהל של צ'טבוט ארנה אינו מייצג, שכן מדובר באוכלוסייה המבוססת לרוב על אקדמיים המתעניינים בנושאים כמו למידת מכונה. שנית נטען כי מערכת הדירוג לא באמת מייצגת את טיב המודלים ומידת הקלות שבה ארגון יכול לאמץ אותם.בנוסף, עלו חששות לגבי האפשרות של מניפולציה של הדירוגים, טעות אותם דחו מנהלי האתר, שטענו כי ננקטים שורה של צעדים, כדי להגן מפני שימוש זדוני בו.
- OpenAI נכנסת לעולם המוזיקה: ראש בראש מול Suno ו-Udio
- דיסקונט ונימבל משיקים פתרון דיגיטלי חדש להקדמת תשלומים לעסקים
- תוכן שיווקי שוק הסקנדרי בישראל: הציבור יכול כעת להשקיע ב-SpaceX של אילון מאסק
- מהאופציה ועד ההנפקה: ESOP מבית הפניקס ו-Slice Global משיקות...
"בעוד שצ'אטבוט ארנה יכולה להציע תמונת מצב של חווית משתמש - אם כי מבסיס משתמשים קטן ופוטנציאלי לא מייצג - אין להתייחס אליה כסטנדרט הסופי למדידת אינטליגנציה של מודל", הסביר לין את האופן שבו הוא רואה את המקום שלהם בתעשייה. "במקום זאת, זה נתפס בצורה מתאימה יותר ככלי למדידת שביעות רצון המשתמשים במקום מדד מדעי ואובייקטיבי של התקדמות בינה מלאכותית."
אייל פרוינד מנכ״ל איזופ, צילום: עודד קרנימהאופציה ועד ההנפקה: ESOP מבית הפניקס ו-Slice Global משיקות פלטרפומה לניהול תגמול הוני
שיתוף פעולה חדש מציע לחברות הייטק פתרון דיגיטלי מלא לניהול אופציות, נאמנות ומיסוי - מההקצאה הראשונה ועד ההנפקה
אתם יכולים להסתכל על זה כסימן נוסף להתאוששות בהייטק. עוד גיוסים, עוד תוכניות אופציות, ועוד עובדים שמצפים מהחברות לגמישות ויעילות בניהול ההטבות ההוניות שלהם. על הרקע הזה מודיעים חברת Slice Global Equity ו-ESOP מבית הפניקס בית השקעות על שיתוף פעולה שמטרתו לספק לחברות ההייטק הישראליות פתרון כולל לניהול תגמול הוני מהשלב הראשוני של הקצאת אופציות ועד לשלב ההנפקה או האקזיט. המהלך מאחד בין טכנולוגיית אקוויטי מתקדמת לבין מעטפת נאמנות לפי סעיף 102, ליווי רגולטורי ומיסויי, ומציע לחברות ניהול מקצה לקצה של כל תהליך התגמול ההוני בפלטפורמה אחת.
המערכת החדשה תכלול ניהול קאפ-טייבל ותוכניות אופציות ו-RSU בזמן אמת, אינטגרציה עם מערכות HR ו-Finance, ניהול רגולציה ומיסוי בישראל ובעולם, הפקת דוחות פיננסיים ואנליטיקה מתקדמת, לצד סימולציות של דילול, סבבי השקעה ותרחישי אקזיט או הנפקה בלחיצת כפתור. השילוב בין ESOP לבין Slice נועד להקל על מנהלים ויזמים בהתמודדות עם תהליכי התגמול, תוך שמירה על שקיפות לעובדים ועל עמידה בתקנים בינלאומיים.
Slice Global Equity פועלת כפלטפורמה לניהול אקוויטי גלובלי המאפשרת למחלקות הכספים בארגונים, משפט ומשאבי אנוש לנהל את מערך ההון במקום אחד. בין הלקוחות שלה נמנות חברות כמו WIZ, Guesty ו-VAST. ESOP.
ESOP פועלת כבר למעלה משני עשורים ומנהלת אלפי נאמנויות לפי סעיף 102, כולל ליווי הנפקות, מימושי אופציות וייעוץ משפטי ומיסויי לחברות פרטיות וציבוריות.
אייל פרוינד, מנכ"ל ESOP מבית הפניקס מסר: "זה חיבור מהסוג שלא רק מייצר ערך אלא מייצר פרספקטיבה חדשה. החברות ייהנו לראשונה גם ממערכת טכנולוגית מתקדמת לניהול כל התוכנית וגם ממעטפת שירות אנושית ורגולטורית מההקצאה הראשונה ועד ההנפקה או המכירה."
סם אלטמן. קרדיט: רשתות חברתיותOpenAI נכנסת לעולם המוזיקה: ראש בראש מול Suno ו-Udio
ענקית הבינה המלאכותית שמה את עיניה על שוק המוזיקה: מפתחת מערכת שתאפשר למשתמשים “להפיק” ולערוך שירים בקול, בשיתוף סטודנטים מג’וליארד; ההשקה אחרי שתסדיר זכויות עם חברות התקליטים הגדולות
אחרי ששינתה את עולם הטקסט, הקול והווידאו - OpenAI מתכוונת להיכנס גם לעולם המוזיקה. לפי דיווח באתר The Information, החברה של סם אלטמן עובדת בחודשים האחרונים על מערכת ליצירת מוזיקה מבוססת בינה מלאכותית, שתתחרה ישירות ב-Suno וב-Udio, שתי החברות שמובילות כיום את התחום.
המידע מצביע על כך ש-OpenAI משתפת פעולה עם סטודנטים מבית הספר ג’וליארד בניו יורק, אחד המוסדות היוקרתיים בעולם ללימודי מוזיקה שמסייעים לה בתהליך תיוג תווים, סולמות ודפוסי צליל - תשתית שנועדה לשמש לאימון המודלים המוזיקליים של החברה. מדובר ככל הנראה בקבוצה קטנה של תלמידים מתקדמים במחלקות לקומפוזיציה ולביצוע, שהוזמנו להשתתף במיזם ניסיוני המשלב ידע מוזיקלי מסורתי עם עיבוד נתונים מתקדם.
המוסד מקדם בשנים האחרונות חיבורים בין אמנות לבינה מלאכותית, דרך פרויקטים שמחברים בין מלחינים צעירים למהנדסי תוכנה וחוקרי קול. כך OpenAI מקבלת גישה למומחיות אנושית ברמה גבוהה, בעוד הסטודנטים נחשפים למודלים שמעצבים את עתיד היצירה הדיגיטלית.
ממילים לסאונד
בעוד Suno ו-Udio מאפשרות למשתמשים להזין טקסט ולקבל שיר גמור, המערכת ש-OpenAI מפתחת אמורה לאפשר רמה נוספת של שליטה: הוספה, החלפה ועריכה של אלמנטים מוסיקליים קיימים. המשתמש יוכל למשל לבקש “תוסיף גיטרה לקטע הווקאלי הזה”, “החלף את התופים באלקטרוניים” או “הפוך את זה לגרסה אקוסטית”.
- גוגל מאבדת 2% - OpenAI חשפה דפדפן חדש
- OpenAI מגייסת למעלה מ-100 בנקאיים לשעבר לקראת מהפכה בניתוח פיננסי
- המלצת המערכת: כל הכותרות 24/7
מדובר בהתפתחות טבעית של הקו שבו נקטה החברה עם Sora - מודל הווידאו שלה - שמתרגם תיאורים טקסטואליים לסצנות מצולמות. הפעם, היעד הוא סאונד. החזון רחב יותר מיצירת שירים בלבד: מדובר בבניית פלטפורמה שיכולה לשמש מלחינים, יוצרי סרטים, מפרסמים ותעשיית המשחקים, שבה מוזיקה נבנית ומתעדכנת בזמן אמת.
