הבנצ'מארק של ה-AI: האתר שמודד את ביצועי הצ'טבוטים והסערה סביב מטא

בזמן שעיני כל העולם היו נשואות לקריסה בשווקים, חובבי הבינה המלאכותית התעסקו בדירוג של מודל הבינה המלאכותית החדש באתר הפופלארי צ'טבוט ארנה; איך מדרגים את המודלים החדשים והאם החברות עושות מניפולציה על המשתמשים?

איתן גרסטנפלד |

בזמן שכל העולם עסוק בטלטלה בשווקים הפיננסים בעקבות תוכנית המכסים של הממשל האמריקאי, חובבי הבינה המלאכותית מוטרדים בכלל מאמינות המודל החדש שהשיקה חברת מטא. במוקד המיני-סערה עומד הדירוג של המודל באתר בשם "צ'טבוט ארנה"  (Chatbot Arena), שמדרג באופן עצמאי את המודלים בשוק, והפך בשנה וחצי האחרונות לבנצ'מארק של הצ'אטבוטים, אשר מציף שאלות רבות בנוגע לאופן שבו בוחנים את פלטפורמות הבינה המלאכותית שיוצאות כל העת אל השוק.


תחילתו של האירוע בהשקה של דגם הבינה המלאכותית החדשים של חברת מטא העונה לשם Maverick. המודל, דורג במקום השני בצ'טבוט ארנה, אך עד מהרה נטען כי הגרסה של Maverick אותה פרסמה החברה באתר שונה מהגרסה שזמינה לציבור המפתחים. מי שעלו על הדבר הם חוקרי בינה מלאכותית שהבחינו בהבדלים משמעותיים בתשובות של Maverick בגרסה ששוחררה לציבור לבין זה שנמצאת בצ'טבוט ארנה. כך, הם מצאו שהמודל באתר הפופולארי מספק תשובות ארוכות ומשתמש בהרבה אימוג'ים.


החשיפה של המקרה, מהווה אבן בוחן בכל הקשור לדירוגים של המודלים השונים. למעשה, ייתכן שזו הפעם הראשונה שחברת בינה מלאכותית תאלץ להודות שהיא ביצעה התאמות במודל שלה כדי לקבל ציון טוב יותר באתר הדירוג שהפך לפופולארי (ראו הרחבה בהמשך). מה שגם מצית מחדש שאלות בנוגע לאופן שבו ניתן למדוד את הביצועים של המודלים השונים וכן את הדרכים שבהן החברות מנסות להשיג יתרון על פני מתחרותיהן בשוק שהופך צפוף ותחרותי מיום ליום. 


הבנצ'מארק של ה-AI

צ'טבוט ארנה החלה את דרכה בתחילת 2023 על רקע העניין הציבורי הגובר בעקבות השקת ChatGPT של OpenAI. האתר נוצר על ידי אוניברסיטת ברקלי שבקליפורניה כפרויקט מחקרי הבוחן שורה של דגמי AI חדשים, ומאפשר למשתמשים בצ'אטבוטים לדרג אותם בהתאם לביצועיהם. "כולם אומרים שהמודל שלהם הוא הטוב ביותר. אז שקיפות ועצמאות עוזרים לבחון זאת", הסביר ווי-לין צ'יאנג, פוסט-דוקטורנט באוניברסיטה, שגם מוביל את האתר, את המוטיבציה מאחורי הפרויקט. ואכן, האתר הפך במהרה למקום פופולרי עבור מי שמתעניין בתחום ובמידה מסוימת לאינדיקטור המוביל ביחס לדירוג המודלים. 


האתר, שזוכה לכ-1 מיליון מבקרים מדי חודש, הפך לזירה שבה בודקים חברות בינה מלאכותית מובילות את הדגמים החדשים שלהם. חברות מסוימות אפילו מפרסמות באתר דגמים לפני שהן מפרסמות אותן לציבור הרחב (כפי ש-OpenAI עשתה עם GPT-4o שלה באביב שעבר). נכון לתחילת פברואר,  האתר דירג יותר מ-200 דגמים, כולל אלה של גוגל, אנטרופיק, מטא,  OpenAI ו-xAI. האתר פועל בקוד פתוח, כך שהנתונים והקוד שלו זמינים לשימוש של אחרים, והוא נתמך על ידי כמה מענקים חיצוניים, כגון מקרנות ההון סיכון סקויה ואנדרסון הורוביץ. 


מכיוון שמדובר בפרויקט מחקר אקדמי, סטודנטים של ברקלי הם בעיקר אלה שתמחזיקים את האתר. המשתמשים מדרגים את הצ'אטבוטים בצורה אנונימית, כך שהם מקבלים הוראה להעלות שאלה לשני צ'אטבוטים, מבלי שהם יודעים באלו מדובר, ואז לבחור בתשבוה המועדפת. לאחר ההצבעה נחשף שמו של כל צ'אטבוט, כאשר הצבעות משמשות כדי לסייע ביצירת דירוג המעריך את החוזק של כל דגם. עד כה, בוצעו באתר יותר מ-2.6 מיליון הצבעות של משתמשים עבור דגמי הבינה המלאכותית המועדפים עליהם.


אך כמו בכל דבר, גם במקרה של צ'טבוט ארנה הביקורת לא איחרה לבוא. ראשית, נטען כי הקהל של צ'טבוט ארנה אינו מייצג, שכן מדובר באוכלוסייה המבוססת לרוב על אקדמיים המתעניינים בנושאים כמו למידת מכונה. שנית נטען כי מערכת הדירוג לא באמת מייצגת את טיב המודלים ומידת הקלות שבה ארגון יכול לאמץ אותם.בנוסף, עלו חששות לגבי האפשרות של מניפולציה של הדירוגים, טעות אותם דחו מנהלי האתר, שטענו כי ננקטים שורה של צעדים, כדי להגן מפני שימוש זדוני בו.

קיראו עוד ב"BizTech"


"בעוד שצ'אטבוט ארנה יכולה להציע תמונת מצב של חווית משתמש - אם כי מבסיס משתמשים קטן ופוטנציאלי לא מייצג - אין להתייחס אליה כסטנדרט הסופי למדידת אינטליגנציה של מודל", הסביר לין את האופן שבו הוא רואה את המקום שלהם בתעשייה. "במקום זאת, זה נתפס בצורה מתאימה יותר ככלי למדידת שביעות רצון המשתמשים במקום מדד מדעי ואובייקטיבי של התקדמות בינה מלאכותית."

הגב לכתבה

השדות המסומנים ב-* הם שדות חובה
סונדאר פיצאי גוגל GOOGLE
צילום: Eesan1969, Wikipedia

מנכ"ל גוגל: "האינטרנט כמו שאנחנו מכירים אותו עומד להשתנות"

סונדאר פיצ'אי על העתיד - אינטרנט, משקפיים חכמים, בינה מלאכותית והחזון

עמית בר |

סונדאר פיצ'אי, מנכ"ל גוגל סבור שהבינה המלאכותית תחולל מהפכה הגדולה יותר מזו של האינטרנט. הוא מזכיר שכאשר האינטרנט החל את דרכו, גוגל כלל לא הייתה קיימת, ובאותו אופן הוא צופה שבעתיד הקרוב ייווצרו חברות, מוצרים וקטגוריות שכיום איננו יכולים אפילו לדמיין. פיצ'אי אומר את משנתו בתקשורת האמריקאית, ראיונות ופודקאסטים, אספנו את עיקרי הדברים מהזמן האחרון

משקפיים חכמים: מיליונים ינסו את המוצר בשנה הקרובה

גוגל חתמה על שיתופי פעולה אסטרטגיים עם מותגי האופנה הבינלאומיים Gentle Monster ו-Warby Parker, ומתכננת להשיק גרסאות למפתחים עוד השנה. לדברי פיצ'אי, המוצרים שיגיעו למפתחים יהיו קרובים מאוד לגרסאות הסופיות שיגיעו לשוק הרחב.

הוא צופה שמיליוני אנשים ינסו את הטכנולוגיה. עם זאת, עדיין לא מדובר במוצר שיהפוך למיינסטרים ברמה של האייפון. האתגר המרכזי, לדבריו, הוא לשכנע אנשים לענוד מכשיר על הפנים שלהם לאורך זמן - רף שגבוה משמעותית מאשר להחזיק טלפון בכיס.

פיצ'אי מתמודד עם ביקורת חריפה מצד מפרסמים ובעלי אתרים, שבעצם מאשימים את גוגל בגניבת תוכן ובשימוש בו ללא תמורה כלכלית. הוא טוען שגוגל היא החברה היחידה שעדיין מתעדפת שליחת תעבורה לאתרי אינטרנט, בעוד שמתחרים חדשים מצהירים בגלוי שאינם מתכוונים לעשות זאת. הוא מציג מידע כי דפי האינטרנט הזמינים לסריקה של גוגל גדל ב-45% בשנתיים האחרונות בלבד - נתון שלדבריו סותר את הטענות על "מות האינטרנט". כשנשאל אם הגידול נובע מתוכן שנוצר על ידי בינה מלאכותית, הוא מסביר שלחברה יש מגוון טכניקות לזיהוי תוכן שנוצר על ידי מכונות, וזה לא מסביר את המגמה הכללית.

הוא משוכנע שכמו בכל המעברים הטכנולוגיים של 25 השנים האחרונות, גם הפעם התוצאה הסופית תהיה חיובית עבור בעלי האתרים.

האם עידן החיפוש המסורתי מגיע לקיצו?

לראשונה מזה 22 שנה נרשמה ירידה בחיפושים בדפדפן Safari של אפל, מה שהוביל לירידה זמנית במחיר המניה של גוגל. פיצ'אי דוחה את החששות ומתעקש שהחברה רואה צמיחה כוללת בשאילתות חיפוש, כולל במכשירי אפל.