
Baz דורגה ראשונה בעולם בבדיקות קוד שנכתב על ידי AI
הסטארטאפ הישראלי, שהוקם על ידי גיא איזנקוט ונמרוד קור, הקדים את מעבדות הבינה המלאכותית המובילות, בהן גוגל, אנתרופיק ו-OpenAI. מדובר במדד חדש שפותח על ידי חוקרים שעבדו בפיתוח מודלים מתקדמים באנתרופיק, גוגל דיפמיינד ומטא, במסגרת עבודת מעבדת מחקר בסן פרנסיסקו. צוות המעבדה בחן כיצד מודלים מבינים באופן אמיתי ומלא אינטליגנציה מכנית
הסטארטאפ הישראלי Baz דורג במקום הראשון במדד הדיוק של מבחני בדיקות קוד שנכתב על ידי AI, במסגרת מדד Code Review Bench שהושק באחרונה. הדירוג מציב את Baz לפני מעבדות ה-AI מהמובילות בעולם, בהן גוגל, אנתרופיק, OpenAI ועוד. בנוסף, דורגה החברה במקום השני במדד המשוקלל, הכולל גם את הדיוק ואת היקף הכיסוי.
מדד Code-Review Bench הוא הראשון מסוגו בעולם ומתמקד בתחום בדיקת איכות הקוד שנכתב על ידי AI. מדדים דומים כמו SWE-BENCH הפופולרי פותחו כדי למדוד את ההתקדמות של המודלים העדכניים בביצוע משימות קידוד, אך נמצאו כלא אמינים יותר שכן המודלים אומנו כדי לנצח אותם. חברות שפועלות בקטגוריה ערכו מבחני השוואה פנימיים, אך מטבע הדברים, התוצאות בשוק התקבלו בספקנות. זו הפעם הראשונה שנערכת השוואה אובייקטיבית בידי גוף בלתי תלוי.
Baz הוקמה בסוף 2023 על ידי היזם הסדרתי גיא איזנקוט, שמשמש מנכ"ל, ונמרוד קור, ה-CTO, ששירתו יחד בעבר ביחידה 8200, והם בעלי עבר משותף בתחום הסייבר. גיא היה ממייסדי Bridgecrew שנמכרה ב-2021, שנתיים לאחר הקמתה, לפאלו אלטו תמורת 200 מיליון דולר. לאחר המכירה שימש איזנקוט סמנכ"ל ניהול מוצר ואחראי על אבטחת אפליקציות בפאלו אלטו. ואילו קור היה העובד השלישי ומנהל קבוצה בהמשך בפאלו אלטו. בין המשקיעים בחברה נמצאים Battery ו-Boldstart וכן הקרנות Vermillion, Secret Chord ו-Fusion.
המדד החדש Code-Review Bench פותח על ידי חוקרים שעבדו בפיתוח מודלים מתקדמים באנתרופיק, גוגל דיפמיינד ומטא, במסגרת עבודת מעבדת מחקר בסן פרנסיסקו. צוות המעבדה בחן כיצד מודלים מבינים באופן אמיתי ומלא אינטליגנציה מכנית. החברה פועלת מתוך תפישה שבניית מודלים באמצעות ניסוי וטעייה אינה שקולה להבנה מדעית שלהם. מהסיבה הזאת החברה מפתחת כעת מדדים להבנת האינטליגנציה האמיתית שמאחורי האימוץ של טכנולוגיות כתיבת קוד בעזרת בינה מלאכותית.
- מהסקפטיות להתלהבות זהירה: הווארד מרקס משנה כיוון על בינה מלאכותית
- הפנטגון לוחץ, אנתרופיק מסרבת: הקרב על גבולות ה-AI בשדה הקרב
- המלצת המערכת: כל הכותרות 24/7
הדירוג החדש יתעדכן מדי חודש והוא מבוסס על שילוב של מדידה מבוקרת ומדידה התנהגותית. במדידה המבוקרת מפעילים את כלי הבקרה של החברות על אותם שינויים בקוד ומשווים אותם לסט בעיות מאומת. במדידה ההתנהגותית מנתחים כיצד מפתחים מגיבים בפועל להערות בכלי בדיקה במאגרי קוד פתוחים. השילוב בין שתי הגישות נועד לצמצם את הפער בין מדידה תיאורטית של הסוכנים לבין הערך האמיתי שלהם במשימות קידוד. המתודולוגיה מתעדכנת באופן שוטף, כוללת ריענון חודשי של הנתונים, בקרה על הטיות של מודלי שיפוט אוטומטיים, והרחבה מתמדת של סט הבעיות כדי למנוע “קיבוע” של התוצאות או התאמה מלאכותית למדד. הסיבה לכך היא הבעיה הידועה שבה כלים לומדים לנצח את המדד במקום לשפר את המציאות, באמצעות עיגון למדדים התנהגותיים ופתיחות מלאה של המתודולוגיה.
הסטארטאפ Baz מפתח כלי בינה מלאכותית לבדיקת קוד באופן אוטומטי, המסייעים לצוותי פיתוח לזהות בעיות בקוד ולהציע תיקונים לפי כללים והתאמות שהצוות מגדיר. המוצר פותר את התסכול של בדיקות קוד ידניות חוזרות, משפר איכות קוד ומייעל את שיתוף הפעולה בצוותי פיתוח.
איזנקוט מסר כי, "מדד הדיוק, שבו דורגנו במקום הראשון, מחושב לפי שיעור הבדיקות שעליהן מפתחים פועלים בפועל, ולכן הוא משקף יחס בין ממצא וודאי ל'רעש' מיותר של התראות בעולם האמיתי. בבדיקת קוד שנכתב בסיוע AI דיוק הוא תנאי לאימוץ - אם הכלי מייצר יותר מדי רעש, מפתחים מפסיקים להקשיב, אבל אם הוא עקבי ומדויק, הוא נהפך לחלק טבעי מזרימת העבודה. ההובלה במדד זה מחזקת את ההנחה המרכזית שלנו שמפתחי תוכנה צריכים כלי שמעדיף איכות וסיגנל גבוה על פני כמות הערות. מדובר בהשקה של בנצ׳מרק מתפתח. ל-Baz יש כיום מדגם קטן יותר של בקשות שנמדדו לעומת חלק מהשחקנים הוותיקים, ולכן ייתכן שינוי בדירוגים ככל שהיקף הנתונים יגדל. בנוסף, מדד הדיוק מבוסס על פעולות מפתחים בפועל שזהו אינדיקטור חזק אבל לא מושלם לאיכות טכנית. גם מנגנוני השיפוט והגדרת 'מהי בעיה' משתפרים לאורך זמן, ולכן התוצאות עשויות להתעדכן עם שיפור המתודולוגיה. אנו רואים בכך אינדיקציה משמעותית לכיוון הנכון, אך לא נקודת סיום, ונמשיך לעקוב אחרי הביצועים ככל שהבנצ’מרק יתפתח".
- OpenAI השלימה גיוס של 110 מיליארד דולר לפי שווי 730 מיליארד דולר -אמזון משקיעה 50 מיליארד
- הסטארטאפ Guidde, המטמיע AI בארגונים, גייס 50 מיליון דולר
- תוכן שיווקי שוק הסקנדרי בישראל: הציבור יכול כעת להשקיע ב-SpaceX של אילון מאסק
מעבר למוצר עצמו, Baz משקיעה במחקר עצמאי בתחום מדידת איכות הקוד שמייצרת בינה מלאכותית, פירוק שינויים מורכבים לנושאים ברורים, וזיהוי כשלים לוגיים ושינויי ממשק שעלולים להיות שבירת תאימות בעולמות התוכנה. בין לקוחותיה נמנות חברות טכנולוגיה מובילות בארץ ובעולם, ביניהן חברות הסייבר המובילות בישראל, שפועלים בשיתוף לאימוץ אחראי של בינה מלאכותית על ידי ארגוני פיתוח מאובטחים.