בינה מלאכותית
צילום: טוויטר

חוקרים מאנבידיה ומישראל פיתחו יכולת להוסיף פריטים לתמונה ב-AI

רוי שיינמן |

חוקרים מ-NVIDIA, אוניברסיטת תל אביב ואוניברסיטת בר אילן הציגו בכנס הבינה המלאכותית ICLR 2025 בסינגפור את Add-it, שיטה חדשה להוספת פריטים לתמונות באמצעות פקודות טקסטואליות (פרומפטים), ללא צורך באימון נוסף או באופטימיזציה (Fine-tuning) של מחולל התמונות. Add-it מאפשר להוסיף לתמונות אמיתיות, או כאלה שנוצרו על ידי AI, פריטים ממגוון רחב של סוגים - מפריטי לבוש כמו נעליים וכובעים, דרך לוגואים של חברות מסחריות, ועד לבעלי חיים ובני אדם.


״הוספה של פריט חדש לתמונות באמצעות פרומפט היא משימה מאתגרת שדורשת איזון עדין בין שמירה על הסצנה המקורית לבין שילוב של הפריט החדש בנראות מתאימה ובמקום המתאים״, מסביר פרופ׳ גל צ׳צ׳יק, מנהל מרכז מחקרי הבינה המלאכותית של NVIDIA בישראל, ומי שעומד מאחורי המחקר ביחד עם יועד תבל, רינון גל, דביר שמואל, יובל עצמון וליאור וולף - חוקרים מאנבידיה, אוניברסיטת תל אביב ואוניברסיטת בר אילן. ״מודלים קיימים מתקשים למצוא את האיזון הזה. בשביל לפתור את הבעיה, הרחבנו את מנגנון ה-Attention של מודל הבינה המלאכותית כך שישלב מידע משלושה מקורות – התמונה המקורית, הפרומפט הטקסטואלי והתמונה הסופית. בבדיקות שערכנו, בני אדם העדיפו את התוצאות של Add-it על פני שיטות אחרות ב-80% מהמקרים״.



חוקרות וחוקרי NVIDIA הציגו בכנס ICLR 2025 יותר מ-70 מאמרים שבמרכזם חידושים מבוססי AI במגוון תחומים - רכבים אוטונומיים, בריאות, יצירת תוכן, רובוטיקה ועוד. אחד המחקרים הוא SRSA, מסגרת עבודה (Framework) להאצת תהליך הלימוד של רובוטים באמצעות ספריית מיומנויות, שבאמצעותן יכולים רובוטים ללמוד לבצע משימות חדשות. פיתוח נוסף, Proteina, הוא מודל מבוסס ארכיטקטורת Transformer ליצירת שלדי חלבון שמציג פי חמישה יותר פרמטרים בהשוואה למודלים קודמים.


״ICLR הוא אחד הכנסים המשפיעים ביותר בתחום הבינה המלאכותית, שבו חוקרים מציגים חידושים חשובים שמניעים כל תעשייה ותעשייה״, אמר בריאן קטנזרו, סגן נשיא למחקר בתחום הלמידה עמוקה ב-NVIDIA. ״המאפיין המשותף של המחקרים שהצגנו השנה היה ביכולתם להאיץ את כל השכבות של מערך המחשוב על מנת להגביר את האימפקט והשימושיות של בינה מלאכותית בתעשיות שונות״.

הגב לכתבה

השדות המסומנים ב-* הם שדות חובה
chatgpt
צילום: טוויטר

OpenAI משיקה את GPT-5.2 - בניסיון לחדש את ההובלה במרוץ ה-AI

המודל המעודכן מציע שיפור משמעותי ביכולות תכנות, ניתוח והסקה, אך ההתקדמות מגיעה לצד לחצים תחרותיים, עלויות תשתית עצומות ושינויי אסטרטגיה שממקדים את החברה בשוק העסקי והמפתחים

אדיר בן עמי |
נושאים בכתבה ChatGPT OpenAI


OpenAI הציגה את GPT-5.2, עדכון משמעותי למודל הבינה המלאכותית שלה, בזמן שהלחץ התחרותי בענף גובר. השקת Gemini 3 של גוגל, שקיבל הערכה גבוהה על יכולותיו בתחומי קוד והסקה מורכבת, הציבה אתגר ממשי לחברה. כעת OpenAI מנסה לחדד מחדש את יתרונותיה ולהציע כלי עבודה שישרתו לא רק משתמשים פרטיים, אלא בעיקר ארגונים ומפתחים שמחפשים פתרונות מתקדמים ויציבים.


המודל החדש מבטיח יכולת משופרת בביצוע משימות ארוכות ומורכבות בתחומי תכנות, מתמטיקה וניתוח נתונים. ב-OpenAI מציינים כי המערכת מהירה יותר מגרסאות קודמות ומסוגלת להתאים את אופן העבודה שלה למשימות שונות, בהתאם לשלושת המודלים המוצעים: גרסה מהירה, גרסה "חושבת" המיועדת למשימות מורכבות וגרסת פרימיום מדויקת במיוחד.


מאחורי ההשקה מסתתר גם לחץ פנימי. מנכ"ל החברה, סם אלטמן, הודיע בתחילת החודש על "קוד אדום" פנימי, בעקבות ירידה בתנועת המשתמשים ועלייה בפעילות המתחרים. המסר לעובדים היה ברור: שינוי סדרי עדיפויות והאצה של הפיתוח סביב ChatGPT. כחלק מהמהלך, GPT-5.2 מופנה בראש ובראשונה לשוק העסקי ולמפתחים. החברה מבקשת להפוך את המודל לכלי עבודה מרכזי בבניית אפליקציות מבוססות בינה מלאכותית, במטרה להעמיק את החדירה בשוק הארגוני ולהגדיל הכנסות.


במקביל, החברה מתמודדת עם השקעות עתק שנועדו לתמוך בהרחבת התשתית, סכומים שצפויים לעלות על טריליון דולר בשנים הקרובות. התחייבויות כאלה ניתנו בתקופה שבה OpenAI נתפסה כמובילה ברורה בשוק, אך התחרות מול גוגל ואנתרופיק מציבה אתגר אחר לחלוטין.



המודל החדש מציג שיפור בביצועים

בזירת הביצועים, GPT-5.2 מציג שיפור בציונים במבחני קוד, מדעים וניתוח טקסט ארוך, לעומת גרסאות קודמות. לפי הנתונים שהציגה החברה, הגרסה "החושבת" מתמודדת בהצלחה עם בעיות הדורשות מספר שלבי הסקה, ומפחיתה באופן משמעותי את שיעור הטעויות בתשובות. מבחנים אלו ממקמים את OpenAI מחדש מול גוגל, במיוחד מול יכולת ה-Deep Think של Gemini 3, שהובילה את הדירוגים במהלך החודש האחרון. לדברי אנשי הפיתוח בחברה, היכולת להתמודד עם אתגרים מתמטיים היא למעשה מדד לכושר ניתוח רחב יותר, שיכול להשפיע על משימות כמו חיזוי פיננסי או הערכת סיכונים.


chatgpt
צילום: טוויטר

OpenAI משיקה את GPT-5.2 - בניסיון לחדש את ההובלה במרוץ ה-AI

המודל המעודכן מציע שיפור משמעותי ביכולות תכנות, ניתוח והסקה, אך ההתקדמות מגיעה לצד לחצים תחרותיים, עלויות תשתית עצומות ושינויי אסטרטגיה שממקדים את החברה בשוק העסקי והמפתחים

אדיר בן עמי |
נושאים בכתבה ChatGPT OpenAI


OpenAI הציגה את GPT-5.2, עדכון משמעותי למודל הבינה המלאכותית שלה, בזמן שהלחץ התחרותי בענף גובר. השקת Gemini 3 של גוגל, שקיבל הערכה גבוהה על יכולותיו בתחומי קוד והסקה מורכבת, הציבה אתגר ממשי לחברה. כעת OpenAI מנסה לחדד מחדש את יתרונותיה ולהציע כלי עבודה שישרתו לא רק משתמשים פרטיים, אלא בעיקר ארגונים ומפתחים שמחפשים פתרונות מתקדמים ויציבים.


המודל החדש מבטיח יכולת משופרת בביצוע משימות ארוכות ומורכבות בתחומי תכנות, מתמטיקה וניתוח נתונים. ב-OpenAI מציינים כי המערכת מהירה יותר מגרסאות קודמות ומסוגלת להתאים את אופן העבודה שלה למשימות שונות, בהתאם לשלושת המודלים המוצעים: גרסה מהירה, גרסה "חושבת" המיועדת למשימות מורכבות וגרסת פרימיום מדויקת במיוחד.


מאחורי ההשקה מסתתר גם לחץ פנימי. מנכ"ל החברה, סם אלטמן, הודיע בתחילת החודש על "קוד אדום" פנימי, בעקבות ירידה בתנועת המשתמשים ועלייה בפעילות המתחרים. המסר לעובדים היה ברור: שינוי סדרי עדיפויות והאצה של הפיתוח סביב ChatGPT. כחלק מהמהלך, GPT-5.2 מופנה בראש ובראשונה לשוק העסקי ולמפתחים. החברה מבקשת להפוך את המודל לכלי עבודה מרכזי בבניית אפליקציות מבוססות בינה מלאכותית, במטרה להעמיק את החדירה בשוק הארגוני ולהגדיל הכנסות.


במקביל, החברה מתמודדת עם השקעות עתק שנועדו לתמוך בהרחבת התשתית, סכומים שצפויים לעלות על טריליון דולר בשנים הקרובות. התחייבויות כאלה ניתנו בתקופה שבה OpenAI נתפסה כמובילה ברורה בשוק, אך התחרות מול גוגל ואנתרופיק מציבה אתגר אחר לחלוטין.



המודל החדש מציג שיפור בביצועים

בזירת הביצועים, GPT-5.2 מציג שיפור בציונים במבחני קוד, מדעים וניתוח טקסט ארוך, לעומת גרסאות קודמות. לפי הנתונים שהציגה החברה, הגרסה "החושבת" מתמודדת בהצלחה עם בעיות הדורשות מספר שלבי הסקה, ומפחיתה באופן משמעותי את שיעור הטעויות בתשובות. מבחנים אלו ממקמים את OpenAI מחדש מול גוגל, במיוחד מול יכולת ה-Deep Think של Gemini 3, שהובילה את הדירוגים במהלך החודש האחרון. לדברי אנשי הפיתוח בחברה, היכולת להתמודד עם אתגרים מתמטיים היא למעשה מדד לכושר ניתוח רחב יותר, שיכול להשפיע על משימות כמו חיזוי פיננסי או הערכת סיכונים.