הסוכן החדש של OpenAI עושה הרבה - אך עלול להיות זדוני
שירות Operator שהשיקה החברה בינואר באופן מוגבל בארה"ב, נפתח מאז לעוד שווקים, ומסוגל לעזור במגוון פעולות יומיומיות למשתמשים. ואולם בידיים הלא נכונות הוא עלול לשמש לביצוע הונאות כמו פישינג, והחברה צריכה להוכיח שלא מדובר בפרצה גדולה מדי
בינואר האחרון חשפה OpenAI את Operator - סוכן בינה מלאכותית עצמאי שמסוגל לבצע משימות באינטרנט באופן אוטונומי, ללא צורך במעורבות אנושית מתמשכת. המערכת מבוססת על מודל חדש בשם CUA (Computer-Using Agent), שמשלב יכולות ראייה של GPT-4o עם אינטראקציה גרפית, ומאפשרת ל-Operator לנווט באתרים, למלא טפסים ולבצע פעולות באופן עצמאי.
Operator מתפקד כעוזר אישי דיגיטלי, שמסוגל לבצע משימות כמו הזמנת טיסות ובתי מלון, קניות באתרים כמו Instacart ו-Etsy, הזמנת מוניות דרך אובר, הזמנת שולחנות במסעדות באמצעות OpenTable, ומילוי טפסים והגשת דו"חות של הוצאות. המערכת פועלת באמצעות דפדפן וירטואלי, שבו ניתן לצפות בפעולותיה בזמן אמת. במקרים שדורשים הזנת פרטי תשלום או סיסמאות, Operator מבקש מהמשתמש להתערב, כדי להבטיח אבטחה ודיוק.
היתרון המרכזי של Operator הוא היכולת לחסוך זמן על ידי אוטומציה של משימות יומיומיות, עם יכולת לבצע כמה משימות במקביל והתאמה אישית לצרכים שונים. עם זאת, המערכת עשויה להתמודד עם אתגרים כשהיא נתקלת באתרים מורכבים או לא סטנדרטיים, ולעתים דורשת התערבות אנושית במקרים מסוימים. בנוסף, הזמינות של השירות מוגבלת מבחינה גיאוגרפית בשלב זה. Operator היה זמין בהתחלה רק למנויי ChatGPT Pro בארה"ב ובבריטניה, בעלות של 200 דולר לחודש, אך לפני כחודש הזמינות שלו הורחבה למדינות נוספות, בהן הודו ואוסטרליה. OpenAI מתכננת להרחיב את הזמינות של השירות גם למנויי Plus, Team ו-Enterprise בהמשך.
גם לגוגל ואנתרופיק יש מוצרים דומים
כמה חברות מציעות שירותים דומים: גוגל עם Project Mariner; אנתרופיק עם כלי אוטומציה לדפדפן; אמזון עם Nova, סוכן AI המתמקד בקניות מקוונות; ו-Manus, סוכן AI סיני שמסוגל לבצע משימות מורכבות באופן עצמאי. בנוסף, קיימות חלופות של קוד פתוח כמו AutoGPT ו-Open Operator, שמציעות יכולות דומות.
- דיסני משקיעה מיליארד דולר ב-OpenAI ומביאה את מיקי מאוס, דארת' ויידר ודדפול לסורה
- אלפאבית מתחזקת, OpenAI נחלשת: המשקיעים משנים כיוון במרוץ ה־AI
- המלצת המערכת: כל הכותרות 24/7
OpenAI מתכננת להשיק API ל-Operator, שיאפשר למפתחים ולחברות ליצור פתרונות אוטומציה שמותאמים אישית. החברה רואה ב-Operator צעד משמעותי לקראת עתיד שבו סוכני AI ישולבו בעבודה היומיומית, וישפיעו על תחומים כמו שירות לקוחות, מכירות ופיננסים. למרות האתגרים הקיימים, Operator מציג פוטנציאל לשנות את הדרך שבה אנו מבצעים משימות באינטרנט, ולהפוך את האינטראקציה הדיגיטלית ליעילה ואוטומטית עוד יותר.
לפי דיווחים שפורסמו בכמה מקומות, כבר בוצעו ניסויים שמטרתם להדגים כיצד ניתן לנצל את Operator לרעה, אם כי מדובר בשלב זה בעיקר בהוכחות היתכנות ולא במתקפות בקנה מידה רחב. כך למשל, חוקרי אבטחת מידע הצליחו להנחות את Operator לבצע פעולות לא מכוונות כמו לחיצה על קישורים זדוניים, שליחה של מידע רגיש לאתרים חשודים, או אפילו התחלה של תהליך רכישה מזויף - וכל זאת בלי שהמערכת תזהה בזמן אמת שהמשימה עצמה אינה לגיטימית. במקרים מסוימים, סוכנים כמו Operator התקשו לזהות ניסיונות התחזות, בייחוד כשהממשק הגרפי היה בנוי כך שייראה אמין.
OpenAI עצמה הודתה בקיומן של חולשות כאלה, והצהירה כי מדובר בשלב ניסיוני שבו החברה לומדת את מגבלות הטכנולוגיה ומטמיעה שכבות הגנה נוספות. החברה גם פועלת בשיתוף עם מומחי סייבר כדי לזהות מראש תרחישים פוטנציאליים של שימוש לרעה, ומיישמת מסננים, ניטור בזמן אמת ובקשות לאישור מפורש מהמשתמש כשמזוהים תרחישים חריגים. כמו בכל טכנולוגיה מהפכנית, יש פער בין היכולות לבין האתיקה והבקרה הדרושים, וההתמודדות עם פגיעויות ושימוש לרעה תמשיך ככל ש-Operator ייכנס לשימוש רחב יותר ויותר.
- OpenAI משיקה את GPT-5.2 - בניסיון לחדש את ההובלה במרוץ ה-AI
- עומרי כספי משלים גיוס של 100 מיליון דולר לקרן אופורטוניטי
- תוכן שיווקי שוק הסקנדרי בישראל: הציבור יכול כעת להשקיע ב-SpaceX של אילון מאסק
- ככה לא תיפלו בהונאות פיננסיות דיגיטליות - מדריך חשוב
בקרוב גם ב-WhatsApp?
האם Operator מבוסס על אותו המנוע של ChatGPT או שיש כאן טכנולוגיה שונה?
Operator מבוסס על מודל ה-GPT-4o החדש של OpenAI, אך בשונה מגרסאות ChatGPT הרגילות, הוא כולל שילוב של ראייה ממוחשבת ויכולת ניווט בזמן אמת בסביבות גרפיות כמו דפדפנים. כלומר, במקום רק להתכתב אתו, הוא גם ממש "רואה" את הממשק שעליו הוא פועל - כפתורים, טפסים, שדות טקסט - ויודע לתפעל אותם בדומה לאדם.
האם ניתן לתת ל-Operator גישה למייל או למסמכים אישיים כדי שיבצע משימות מתקדמות יותר?
נכון להיום, Operator לא מקבל גישה ישירה לתיבת הדואר האלקטרוני של המשתמש או למסמכים פרטיים, אלא אם המשתמש מעניק לו גישה מפורשת כחלק מתהליך המשימה (כך לדוגמה, במילוי טופס שדורש מידע מהמייל). OpenAI מדגישה את נושא הפרטיות והביטחון, ולכן כל גישה כזו דורשת אישור אקטיבי ומודע של המשתמש.
מה לגבי התממשקות לאפליקציות צד שלישי כמו WhatsApp או סלאק?
בשלב הזה Operator מתמקד בעיקר באינטראקציה עם דפדפנים ואתרים באינטרנט הפתוח. התממשקות לאפליקציות צד שלישי כמו WhatsApp, סלאק, זום או תוכנות מקומיות אחרות אינה חלק מהיכולות המובנות. ואולם לפי ההצהרות של OpenAI, בעתיד ייתכן ש-API פתוח יאפשר חיבור של Operator לפלטפורמות נוספות, כולל שירותי צ’אט, ענן, ויישומים עסקיים.
האם יש סכנות בשימוש ב-Operator, כמו למשל שימוש לרעה?
אחת הסוגיות שמטרידות את קהילת האבטחה היא האפשרות שסוכני AI כמו Operator ינוצלו על ידי גורמים עוינים לצורך פישינג, התחזות או הונאות מקוונות. כבר דווחו ניסויים בהוכחת היתכנות למתקפות שבהן Operator שוכנע לבצע פעולות לא לגיטימיות באתרים שונים. OpenAI מצהירה שהיא שמה דגש רב על פיקוח, בקרות אתיות ומנגנוני בטיחות, אך כמו כל טכנולוגיה - גם כאן יש מקום לדאגה, בייחוד אם הכלי יגיע בעתיד לידיים לא נכונות.
איך תתמודד OpenAI עם עומס על השרתים, ככל שיותר משתמשים יבקשו להריץ משימות דרך Operator?
OpenAI פועלת על בסיס תשתיות הענן של מיקרוסופט Azure, ולטענתה יש לה את היכולת להרחיב את הקיבולת בהתאמה לצרכים. עם זאת, יש לקחת בחשבון ש-Operator צורך משאבים גדולים יותר ממערכת שיחה רגילה כמו ChatGPT, מכיוון שהוא מבצע סימולציה של ממשק משתמש גרפי ומנתח את הסביבה באופן מתמשך. החברה בוחנת מודלים של תעדוף, כולל מחיר גבוה יותר וגישה מדורגת, כדי למנוע עומס על המערכת.
משקפי גוגל; קרדיט: יוטיובחוזרת לשוק: משקפי ה-AI החדשים של גוגל מכוונים גבוה
ענקית הטכנולוגיה מציגה חזון מחודש למשקפיים חכמים, שנים אחרי כישלון Google Glass. החברה מפתחת שתי קטגוריות של משקפי AI, בשיתוף עם שורת יצרניות משקפיים וטכנולוגיה, ומתכננת להיכנס לשוק תחרותי במיוחד מול מטא, סנאפ ואפל. הדגמות שנערכו בניו יורק מציגות מוצר
בשל בהרבה, שמחבר עיצוב יומיומי עם יכולות מציאות רבודה, עוזר חכם וממשק תוכנה רחב
במשך שנים גוגל נזהרה מלחזור לעולם המשקפיים החכמים, לאחר ש-Google Glass זכורים עד היום כאחת ההשקות המהוססות והבעייתיות בתולדות החברה. כעת היא שבה לזירה עם גישה מתונה ומדויקת הרבה יותר: שתי קטגוריות של משקפי AI, שמיועדות להגיע לשוק ב-2026: האחת עם תצוגה מלאה על העדשות, והאחרת מבוססת על אודיו בלבד. מדובר בניסיון להתמודד עם היתרון שצברה מטא, שהצליחה למכור מאות אלפי זוגות תחת המותגים ריי-באן ואוקלי, וכן להיערך למוצרים המתקרבים מצד אפל וסנאפ.
לדברי החברה, הדגמים החדשים מפותחים בשיתוף כמה שחקנים מוכרים: סמסונג, Warby Parker ו-Gentle Monster. אף שעדיין לא נחשפו עיצובים סופיים, גוגל מציינת כי מדובר בשיתוף פעולה הדוק שאמור לאפשר שילוב בין טכנולוגיה מתקדמת למראה יומיומי, כזה שאינו מסגיר את הכוח החישובי שמסתתר בתוכו. בחלק מהמקרים המשקפיים יסתמכו על הטלפון לצורך עיבוד, מה שמאפשר לשמור על משקל קל ועיצוב דק, בדומה לקו המצליח של מטא.
במהלך הדגמה שנערכה במשרדיה של גוגל בניו יורק, הוצגו זוגות שונים של משקפיים ניסיוניים, ובהם גם דגם מפותח יותר בשם Project Aura - פרויקט שמפותח ביחד עם Xreal. הוא פועל עצמאית על מערכת אנדרואיד XR, בדומה ל-גלקסי XR של סמסונג, אך נראה קרוב הרבה יותר למוצר לביש רגיל מאשר לאוזנייה מגושמת. Aura מספק שדה ראייה של 70 מעלות וכולל ממשק מוכר המבוסס על מעקב ידיים, אם כי עם מספר קטן יותר של מצלמות. כמו מערכות דומות, הוא דורש חיבור קבוע לסוללה חיצונית.
גוגל הציגה גם שני סוגי משקפיים עם תצוגה מובנית: דגם מונוקולרי, שבו מסך אחד מוטמע בעדשה הימנית, ודגם בינוקולרי שבו שתי עדשות מציגות מידע. שניהם תומכים בשכבות מציאות רבודה, כמו ניווט בגוגל מפות או השתתפות ב-Google Meet, אך הדגם הבינוקולרי מספק תצוגה רחבה בהרבה. בהדגמות אפשר היה לעבור בין תרגום סימולטני שמופיע על המסך לבין האזנה בלבד דרך הרמקולים הזעירים, ולבחור בכל רגע את רמת ה"נוכחות הדיגיטלית" הרצויה.
- כל המתחרות של אנבידיה: תמונת מצב בשוק החם ביותר ואיך זה ישפיע על השווקים?
- צים עולה 4.5%, טאואר יורדת 3%, המדדים במגמה מעורבת
- המלצת המערכת: כל הכותרות 24/7
השימוש בגוגל מפות היה אחד המקרים שבהם המסך שינה את חוויית השימוש לחלוטין. מעבר לחצים המתנופפים מעל הכביש, ניתן היה להנמיך את המבט ולקבל מפה מלאה של האזור, עם ציון מדויק של כיוון התנועה. גם צילום התמונות נהפך למעניין: לאחר צילום, ניתן היה לבקש מהמערכת לעבד את התמונה בעזרת מודל ה-Gemini Nano Banana Pro, ולהתבונן בגרסה המשופרת ישירות דרך העדשה, בלי לשלוף את הטלפון.
משקפי גוגל; קרדיט: יוטיובחוזרת לשוק: משקפי ה-AI החדשים של גוגל מכוונים גבוה
ענקית הטכנולוגיה מציגה חזון מחודש למשקפיים חכמים, שנים אחרי כישלון Google Glass. החברה מפתחת שתי קטגוריות של משקפי AI, בשיתוף עם שורת יצרניות משקפיים וטכנולוגיה, ומתכננת להיכנס לשוק תחרותי במיוחד מול מטא, סנאפ ואפל. הדגמות שנערכו בניו יורק מציגות מוצר
בשל בהרבה, שמחבר עיצוב יומיומי עם יכולות מציאות רבודה, עוזר חכם וממשק תוכנה רחב
במשך שנים גוגל נזהרה מלחזור לעולם המשקפיים החכמים, לאחר ש-Google Glass זכורים עד היום כאחת ההשקות המהוססות והבעייתיות בתולדות החברה. כעת היא שבה לזירה עם גישה מתונה ומדויקת הרבה יותר: שתי קטגוריות של משקפי AI, שמיועדות להגיע לשוק ב-2026: האחת עם תצוגה מלאה על העדשות, והאחרת מבוססת על אודיו בלבד. מדובר בניסיון להתמודד עם היתרון שצברה מטא, שהצליחה למכור מאות אלפי זוגות תחת המותגים ריי-באן ואוקלי, וכן להיערך למוצרים המתקרבים מצד אפל וסנאפ.
לדברי החברה, הדגמים החדשים מפותחים בשיתוף כמה שחקנים מוכרים: סמסונג, Warby Parker ו-Gentle Monster. אף שעדיין לא נחשפו עיצובים סופיים, גוגל מציינת כי מדובר בשיתוף פעולה הדוק שאמור לאפשר שילוב בין טכנולוגיה מתקדמת למראה יומיומי, כזה שאינו מסגיר את הכוח החישובי שמסתתר בתוכו. בחלק מהמקרים המשקפיים יסתמכו על הטלפון לצורך עיבוד, מה שמאפשר לשמור על משקל קל ועיצוב דק, בדומה לקו המצליח של מטא.
במהלך הדגמה שנערכה במשרדיה של גוגל בניו יורק, הוצגו זוגות שונים של משקפיים ניסיוניים, ובהם גם דגם מפותח יותר בשם Project Aura - פרויקט שמפותח ביחד עם Xreal. הוא פועל עצמאית על מערכת אנדרואיד XR, בדומה ל-גלקסי XR של סמסונג, אך נראה קרוב הרבה יותר למוצר לביש רגיל מאשר לאוזנייה מגושמת. Aura מספק שדה ראייה של 70 מעלות וכולל ממשק מוכר המבוסס על מעקב ידיים, אם כי עם מספר קטן יותר של מצלמות. כמו מערכות דומות, הוא דורש חיבור קבוע לסוללה חיצונית.
גוגל הציגה גם שני סוגי משקפיים עם תצוגה מובנית: דגם מונוקולרי, שבו מסך אחד מוטמע בעדשה הימנית, ודגם בינוקולרי שבו שתי עדשות מציגות מידע. שניהם תומכים בשכבות מציאות רבודה, כמו ניווט בגוגל מפות או השתתפות ב-Google Meet, אך הדגם הבינוקולרי מספק תצוגה רחבה בהרבה. בהדגמות אפשר היה לעבור בין תרגום סימולטני שמופיע על המסך לבין האזנה בלבד דרך הרמקולים הזעירים, ולבחור בכל רגע את רמת ה"נוכחות הדיגיטלית" הרצויה.
- כל המתחרות של אנבידיה: תמונת מצב בשוק החם ביותר ואיך זה ישפיע על השווקים?
- צים עולה 4.5%, טאואר יורדת 3%, המדדים במגמה מעורבת
- המלצת המערכת: כל הכותרות 24/7
השימוש בגוגל מפות היה אחד המקרים שבהם המסך שינה את חוויית השימוש לחלוטין. מעבר לחצים המתנופפים מעל הכביש, ניתן היה להנמיך את המבט ולקבל מפה מלאה של האזור, עם ציון מדויק של כיוון התנועה. גם צילום התמונות נהפך למעניין: לאחר צילום, ניתן היה לבקש מהמערכת לעבד את התמונה בעזרת מודל ה-Gemini Nano Banana Pro, ולהתבונן בגרסה המשופרת ישירות דרך העדשה, בלי לשלוף את הטלפון.
