בינה מלאכותית (X)
בינה מלאכותית (X)

שדרוג של OpenAI: ה-AI לא רק עונה אלא מנהל שיחה קולית

החברה השיקה שלושה מודלי קול חדשים למפתחים: שיחה קולית טבעית יותר, תרגום חי ותמלול בזמן אמת. היעד המרכזי הוא מוקדי שירות, חינוך, אירועים, מדיה ואפליקציות שרוצות לנהל שיחה אמיתית עם המשתמש


הדס ברטל |


OpenAI עושה עוד צעד לכיוון שבו הממשק המרכזי מול בינה מלאכותית כבר לא יהיה רק טקסט, אלא מענה בקול. החברה השיקה שלושה מודלי קול חדשים ב-API שלה, שמיועדים לאפשר למפתחים לבנות אפליקציות שמדברות, מקשיבות, מתרגמות ומתמללות בזמן אמת.

המודל המרכזי הוא GPT-Realtime-2, מודל קול חדש שאמור לספק שיחה טבעית יותר ולהתמודד עם בקשות מורכבות. בניגוד למודלים קוליים פשוטים יותר, כאן הדגש הוא לא רק על קול שנשמע טוב, אלא על יכולת להבין הקשר, לעקוב אחרי שיחה, להסיק מסקנות ולבצע פעולות תוך כדי דיבור. כלומר, פחות "בוט שמקריא תשובה" ויותר עוזר קולי שיכול לעבוד.

המודל השני הוא GPT-Realtime-Translate, שמיועד לתרגום חי. הוא תומך ביותר מ-70 שפות קלט וב-13 שפות פלט, ונועד לשמור על קצב שיחה טבעי. זה יכול להתאים לפגישות עסקיות, שיעורים, אירועים בינלאומיים, שיחות שירות ושיחות וידאו בין אנשים שמדברים שפות שונות.

המודל השלישי הוא GPT-Realtime-Whisper, שמספק תמלול חי. המערכת מאזינה לשיחה וממירה אותה לטקסט תוך כדי התרחשות. זה רלוונטי למוקדי שירות, פגישות, ראיונות, הרצאות, כתוביות חיות, מערכות נגישות ותיעוד אוטומטי של שיחות.

 

openai
openai - קרדיט: טוויטר


שירות לקוחות הוא השוק הראשון

היעד הברור ביותר הוא שירות לקוחות. חברות רוצות לקצר זמני המתנה, לצמצם עומס על נציגים ולתת מענה בכמה שפות בלי להגדיל את כוח האדם באותו קצב. קול טבעי, תרגום חי ותמלול בזמן אמת יכולים לשנות את האופן בו מוקדים טלפוניים עובדים, בעיקר בחברות גלובליות. גם חינוך, מדיה, תיירות, ביטוח, בנקאות, הפקת אירועים ופלטפורמות ליוצרים יכולים להשתמש בממשקי קול כאלה. ברגע שה-AI שומע, מבין, מדבר, מתרגם ומתעד, הוא הופך משכבת צ'אט לשכבת עבודה על גבי מערכות קיימות.

OpenAI  אינה היחידה במרוץ הזה. גוגל דוחפת בשנים האחרונות את Gemini Live, שמאפשר שיחה קולית רציפה עםבינה מלאכותית. גם אנתרופיק מפתחת יכולות דומות עבור Claude, ואמזון כבר שילבה ב-Alexa יכולות שיחה טבעיות יותר המבוססות על מודלים גנרטיביים. גם חברות כמו ElevenLabs מתמחות ביצירת קולות סינתטיים ריאליסטיים במיוחד, כולל חיקוי קולות של אנשים אמיתיים. במקביל, סטארט-אפים רבים מנסים להפוך את הקול לממשק המרכזי מול מחשבים, מתוך הנחה שאנשים יעדיפו לדבר במקום להקליד.

קיראו עוד ב"BizTech"

הסיכון: הונאות קול והתחזות

ככל שהקול נעשה טבעי יותר, גם הסיכון גדל. כלי קול מתקדמים יכולים לשמש לשירות טוב יותר, אבל גם להונאות, התחזות, ספאם וזיופי קול. OpenAI אומרת שהכניסה מנגנוני הגנה שנועדו לעצור שימוש לרעה, כולל עצירת שיחות שמפרות את כללי הבטיחות שלה. זהו תחום שידרוש בקרה חזקה יותר, והחברה לא בהכרח תוכל לשלוט בשימוש שייעשה בשירותים שלה. 

לצד ההבטחה הגדולה, הטכנולוגיה הזו פותחת גם שורה של סיכונים חדשים שעד היום היו קיימים בעיקר ברמה תיאורטית או בניסויים מצומצמים. ככל שמערכות קוליות הופכות אנושיות יותר- עם אינטונציה, תגובות בזמן אמת ויכולת לנהל שיחה רציפה – כך גדל גם הסיכון שאנשים יתקשו להבחין אם הם מדברים עם אדם אמיתי או עם מכונה. בעולם שירות הלקוחות זה אולי נשמע יעיל, אבל באותה מידה זה יכול להפוך לכלי משמעותי בהונאות פיננסיות, התחזות לבני משפחה, זיוף שיחות עסקיות ואפילו מניפולציות רגשיות. זה המקום בו רגולטורים צריכים כבר להתערב ולבחון אם קיימות פירצות בשירות הקול ואיך אפשר להגן על המשתמשים מהונאות.


הוספת תגובה

תגובות לכתבה:

הגב לכתבה

השדות המסומנים ב-* הם שדות חובה