חוקרים ב-IBM ישראל מפתחים מנוע לחיפוש ויזואלי

הפיתוח – במסגרת פרויקט מאושר בהשתתפות הקהילה האירופית בתקציב של 4.5 מיליון יורו
סיון איזסקו |

למרות שתכני ה- Web הולכים ומתבססים יותר ויותר על יכולות מולטי מדיה, מתמחים עדיין מנועי החיפוש המרכזיים דוגמת גוגל ויאהוו בחיפוש אחר תגי טקסט, במסגרת אוסף מוגדר ומוגבל של קבצים. גם כאשר השאילתא מתמקדת בוידיאו או באודיאו, סורקים המנועים האלה תגי טקסט, מטא-נתונים או תגי HTML המלווים את קבצי המולטימדיה. כאשר ספקי התוכן אינם מתארים באופן מלא וברור את תוכן קובץ המולטימדיה – או אפילו משתמשים בתגים מטעים על מנת ליהנות מתעבורה נוספת באתריהם – שיטות החיפוש הנוכחיות נותרות חסרות אונים.

חוקרים במעבדת המחקר של יבמ בחיפה מובילים התאגדות של תוכנית ארוגני מחקר, אקדמיה ותעשיה החברים במסגרת השישית למחקר ולפיתוח מטעם הקהילה האירופית, המיועדת לבנות סביבת חיפוש יעילה לאיתור מהיר ונוח של כמויות גדולות של קבצי דיבור, תמונות, וידיאו ומוסיקה הזמינים כיום בעולם הדיגיטאלי. המטרה הסופית של הפרויקט הזה היא ליצור מרחב וירטואלי מבוזר אחד, שבו ניתן יהיה לאתר תוכן במתכונת של "חיפוש על פי דוגמא" – במקום השיטה המוכרת כיום, המתמקדת בחיפוש אחר מילות מפתח ותגי מפתוח מוגדרים מראש.

יוסי מס, המוביל את הפרויקט במעבדת המחקר של יבמ בחיפה, מצוין כי מנועי החיפוש מהדור הנוכחי מוגבלים בגבולות מוגדרים. המטרה היא לבנות רשת ענקית במתכונת peer-to-peer, כאשר כל משתמש הוא למעשה מאגר היוצר תוכן תוך שימוש במגוון רחב של מערכות, וספקי השירות הם מאגרי-על, המנהלים מפתחות ומספקים יכולות חיפוש.

השנתיים וחצי של פרויקט SAPIR – ראשי תיבות אנגליים של "חיפוש מידע אודיו-ויזואלי תוך שליפת מידע מפיר לפיר", מיועדות להגדיר תקן חדש בשיטות החיפוש, ולשלב טכנולוגיות דוגמת זיהוי קול, עיבוד תמונה, אלגוריתמים של מפתוח, דירוג תוצאות מתוחכם וחיפוש סמאנטי המבוסס על רעיונות ולא רק על מילים מוגדרות. חיפוש על בסיס דוגמאות במרום על בסיס טקסט, יאפשר למשתמשים לומר בקול מילה – ולתת למנוע לחפש אחר דפוסי דיבור דומים. תסריט אחר אומר כי כל אחד יוכל להזין למאגר תמונה של סקסופון, למשל – ולתת למנוע לחפש אחר צורות דומות.

SAPIR יתמודד עם כמה מאתגרי החיפוש המלהיבים ביותר את החוקרים בעידן הנוכחי, ובראש ובראשונה – ההיקף העצום של המידע אליו הוא ניגש. המרחב הניתן לחיפוש העתיד להיווצר עם שילובם של קבצי וידיאו ומולטימדיה, גדול משמעותית מזה שאליו מתייחסים כיום מנועים דוגמת גוגל או יאהוו. הרכישה האחרונה של YouTube על ידי גוגל מצביעה גם היא על הצורך לחפש בקבצי מולטימדיה ועל ההכרה ההולכת ומתגבשת בקרב ענקי החיפוש, לפיה ההתייחסות לבעייה הזאת חיונית לשימור מעמדם.

SAPIR יבנה רשת שתתמוך במשתמשי קצה מרמת הטלפון הסלולארי ואל המחשבים האישיים ויומני כף היד. הפרויקט יתמקד גם במחקר דרכים חדשות לניתוח קבצים ולגזירת מידע אודות תכני המדיה העשירים הזמינים בקבצים האלה, ללא תלות בשאלה האם מדובר בתמונה, וידירו, קול או מוסיקה.

בצד מעבדות המחקר של יבמ בישראל, שותפים בפרויקט מכוןCNR מאיטליה, מכון מקס פלנק מגרמניה, אוניברסיטת פדובה מאיטליה, אוניברסיטת מסריק מברנו צ'כיה, וחברות טלפוניקה מספרד, טלנור נורווגיה, זירוקס צרפת ו-יוריקס מאיטליה. התקציב הכולל של הפרויקט הוא 4.5 מיליון אירו כאשר כ 60% ממנו ממומן ע"י תוכנית המסגרת השישית של הקהיליה האירופית.

הגב לכתבה

השדות המסומנים ב-* הם שדות חובה