דיקטה. קרדיט: רשתות חברתיות

בתמיכת אנבידיה: דיקטה מכניסה את ארון הספרים היהודי ל-AI

העמותה הישראלית השיקה שלושה מודלי קוד פתוח שמאומנים על מאות מיליארדי טוקנים בעברית ובאנגלית, ומציבים סטנדרט חדש ליכולות AI מקומיות; טכנולוגיות האימון שבו השתמשה היא של אנבידיה

רן קידר | 03/12/2025 14:20 (1)

נושאים בכתבה אנבידיה AI דיקטה

בזמן שמודלי השפה הגדולים ממשיכים להתקדם במהירות ברחבי העולם, רובם עדיין נשענים על אנגלית כשפה מרכזית, ורק בהמשך מקבלים עדכוני התאמה לשפות אחרות. היום מציגה דיקטה חלופה יוצאת דופן: סדרת Dicta-LM 3.0, אוסף מודלים גדולים וריבוניים בקוד פתוח, שתוכננו לספק יכולות עומק בעברית כבר משלב האימון הראשוני, לא כתוספת, אלא כבסיס.

בניגוד למודלי שפה בינלאומיים שנשענים כמעט לחלוטין על גופי מידע באנגלית, המודל של דיקטה מאומן מראש על מאגר דיגיטלי עצום של טקסטים עבריים, הכוללים מקורות פומביים, ארכיונים, אוספי תכנים מהספרייה הלאומית, חומרים שנמסרו לעמותה בידי גופים ציבוריים ופרטיים, ונתונים עבריים ייעודיים שפותחו במיוחד לצורכי המחקר. שילובם עם דאטה איכותי באנגלית יוצר מודלים שמבינים עברית ברמת עומק תרבותית ולשונית, תוך שמירה על יכולות ההסקה והידע הגלובלי של המודלים הבסיסיים שעליהם הותאמו.

ברמה הטכנית, מדובר באחת ההשקות החשובות ביותר בתחום ה-AI המקומי: מודלים במשקל 24 מיליארד (על בסיס Mistral), 12 מיליארד (על בסיס מודל בסיסי של אנבידיה) ו-1.7 מיליארד פרמטרים (שמיועד גם למכשירי קצה אישיים). המודלים הללו הוכשרו על כ-150 מיליארד טוקנים (כ-75% עברית, 25% אנגלית), תוך הרחבת חלון ההקשר המקורי של המודלים לכ-65 אלף טוקנים, כלומר כ-26 אלף מילים בעברית. כל שלושת המודלים זמינים לשימוש חופשי, ניתנים להורדה ישירות מ-HuggingFace, וניתנים להרצה הן בתצורה מלאה והן בגרסאות דחוסות כמו FP8 ו-4bit.

בנוסף, המודל הקטן זמין גם דרך אתר דיקטה.

שלושה מודלים - שלוש מטרות

כאמור, המודל המוביל של הסדרה החדשה מבוסס על Mistral Small 3.1, והוא מותאם להנמקה מתקדמת ולשיחה ארוכת־טווח. בנוסף אליו, ישנו דגם קל משקל המבוסס על ארכיטקטורת אנבידיה Nemotron Nano V2, המאפשר חלון הקשר ארוך משמעותית וצריכת זיכרון נמוכה.

המודל הקטן יותר, מיועד להרצה על חומרה צרכנית, כולל מחשבים אישיים ואפילו מכשירי קצה. בכל הדגמים ניתן למצוא תמיכה מובנית ב-tool calling, המאפשרת חיבור לכלים חיצוניים, API וסביבות מידע בזמן ריצה. השילוב הזה אמור להיות אטרקטיבי לארגונים ישראליים, עם פתרונות AI ריבוניים שיכולים לרוץ on-prem על תשתיות קיימות, מבלי להסתמך על ענן זר או העברת מידע רגיש לחו״ל.

האימון כשילוב של דאטה מקומי ויכולות בינלאומיות

בניגוד למודלי שפה בינלאומיים שמושתתים כמעט לגמרי על טקסטים באנגלית, כבר בשלב האימון הראשוני (Pretraining), המודל “קורא” מיליארדי מילים ומפתח הבנה בסיסית של עברית ואנגלית מתוך הקורפוס הזה. לאחר מכן מגיע שלב ההתאמה (Fine-tuning), שבו מלמדים את המודל כיצד להתנהג בשיחה אמיתית: לענות ישירות, להבין הקשרים ולספק מידע שימושי. בסוף מתבצע גם שלב חיזוק (RL), שבו המודל מקבל משוב חכם על איכות התשובות שלו ומשתפר בהתאם. כל תהליך האימון מתבצע באמצעות מסגרת NeMo של NVIDIA, תוכנה ייעודית המאפשרת לאמן מודלים גדולים על תשתיות מחשוב מתקדמות, ומבטיחה שמודלי דיקטה ישלבו עומק לשוני עברי עם יכולות הסקה וידע כלליות ברמה בינלאומית.

המפתחים מדגישים כי המטרה לא הייתה ליצור מודל שמתחרה ישירות במודלי הענק המסחריים (כמו GPT-5, קלוד או ג'מיני), אלא מודל ריבוני מוגדר היטב, שמסוגל לספק פלט איכותי בעברית, ובמידת הצורך להיות מותאם למצבי שימוש בתחומים משפטיים, פיננסיים, ציבוריים ורגולטוריים. העובדה שהמודלים פתוחים לחלוטין מאפשרת לכל ארגון לבצע fine-tuning על בסיס מאגרי מידע פרטיים, מבלי לחלוק אותם עם גורם חיצוני.

קיראו עוד ב"BizTech"

ההשקה של דיקטה מגיעה בזמן שבו אנבידיה מכריזה באירופה על תכנית רחבה לבניית "מודלים ריבוניים" לשפות מקומיות, יוזמה הכוללת שותפויות עם מוסדות בצרפת, איטליה, ספרד, שוודיה, פולין, סלובקיה, מדינות הבלקן וישראל. מטרת היוזמה היא לאפשר למדינות ולארגונים לפתח ולפרוס מודלי AI חזקים בתוך גבולותיהם, תוך שמירה על ריבונות נתונים, התאמה שפתית ומקומית מלאה, וצריכת משאבי מחשוב יעילה.

במסגרת היוזמה, המודלים של דיקטה עוברים שדרוג בעזרת טכנולוגיות של אנבידיה, Neural Architecture Search (NAS) – תהליך אוטומטי שבודק אינספור אפשרויות כדי למצוא את מבנה המודל היעיל ביותר. בנוסף נעשה שימוש בדאטא סינתטי, ובהמשך מבצעים גם אופטימיזציה ל-inference, שהוא שלב התגובה של המודל בזמן אמת, כך שהתשובות יהיו מהירות יותר וידרשו פחות כוח מחשוב. לאחר כל אלה, המודלים נארזים כ-NVIDIA NIM microservices, שהם למעשה שירותי AI מוכנים להפעלה, ומוטמעים גם במנוע החיפוש של פרפלקסיטי כדי לאפשר תמיכה טובה ומדויקת יותר בשפות מקומיות כמו עברית.

ובפועל, כשמשתמשים במודל, הוא אמנם מפגין הבנה עמוקה של העברית, אך עם תגובה איטית בהשוואה למודלים הפופולריים, ויש יותר צורך לבקש הבהרות או הרחבות. עם זאת, ההתנסות מדגישה את יתרון המודל: הוא אינו מיועד להיות מהיר יותר או "גמיש" יותר, אלא להיות מודל עברי יסודי, מפוקס, בטוח לפריסה עצמאית, ופתוח לשיפור על ידי הקהילה.

לצד פעילותה בתחום מודלי השפה, עמותת דיקטה מפעילה מגוון כלים חינמיים לעיבוד וטיפול בטקסטים בעברית, בהם כלי ניתוח לשוני, ערוך חיפוש מורכב בתנ"ך ובתלמוד, להשוות בין עדי נוסח, למצוא שיבוצים בטקסט ועוד. דיקטה, הפועלת כעמותה ללא מטרת רווח, מקדמת מחקר ופיתוח בטכנולוגיות שפה עבריות ומספקת פתרונות חדשניים לקהל הרחב, לאקדמיה ולמגזר הציבורי. שילוב הכלים והמחקר שבבסיסם הוא שמאפשר לעמותה להוביל יוזמות כמו Dicta-LM 3.0 ולהרחיב את גבולות ה-AI העברי.

הוספת תגובה

1 תגובות | לקריאת כל התגובות

תגובות לכתבה(1):

הגב לכתבה

שם המגיב *

כותרת תגובה *

תוכן התגובה

השדות המסומנים ב-* הם שדות חובה

1.
מודל מעולה גגלו chat dicta (ל"ת)
משה נחמו 04/12/2025 01:46
הגב לתגובה זו