סין
צילום: unsplash

הנשק הסודי של סין במרוץ הבינה המלאכותית

צמיחה מרשימה של 27.4% בשנה צפויה בתחום שיגדל מ-261 מיליון דולר ל-2.3 מיליארד דולר עד 2032

אדיר בן עמי |


בעוד העולם מתמקד בשבבים ובפיתוח מודלים, שוק אחר בתחום הבינה המלאכותית צומח במהירות בסין - שוק נתוני האימון למערכות AI. מדובר בתחום שעתיד להפוך לגורם מכריע במרוץ הטכנולוגי העולמי. לפי מחקר של חברת Sapien, שוק נתוני האימון למערכות בינה מלאכותית בסין צפוי לגדול מ-261 מיליון דולר ב-2023 ליותר מ-2.3 מיליארד דולר עד 2032, עם צמיחה שנתית מרשימה של 27.4%.


במרכז התנופה הזו עומדת השאיפה האסטרטגית של סין להפוך למובילה עולמית בתחום הבינה המלאכותית עד 2030. מטרה זו מגובה במימון ממשלתי נרחב, תוכניות פיתוח לאומיות ותשתית רגולטורית תומכת. אך בעוד המדינה מתקדמת במהירות, היא נתקלת בצוואר בקבוק משמעותי: הצורך במקורות מידע תואמי רגולציה ומותאמים לתחומים ספציפיים.


"חברות המתמחות באספקת מאגרי מידע איכותיים ומתויגים כראוי, המותאמים לצרכים הייחודיים של תעשיות מפתח, יהיו מרכזיות בניצול הביקוש הגובר," קובעים אנליסטים מחברת Sapien. הענקיות הטכנולוגיות כמו Baidu, קבוצת עליבאבא ו-Tencent כבר מנצלות את המערכות האקולוגיות הצרכניות העצומות שלהן כדי לייצר ולנצל כמויות עצומות של נתוני אימון. אולם, ההזדמנות האמיתית עשויה להימצא בידי שחקנים ייחודיים המתמחים בתיוג נתונים, סימון תואם פרטיות ופתרונות נתונים חוצי גבולות.


תחומי היישום מגוונים וכוללים רכבים אוטונומיים, טכנולוגיות חינוך, זיהוי דיבור אוטומטי ואימון מודלים לשוניים גדולים (LLM). בכל אחד מהתחומים הללו, נדרשים נתונים ספציפיים ומורכבים המשקפים את המציאות האנושית - לא רק קלט מעבדתי מטוהר.



הכללים נוקשים

פרטיות וציות לרגולציה הפכו למאפיינים מגדירים של השוק. חוק הגנת המידע האישי וחוק אבטחת הסייבר של סין מטילים כללים נוקשים על אופן איסוף המידע האישי, עיבודו והעברתו, במיוחד כאשר הוא חוצה גבולות. תקנות אלה מעלות עלויות ומורכבות תפעולית, אך גם יוצרות יתרונות תחרותיים לחברות המסוגלות לספק מאגרי נתונים נקיים ומאומתים.


"סוגיות ריבונות הנתונים הן קריטיות וסטנדרטים תפעוליים הולכים וגדלים," אמר ג'יימס יו, מנהל הטכנולוגיה של חברת המחקר Xintai Analysis בשנחאי. "חברות שיכולות לספק פתרונות מדרגיים בתוך הפרמטרים האלה ממוקמות היטב לצמוח."


מפת הדרכים של הממשלה הסינית לבינה מלאכותית מעדיפה אימוץ ממוקד-תעשייה. יישומי AI בעולם האמיתי בתחומי הפיננסים, החינוך, הלוגיסטיקה והבריאות תלויים במאגרי נתונים המשקפים את הרעש והמורכבות של סביבות אנושיות. הדבר הוביל לגידול בביקוש לספקים המסוגלים לאסוף, לנקות ולתייג זרמי נתונים מבולגנים, רב-לשוניים ולעתים קרובות קנייניים.

קיראו עוד ב"גלובל"


עבור המשקיעים, מצב זה פותח מספר אפיקי פעולה. ראשית, קיימת התרחבות של ספקי נתונים טהורים כמו Datatang ו-Data Magic, הנהנים הן מביקוש מקומי והן משותפויות עם מפתחי AI זרים המעוניינים לאמן מודלים רב-לשוניים. שנית, שכבת התשתית - כולל פלטפורמות תוכנה המייעלות תיוג נתונים ומבטיחות יכולת ביקורת - הפכה לתחום עניין מרכזי להון סיכון.


לבסוף, ישנו הארביטראז' הרגולטורי. כאשר חברות סיניות רבות מתקשות לעמוד בספי הפרטיות, במיוחד ליישומים רגישים כמו מודלי LLM, חברות המציעות נתונים סינתטיים או מאגרי נתונים גלובליים אנונימיים צוברות תאוצה. פתרונות אלה נתפסים כאלטרנטיבות בסיכון נמוך יותר בסביבה שבה חששות לגבי ריבונות נתונים נותרים גבוהים וכישלונות בציות עלולים לשאת עלויות כספיות ותדמיתיות.


האתגרים בשוק

עם זאת, האתגרים נמשכים. Sapien הצביעה על חששות לגבי גיוון, דיוק והטיה במאגרי נתונים מהעולם האמיתי, כמו גם בחינה מתמשכת של אבטחת נתונים וגישה ממשלתית פוטנציאלית. האשמות בשנים האחרונות, כגון המחלוקת סביב נוהלי נתוני האימון של DeepSeek, מדגישות עד כמה שקיפות ומקור הנתונים הפכו לקריטיים.


האנליסטים טוענים כי אתגרים אלה הם חלק מתהליך התבגרות רחב יותר. הידוק הכללים מאלץ את התעשייה להתמקצע, ומעדיף חברות עם ממשל תאגידי חזק, מומחיות ייחודית ומודלים תפעוליים בני הגנה. מגמה מתפתחת נוספת היא עלייתן של "הנמרים" הסיניים בתחום ה-AI - סטארט-אפים כמו Moonshot AI, Zhipu AI ו-MiniMax - המתחרים על בניית מודלים לשוניים גדולים ומערכות מולטימודליות מתקדמות. חברות אלה הן צרכניות רעבתניות של נתוני אימון איכותיים ועשויות להפוך לקונות או רוכשות משמעותיות של חברות ממוקדות-נתונים בשנים הקרובות.


הגב לכתבה

השדות המסומנים ב-* הם שדות חובה