ExplAInable

Tamir Nave, Mike Erlihson, Uri Goren, Hila Paz Herszfang

תמיר נווה, אורי גורן, מייק ארליכסון והילה פז הרשפנג מארחים מומחים מעולם הבינה המלאכותית. האזינו לשיחות עם חוקרי AI, דאטה סיינטסים, מהנדסי ML ומובילים בתעשייה, שמביאים לכם את האתגרים, המחשבות והתובנות המעניינות ביותר מבפנים.

  1. Hebatron לפצח את העברית: מאחורי הקלעים של אימון של

    3 days ago

    Hebatron לפצח את העברית: מאחורי הקלעים של אימון של

    איך לוקחים שפה מורכבת ועשירה כמו עברית ומלמדים מודל בינה מלאכותית לדבר אותה שוטף? ולמה דווקא המודל של אינבידיה הוא זה שניצח את Llama ואת המודלים של IBM במבחן העלות-תועלת? בפרק החדש של אקספלינבל, מייק מארח את שארל ויינברגר (מוביל פיתוח ב-AI Next של PWC) ונעם קייזר (מפתח בצוות) לשיחת עומק על מאחורי הקלעים של פרויקט אימון מודל השפה בעברית: פרויקט ששבר את הרשת עם 30,000 הורדות ו-4 שחרורי גרסאות בשבוע אחד בלבד. בפרק נדבר על: אתגר השפה העברית: למה המורפולוגיה העברית עושה צרות לטוקנייזרים הסטנדרטיים, ואיך מנצחים את זה.מלחמת המודלים: למה הצוות בחר דווקא ב-"נימטרון" (Nemotron) של Nvidia, ולמה מודלים פופולריים כמו Aya, Llama וגרנית נשארו על רצפת חדר העריכה בגלל יחסי דחיסה גרועים.משבר "אפקט הלוס": הרגע המלחיץ שבו מדדי השגיאה ירדו, אבל גם הביצועים צללו ואיך הגדלת ה-Batch ל-16.5 מיליון טוקנים הצילה את הפרויקט.בנצ'מרק מול המציאות: למה ניצחון במבחנים סינתטיים הוא לא תמיד מה שהמשתמשים מחפשים, והתובנות ממבחן הקהל (Arena).תשתיות של אלופים: איך המעבר ממעבדי H200 ל-Blackwell 300 החדשים של AWS חתך את זמני האימון פי 7 והוזיל את העלויות לעשרות אלפי דולרים בודדים.איך נכנסים לתחום? הטיפים של ישראל ונועם למי שרוצה לפתח קריירה באימון מודלים למה מיינדסט מחקרי ושליטה בתשתיות (Docker, Sharding, AWS) חשובים לא פחות מאלגוריתמיקה.

    33 min
  2. [154] על Physical AI: מתי הומנואידים של טסלה ושוטף-שואב יחלקו foundational model

    12 May

    [154] על Physical AI: מתי הומנואידים של טסלה ושוטף-שואב יחלקו foundational model

    יצא לכם לתהות מתי הומנואידים של טסלה ושוטף-שואב של שיאומי ישתמשו באותו ה- foundational model? אחרי שלושה פרקים ברימוט, אקספליינבל חוזרת לסטודיו, ובפרק 154 תמיר והילה צוללים ל- Physical AI. בפרק נבדיל בין 4 הקטגוריות של רובוטים, נבין למה צצו foundational models לתמונות לפני טקסט, איזה חיישן יכול לעזור לרובוט שוטף כלים להבדיל בין זכוכית לקריסטל, ואיך הרגולציה עשויה להשפיע על תפוצה רחבה של הומנואידים.  נפרק את מה שעומד מאחורי מודלי VLA (ויז׳ן, שפה, ו-action), ונבין מה צריך להשתנות עד שנוריד משקולות לשוטף-שואב מ Huggingface.  אז - האם סימולציות יוכלו לקדם אותנו לעבר מספיק training data? איך מגדירים טוקן בפעולות מוטוריות? ואיזו ענקית קראה למודל ה VLA שלה על שם דמות מפתיעה משומרי הגלקסיה? כל זאת, בפרק! אתר mAIk Education של תמיר: https://www.maik-education.com/ סדנאות לבתי ספר: https://www.maik-education.com/for-Israelschools  סדנאות רובוטים לחברות (לעובדים או לילדי העובדים): https://www.maik-education.com/for-Israelcompanies  00:00 חוזרים להקליט באולפן! 01:17 ארבע משפחות של רובוטים 03:40 מתי foundational models נהיו שם-דבר 06:46 מולטי-מודאליות של טקסט, תמונה, ופעולה: VLA 11:35 על הinput וה-output של מודלי VLA  17:05 אז מה יש לנו היום בשוק 20:04 החסם האנרגטי

    23 min
  3. [153] למידה אדוורסריאלית

    26 Apr

    [153] למידה אדוורסריאלית

    מה הקשר בין הרעלת training data להורדת הסבירות ל- end of text token? בפרק 153 של אקספליינבל, אורי ומייק מארחים את ד״ר רז לפיד ואילון מזרחי לשיחה על למידה אדוורסריאלית. לא זו מארכיטקטורת GAN, אלא כזו שגורמת למודלי LLM לצטט את החוקה האמריקאית ולבזבז יותר מדי טוקנים. בפרק למדנו על תקיפות שמתחילות בwhitebox עם מודל opensource ונודדות למודלים סגורים, תקיפות פיזיות על מערכות סגורות שאומנו לזיהוי בני אדם, ואיך אפשר להתמודד עם מתקפה שמורידה את הסבירות שמודל שפה יוצא end of text token. אז האם אייג׳נטים שמשתמשים במודל סגור יותר בטוחים מכאלו שמשתמשים במשקולות מhugging face? איך תוקפים מרעילים תוצאות כשכל מה שיש להם הוא גישה ל training data? האם אורי ורז יפתחו עסק צדדי של הדפסת חולצות שיגרמו לנו להיות בלתי נראים? ה scholar של קרליני: https://scholar.google.com/citations?user=q4qDvAoAAAAJ&hl=en הגנה "לא מפוקחת" שהתקבלה ל ICCV:  https://openaccess.thecvf.com/content/ICCV2025W/SafeMM-AI/html/Mizrahi_Pulling_Back_the_Curtain_Unsupervised_Adversarial_Detection_via_Contrastive_Auxiliary_ICCVW_2025_paper.html התקפת black box על object detectors שהתקבלה ל - ECML:  https://arxiv.org/abs/2303.04238

    36 min
  4. [151] עקבות של רעשי תיוג עם ד״ר שמואל חיון

    30 Mar

    [151] עקבות של רעשי תיוג עם ד״ר שמואל חיון

    השבוע באקספליינבל אנחנו עוברים למתכונת רימוט ומארחים את ד״ר שמואל חיון, חוקר AI בכיר בהירונדו, שיספר לנו על העקבות שתיוג לא נכון משאיר לנו בזמן אימון המודל. הבנו איך טעות סיווג בהקלטה עם קשר טמפורלי קשורה לקלסיפיקציה של חתולים, ומתי סטטיסטיקות על פיצ׳רים כבר לא יכולות לעזור לנו במציאת טעויות סיווג (רמז: תמונות). העמקנו בהשפעה של דוגמא עם סיווג לא-נכון על loss של דוגמא אחרת, ואיך מודאליות שונה תשתמש אחרת באותה ליבה אלגוריתמית למציאת הרעשים. המאמרים שהוזכרו בפרק: שערוך יעיל של data influence למציאת שגיאות תיוג סקירת מגוון שיטות לחישוב מקורב של data influence 00:00 היי שמואל, חוקר AI בכיר בהירונדו 02:40 חשיבות איכות הדאטה וכלב שמסווג כחתון 07:35 מבדיקה ידנית ועד קרבה סמנטית: איך להתמודד עם רעשי סיווג 13:33 מודאליות ותיוגים: איפה אנחנו הכי פגיעים 18:45 שגיאות תיוג נפוצות 22:44 איך לומדים ביחד ולחוד עבור מודאליות שונה 32:29 תוצאות בשטח 35:48 איך ללמוד עוד

    37 min
  5. [150] לסקור מאמרים כמו מייק

    8 Mar

    [150] לסקור מאמרים כמו מייק

    בפרק 150 של אקספליינבל, ולכבוד הסקירה של המאמר ה-555 של מייק, הסוד נחשף: מי הם הכותבים הסודיים מאחורי המאמרים (ואיך זה עוזר לקריירה שלהם). נבין מה הקשר בין הנוסחה של log likelihood לפסילת מאמרים, ואיך לדעת איזה מאמר לקרוא כשאין לנו מנחה או משימה מוגדרת בעבודה. נבדוק מהם הטיפים המובילים שעזרו למייק להפסיק לקרוא 85% מתוך 3000 המאמרים ששקל לסקור, ואיך שיתופי פעולה עם דאטה סיינטיסטים מתחילים הפכו להיות הסקירות האהובות עליו. פרק 150 שיצליח להעביר לכם חצי שעה שלמה (או 20 דקות על מהירות x1.5) - זמין עכשיו בכל הפלטפורמות! קסניה בטוויטר: https://x.com/TheTuringPost קמרון וולף: https://substack.com/@cwolferesearch נתן למברט: https://substack.com/@natolambert  סבסטיאן רסצ׳קה: https://substack.com/@rasbt 00:00 מחוסרים מתמטיים בתואר שני בטכניון ועד לקריאה של 3000 מאמרים 04:34 טקסונומיה של מידע: איך לבחור מה לסקור 10:43 להיכשל מהר: איך לסנן 85% מהאמרים ביעילות 18:19 שיתוף הפעולה הסודי עם סוקרים וסוקרות מהתעשייה, ואיך זה מקדם אותם 21:59 הסקירה הכי גרועה שמייק כתב 26:07 איך לשתף פעולה עם מייק לקראת הסקירות הבאות שלו ומה אפשר ללמוד מזה

    33 min

Ratings & Reviews

4.7
out of 5
15 Ratings

About

תמיר נווה, אורי גורן, מייק ארליכסון והילה פז הרשפנג מארחים מומחים מעולם הבינה המלאכותית. האזינו לשיחות עם חוקרי AI, דאטה סיינטסים, מהנדסי ML ומובילים בתעשייה, שמביאים לכם את האתגרים, המחשבות והתובנות המעניינות ביותר מבפנים.

You Might Also Like