ExplAInable

[155] Diffusion Language Models

הפרק עוסק במודלי דיפוזיה ליצירת טקסט (DLMs), המאומנים לג'נרט טקסט מתוך רעש (ג'יבריש).להבדיל מעולם התמונות שבו רעש הוא טבעי, בעולם השפה ייצוג הרעש מורכב יותר בשל אופייה הדיסקרטי של השפה. קיימות שלוש גישות מרכזיות בתחום: הגישה הרציפה (המרעשת את האמבדינגס), הגישה הדיסקרטית (המחליפה טוקנים בג'יבריש) או ממסכת אותם), וגישת ה-Block Diffusion המשלבת חיזוי אוטוגרסיבי עם דיפוזיה.

היתרון המרכזי של מודלי דיפוזיה הוא מהירותם הרבה לעומת מודלים אוטוגרסיביים, שכן הם מסוגלים לחזות בלוקים שלמים של טוקנים במקביל במקום לחזות טוקן אחר טוקן. למרות הפוטנציאל, המודלים הקיימים כיום עדיין מוגבלים מבחינת איכות הטקסט שהם מייצרים, ואין כרגע מודלי דיפוזיה גדולים מאוד מאות מילאירדי פרמטרים שמסוגלים להפגין ביצועי ברי השוואה עם LLMs בגדלים שונים