היי אין הרבה חומר על ממבה AI שזה בעצם בא להחליף את הטרנפומר המפורסם שרוב המודלים הפתוחים נבנים עליו מצאתי את סרטון הזה שממש מסביר בצורה מקיפה.
אזהרה הסרטון מאוד טכני וגם מי שמכיר את כל המושגים יהיה לו קשה לצפות בזה אבל הוא בהחלט צולל לבסיס ומסביר מה זה ממבה AI
https://www.youtube.com/watch?v=VtbtC3TNWdI
שלום קהילה אם אתה אוהב AI זה המאמר בשבילכם עכשיו דמיינו עולם המקום שבו תשומת הלב היא כל מה שאתה צריך היה תשומת לב עצמית מעולם לא פורסמה גילה שגוגל מעולם לא קיבלה פטנט על השנאי המלא ארכיטקטורה שמפעילה כיום את כל של מערכת הבינה המלאכותית שלנו בעולם דמיינו עכשיו מנכ"ל מיקרוסופט ש תשתית AI מלאה פועלת על שנאי אדריכלות Microsoft Co תיהנה הוא ישן ולא חושב היי מה קורה אם גוגל תחליט שעכשיו מיקרוסופט צריך לקחת רישיון שנאי ו נניח שהם לא מספקים את זה בחינם למיקרוסופט נניח שיש קטן שנתי אתה יודע תשלום הכרת תודה כמו שאנחנו התקשרו אליו בערך נניח1 מיליארד ואולי עוד קצת נגיעה אתה יודע שבעל המניות של מיקרוסופט היה עושה זאת תיהנו גם מהשינה שלהם רק את המעט הזה קצת יותר לדעת שחברה מייצרת כל רווח בכלל עם ה- EII שלהם עסקים אז יש לנו כאן את זה חזק תלות של מתחרה אחד ב מתחרה אחר בעל פטנט האין זו תיאוריית חדשנות יפה? פרדיגמה, אז מה אתם חושבים?
Microsoft Explorer של AI חלופי שיטות טובות כמובן שזה רק עולם הדמיון אז לכן יש לנו כדי למצוא כותרת מדעית כאן עבור זה וידאו ואנחנו הולכים לכאן עם היי אנחנו מדברים היום על הרובוטריקים חישובית חוסר יעילות בלונג רצפים אז בואו נצלול ישר לתוך כדי להתמודד עם זה יש עכשיו את הרעיון להחליף את ארכיט הטרנספורמר טקטורות עם תשומת לב עצמית ו הזנת מזל"ט גור רב-שכבתי קדימה רשת הכל לזרוק הכל לזרוק הכל ולעשות מהפכה לבנות הכל מ הרעיון הבסיסי הוא די ישן חוזר לזמנים ההנדסיים שבהם היו לנו כאן דגמי החלל הממלכתיים שימו לב שזה לא המרחב הממלכתי מודלים, אבל זה מודלי החלל הממלכתיים או כפי שאנו קוראים לזה גם במתמטיקה מרחב pH כך שנות ה-50 אנחנו בתורת הבקרה תחת וור העבודה של קולמן ובמאמרו פורסם אז ב 1960 הוא הציג כאן גישה חדשה לסינון וחיזוי ליניאריים בעיות מה שאנחנו מכירים היום כ-CMAN סנן כך שמודל מרחב מצבים זה סיפק דרך שיטתית לתאר הדינמיקה של מערכת במונחים של סט של משוואה וקבוצת משוואות זו ייצג את מצב המערכת ו איך המדינה התפתחה הגיע הזמן עכשיו תן לי לעשות את זה לחלוטין.
ברור שזה לא המתמטיקה האמיתית דרך פיזית כי אתה יודע ב פיזיקה תיאורטית יש לנו את Lan the מסגרת Lan משוואת התנועות של מערכת פיזיקלית היא בסיסית עקרון במכניקה הקוונטית הקלאסית מכניקה תורת השדות הקוונטית זו נותן לנו תובנה לגבי טבעו של מערכות פיזיקליות שעליהן אנו מבוססים כאן העיקרון של הפעולה הפחותה ואנחנו יש כאן פונקציה כי LRAN כי לתמצת את הדינמיקה של השלם המערכת בה אנו משתמשים כאן במתמטיקה S סימטריה וחוק השימור של מסוים יחידות, לא על זה אנחנו מדברים: אנחנו לדבר על קירוב הנדסי עבור מידול מערכת מורכבת בפקד מחזור עכשיו אתה מכיר את המערכת הזו כ SMS: כיצד מתפתח מצב המערכת לאורך זמן בהתבסס על אם נשנה קלט נתונים עכשיו לפעמים אנחנו נקראים זה S2 אז סופרים כאן את מספר ה-S יש גם את דגם ה-S4 המובנה מרחב מדינתי רציף מודל שבו יש לנו עכשיו מתקדם טיפול מתמטי במטריקס ו כפל מטריצה ו אלכסון של מבני טנזור אבל שימו לב שזה לא אינהרנטי זה מספק פיזי אמיתי תיאור של מערכת באותו אופן שהלן בפיזיקה עושה זאת רק כדי שיהיה ברור שזה כאן אום קירוב של מערכת דינמית יפה עכשיו מודל מרחב המדינה הוא קל כמו אחד שניים שלוש ראשונות הוא מודל בדיקת מערכת דינמית שנית, הוא מייצג מערכת מורכבת עם כניסות מרובות ומרובות פלטים והכי חשוב זה משתמש בסט של שתי משוואות דיפרנציאליות מסדר ראשון אז זה יפה כי מסדר ראשון משוואות דיפרנציאליות כל כך קלות מחשוב כאן במדעי המחשב כן אנחנו יש הרבה metod אני ologies ו אין דבר גבוה יותר ולכן אין משוואות דיפרנציאליות מסדר שני או משוואות NSTEP .
מודלים פשוטים ויפים ושלישית אם יש לנו כאן ליניארית זמן דגם אינווריאנט וסופי מודלים ממדיים ואז אלגברי AL ניתן לכתוב משוואה בצורת מטריצה שאנחנו יודעים ממלאכותי מודיעין קל הכי קל זה הדוגמה הקלה ביותר: מודל מרחב מדינתי נכון, בואו נדבר על זה, אז הנה אנחנו הולכים אלה המשוואות, אבל אתם יודעים מה שחשוב עוד יותר הוא המדינה מודל חלל מיפוי קלט חד-ממדי אות אנו קוראים לזה U של T ל N סמוי ממדי רווח עם X לפני הקרנת סכום זה משתני מרחב סמוי ל- אות פלט חד-ממדי Y וכאן יש לך את קבוצת המשוואה המתארים את המערכת הדינמית שהיא מקרה ליניארי אז יש לנו כאן ארבעה שילוב מטריצה א ב ג ד ואני להראות לך בשנייה קלה להבנה מה הם הם כל כך SMS אלה נמצאים בשימוש נרחב ב דיסציפלינות מדעיות רבות כן כן כן הסתיר סימן של שרשראות על אז פשוט להשתמש בזה כייצוג קופסה שחורה במעמקים מודל רצף שבו a b c d הם שלנו פרמטרים פרמטרים ממדיים גבוהים למד על ידי ירידה הדרגתית ואתה יודע גם ברשת הנוירונים הרגילה אנחנו למד לפי ירידה הדרגתית יפה אז שוב החלק הלט מתייחס למצב הפנימי שרשמת כ-X oft שאינו ניתן לצפייה ישירה או משתנה measur ומצב פנימי זה פועל כמתווך בין הקלט ומצב הפלט A ו- B הם לאחר מכן המטריצות שולטות בדינמיקה של המצבים הסמויים ו-C ו-D ממפים את מצב סמוי לפלט הנצפה כ פשוט כמו זה אוקיי, המשוואה הראשונה שקראנו לה משוואת המצב והמשוואה השנייה אנו קוראים למשוואת הפלט A היא גם נקרא מעבר המצב מטריקס B הוא הקלט מטריקס C הוא מטריצת הפלט ו-D הוא ההזנה קדימה או הישירה מטריקס שידור רק כדי לדעת את מינוח עכשיו, תראו את זה, הנה אנחנו יש כאן מערכת פשוטה וזו המרחב האמיתי שלנו, התלת מימדי, מרחב אבל המרחב הממלכתי שלנו או הפנים שלנו מרחב הוא פישוט מתמטי כי M עושה את זה אפילו יותר ברור אז תן מרחב המדינה או מרחב הפנים הוא מרחב בנוי גיאומטרי שבו משתנים על הציר והנה יש לנו מהירות עליית המסה שלנו ו למטה ואת המיקום של המרכז של המסה היא עכשיו כאן המשתנים על הציר של ואלה הם המדינה משתנים כך שמצב המערכת יכול להיות מיוצג כווקטור כאן יש לך הווקטור הפועל סביב המדינה וקטור עם ב מרחב המדינה או מרחב הפנים כך שאתה תראו, יש לנו עכשיו פרמטריזציה של המרחב האמיתי שבו אנחנו אומרים בסדר את זה למערכת יש תלות של המדינה משתנים: מהירות ומיקום מיקום; קל איפה מרכז המסה שלי מהירות היא מהירות המרכז של המסה שלי אם יש לנו כאן את המרכז מחובר עם קפיץ לתקרה אתה יודע את המרחב האמיתי, זה מה שאתה לראות בטבע זה מה שאנחנו מתארים ואז יש לנו מתמטית מרחב פנים או מצב אופטימליים ופשוטים יותר מרחב שבו אנו יכולים לבחור כאן שלנו ייצוג הדינמיקה של מערכת עם פונקציה מחוללת או פשוט עם הציר כאן בפרצוף שלנו מרחב שמקל על שני המרחבים ייצוג מתאר אותו דבר קורה אז זה הנה מוויקיפדיה זה לא יכול להיות פשוט יותר אז יש לך כאן חוק התנועה של ניוטון לאובייקט נע כעת אופקית במישור מחובר לקיר עם קפיץ זהו משוואת התנועה שאתם מכירים אבל אתם ראה שיש לנו כאן נגזרת שנייה של וקטור הפלט שלנו בהתאם לזמן שלב שני נגזרות הם חישובית יקר אבל למרבה המזל אם אתה מסתכל על מחזור הבקרה או המדינה משוואה זו כאן הזהה תיאור בגירסה פשוטה שבו אנחנו אומרים בסדר אם אנחנו לא צריכים לפתור כאן את הנגזרת השנייה, אבל אנחנו ללכת עם משוואת המדינה שיש לה רק נגזרת ראשונה בהינתן השונה מרווחי זמן כדי שתראו שאנחנו עושים את זה חישובי פשוט יותר עכשיו אתה מבין הנקודה העיקרית של מרחב המדינה יפה יפה כן כל n שונה קלטורה אז שוב זה הרעיון המרכזי מאחורי כל זה, אז הרשו לי לשים את זה ברור שיש לי אות קלט ויש לי אות פלט ובין לבין יודע שיש לנו UR רשת אות קלט נמצאת בדרך כלל כאן וקטור ייצוג ואות הפלט אנו ואז להאכיל בתרומה מקסימלית רכה עכשיו יש לנו את זה אחרת, יש לנו קלט רצף יש לנו רצף פלט זה הוא משפט באנגלית זהו משפט בצרפתית ואתה רוצה ש המערכת מתרגמת את זה אחרי שהוא למד הרבה הרבה הרבה דוגמאות אז מה שיש לנו עכשיו הוא נסתר לטינית מרחב ועבור מרחב זה אנו משתמשים כאן מתודולוגיית smm מתודולוגיית S4 ל למד את הפרמטרים של מרחב זה ללמוד א ב ג ד אם אנו יודעים את פרמטר שאנחנו יודעים איך המערכת מתנהגת אם הזמן עובר אם יש לנו קלט רצף פלט רצף זה עכשיו שלנו רשת בינה מלאכותית חדשה שבו אין לנו את תשומת הלב מנגנון ואין לנו את פארון רב-שכבתי מהטרנספורמציה אדריכלות אז אתה רואה שזה להיות רעיון בסיסי שתמיד קיים.
יפה חכו עכשיו את הצורך של זה סמוי שטח ב- SSMS Arve מכמה היגיון ומימדיות הפחתת הנתונים הנצפים יכולה להיות ממדי גבוה ומורכב כפי שהראיתי אתה כאן במרחב הפנים שאנחנו יכולים לקבל אולי רק דו מימד עם מהירות ומיקום מרכז המסה או לכידת מוסתר דינמיקה או תלות זמנית הם חזקים במיוחד בדוגמנות נתונים זמניים או רציפים אלה זרמים אתה יכול להכליל את זה זה כל כך מעניין שמרחב לאטין זה הוא כלי מועיל באמת עבורנו נהדר עכשיו הנה זה מה שאתה מכיר אותך יש לך קלט U של T יש לך פלט של המערכת y של T ולאחר מכן ב באמצע יש לך כאן את הסמוי הנסתר שלנו מרחב עכשיו B עכשיו קל להבין אנחנו יש כאן את נתוני הקלט וזה קלט מטריקס המקרין כאן את הזנת נתונים למרחב הסמוי הנסתר שלנו ו-C הוא כעת ההיטל של מרחב לאטין מוסתר לחלל הפלט שלנו יפה עכשיו אתה רואה כאן בבירור רב בפקד זה מחזור לולאה של ליניארי משוואת מרחב המדינה כי הממשי תיאור המרחב הלטיני החבוי הוא נעשה על ידי מטריקס א שלנו ואנחנו הולכים מ S2 ל-S4 נראה ש-A משחק מרכזי חלק וזה גם אם אתה רוצה מתייחס למעבר המדינה מטריקס הנה לך הכל כן אודות Dimension כן, חשוב לנו יש לנו קלט P ממדי יש לנו Q פלט ממדי ומשתני מצב N המימדיות של מערכת זו יכולה להיות אנחנו יכולים לתכנת את זה יכול להיות 1 2 5 10 700 68 ממדית אז הנה אתם רואים בדיוק X הוא וקטור מדינה כאן נתון ממד Y הוא וקטור פלט וקטור גם בממד נתון אם אתה יש Q פלטים ובכן אתה מנחש מה ממדיות היא ואז יש לכם כאן הממדים השונים של המטריקס שאפשר להסיק מהמעט הזה דיאגרמת יפה, בואו נעשה את הצעד הבא האבולוציה זוכרת שזה התחיל ב שנות ה-60 שנות ה-70 שנות ה-80 שנות ה-90 שנות ה-2000 2010 2020 ואתה מבין שם הרבה של דברים שקורים אז אנחנו עושים את זה באמת פשוט אנחנו עכשיו אוגוסט 2022 אנחנו עכשיו אוניברסיטת סטנפורד המחלקה מדעי המחשב והם אומרים היי אנחנו להבין שהיה כל כך יפה מודל המרחב המדינתי עם המרחב הממלכתי שלנו משוואה והראה כי עבור מתאים בחירות של מטריצת מעבר המצב או המדינה מטריקס א מערכת זו יכולה טיפול ביחסי תלות ארוכי טווח מתמטית, כן, עם זאת, יש לו כמה בעיות חישוביות ולפתור את בעיות חישוביות כאן אנו מציעים כאן מערכת S4 עם חדש פרמטריזציה של SS M ו- in בפרט אנו מתמקדים כאן ב מטריצה א ואנחנו עושים את זה קל כן כן כן מה הם אומרים היי S4 אנו מתמקדים כאן אנו מתנים כאן א עם תיקון דרגה נמוכה אתם זוכרים לורה עם הסתגלות לדרגה נמוכה זה לא אותו דבר אבל זה תיאורטית דומה אז יש לנו חלק נורמלי עיקרי ועשינו תיקון דרגה נמוכה למטריקס הזה אז אנחנו צוללים עמוק לתוך כלים מתמטיים ואנו מוצאים כאן א ייצוג שמקל על מחשוב כאן זה מצמצם את ה- SSM ל תחרות משובצת היטב של קי קל קי אתם זוכרים מתמטיקה אם לא; יודע אני ASPT יפה ואם אתה באמת רוצה תחשבו על זה בפישוט קיצוני מה זה S4 נהדר כמובן שזה היה מערכת ליניארית כעת אנו עוברים ל מערכת לא ליניארית עכשיו אותה קבוצה של משוואה מחזיקה אבל עכשיו אין לנו מטריקס אבל כמובן שזה כללי פונקציה אז אנחנו בפונקציה תורת בואו נביא דוגמה פשוטה: קלאסית מערכת לא ליניארית אומרת לנו שוויקיפדיה היא מטוטלת ויש לנו את המשוואה של תנועות למטוטלת אם נלך עם לרן ויש לנו פיזיקה תיאורטית ב כל זה יופי אלה הם פרמטר עם זאת אם אתה רוצה שיהיה פשוט חישובית אממ טובה כמעט באותה מידה חישוב של מערכת זו אתה יכול להשתמש משוואת מצב שיש לה רק את הראשונה נגזרת של פרמטרי UH שלנו לזמן אז זו דרך פשוטה יותר לחשב כאן הדינמיקה הפנימית והמדינה רקטורים ו ABCD של המערכת ייצוג מרחב לאטין כך אתה רואה שני תיאורים מתמטיים אבל אחד מהם כל כך קל מבחינה חישובית יפה אז כמו שאמרתי לך יש לנו כאן מודל החלל הממלכתי שיש לנו כאן שלנו ABCD עכשיו אתה שם לב אז כאן ב מרכז הזמן המתמשך שלה לאחרונה זיכרונות עבור יס לוכדים אמפירית ואז הנה יש לנו SNM שלנו יכול להיות מחושב כמופע חוזר או כ Convolution Recurrence Convolution כן כן כן ו-S4 כפי שאמרתי לכם מציג הנה אופטימיזציה מתמטית עבור מטריצה כפל יפה זה זה כן אם אתה רוצה לדעת חוזר אנא עבור לספרות זו יש לך ייצוג חוזר אז אם יש לך קלט נפרד רצף u z U1 U2 לך n במקום a פונקציה רציפה U של T אתה יכול לקבל דיסקרטיות לפי גודל המדרגה דלתא מייצג את הרזולוציה של הקלט ואז עכשיו אתה יכול לקבל רציף זמן SSM ממיר כאן למטריקס ו הנה המשוואה השלישית היא עכשיו מיפוי רצף לרצף במקום פונקציה לתפקד מיפוי וזה מה שאנחנו מעוניינים לחשב את זה כי אנחנו יהיה רצף קלט כמו משפט ורצף פלט אז זה רצף באמצעות מיפוי רצף הוא בדיוק מה שאנחנו מחפשים יפה אבל עכשיו אם אתה רוצה לחשב זה בדיוק ה- SSM החוזר כאן ב המשוואה השלישית כאן אינה מעשית עבור הדרכה על חומרת מחשב מודרנית בשל שלה רציפות שאתה רוצה שתהיה כאן פיתול רציף כדי שתוכל להשתמש המעבד הגרפי שלכם ממוטב כך שתעשו זאת שנה זאת לפיתול ייצוג ולאחר מכן תוכל להשתמש בלחצן מהיר עבור אלגוריתמי טרנספורמציה אלה הן תוכניות סטנדרטיות שיש לך בכל ספריית Python כדי לפתור את המשוואה כך עכשיו אתה יודע ייצוג חוזר וייצוג קונבולוציוני ו מהו העיקרי פונקציה זה היה S4 עכשיו בואו נקפוץ ל S6 השלב האחרון באבולוציה של מודל מרחב ממלכתי והנה יש לנו m MAMB שווה ל- S6 אז יש לנו כאן זמן ליניארי מידול רצף עם מצב סלקטיבי והנה יש לנו את פרינס אוניברסיטת קון M האוניברסיטה והם תגיד לנו שאתה יודע שלשנאי יש את זה חוסר יעילות חישובית לאורך זמן רצפים קלט פלט וזה שלהם בעיה ואנחנו מציעים עכשיו שלנו פתרון ואנחנו אומרים היי אנחנו משתלבים עכשיו מערכת ה-SSMS הסלקטיבית שלנו הופכת לפשוטה יותר ארכיטקטורת רשת עצבית מקצה לקצה אבל ללא מנגנון הקשב או אפילו בלוקי הפרספטרון הרב-שכבתיים ואנחנו ליצור משהו בלעדיהם אנחנו קוראים Mamba blck ברשת neur מתקדמת זו אדריכלות ונגיד שממבה נהנית היקש שהוא גבוה פי חמישה תפוקה מאשר שנאי ולינארית קנה מידה באורך רצף בהשוואה כאן לריבוע קנה מידה.
אז בואו נסתכל על זה רעיון אם זה באמת הדבר הגדול הבא שתחולל מהפכה בכל מודל הבינה המלאכותית שלנו ובמיוחד אם אתה חושב על סמרטוט נתונים אם יש לנו עכשיו קנה מידה ליניארי ו אורך רצף זה יהיה מדהים למהירות החישובית עבור הקל למתחם אז שוב אנחנו הולכים לשפה טבעית עיבוד נניח שיש לנו קלט רצף הוא משפט באנגלית ו רצף הפלט הוא משפט ב- גרמנית והמערכת צריכה להיות אחראי על התרגום נכון, אתה יודע כי LLMS הנוכחי שלנו לשנאי יש חישוב חוסר יעילות עם רצפים ארוכים ועכשיו הם הולכים עם הממ"ב הזה אדריכלות והם אומרים היי אנחנו משתמשים פרמטר SS M זה כעת כפונקציה של נתוני הקלט ובכך לאפשר חלק הפצת מידע סלקטיבית לאורך ה רצפים וזו התכונה ש משפר משמעותית את הטיפול ב אופנים נפרדים כמו טקסט אז כמובן שזו התוכנה החומרה יישום הם מוצאים כאן מקבילה אלגוריתם הממוטב לכך טיפול כאן במידע סלקטיבי התפשטות לאורך רצפים זהו אבל זה לא המשפט הזה כמו שאתה יכול נחשו אז מה הם יתרונות זכור מספק היטב A6 שינוי קנה מידה ליניארי באורך רצף fter היסק נהדר שהם יצרו כאן עכשיו חבר שלושה מיליארד חינם הכשרה מודל פרמטר והם אומרים היי ו אני אראה לך את נתוני הבנצ'מרק ב שנית, אנו עולים על השנאי של דומה גודל והתאמה לשנאי ש הם פי שניים מהגודל של שניהם אם אתה מסתכל רק באימונים מראש ובמורד הזרם הערכה כל כך מעניינת ש מן הארכיטקטורה של המערכת זה אדריכלות תאפשר לנו להניח כאן הביצועים של רובוטריקים עם זאת בסדר עכשיו לפני שאנחנו הולכים ל עם זאת, בואו נעשה את זה באמת נקה על ידי שילוב פרמטרי SSM שלנו שעכשיו קלט תלוי בעצבי Layers Member או S Six יכולים להיות סלקטיביים התמקד במידע קלט רלוונטי ב רצף שיפור המידול שלו יכולת זה משהו שהוא באמת כאשר המערכת נשברת או זוהר איך אתה יכול לעשות את זה כי מערכת מיקוד סלקטיבי ב מידע רלוונטי בקלט רצף אם אתה חושב על העצמי שימו לב, אתם יודעים, זה מחשב כל מילה זה לזה מילה או כל אסימון ל אסימון אחד של השני וחישוב תשומת לב ציון אבל עכשיו חבר עושה את זה ב שונה שאלתי את עצמי איך זה אפשרי מה זה מנגנון ונקדיש עכשיו קצת זמן הלאה אבל מה שהם מוכרים את הטיעון הוא היי חבר 3B מודל Sur pass כאן השנאי LLM מודל 3B ואני להראות לך שהם משתמשים די ישן LLMS במיוחד עבור רצפים ארוכים עבור רצפי קלט ארוכים אז בואו נעשה תסתכל על זה מנגנון הבחירה הזה איפה כן חבר למקד את שלה SSM reparameterization על איך זה אפשרי כך שהמנגנון מתקרב ל תהליך סינון שבו החבר מחליט באיזה מידע להתמקד ובאיזה להצניע או פשוט להתעלם כך המערכת מתעלמת ממידע קלט סלקטיבי באופן ספציפי זה מושג באמצעות מנגנון gating מודל שהוא חיוני קבוצה של פקדים דינאמיים כדי שינוי ותגובה לנתונים מעובד ומוקלט ולכן אם m הוא מתוח על טקסט נתונים שהוא עשוי ללמוד התמקדו בשמות עצם ופעלים כמפתח חלקי משפטים תוך תשלום נמוך יותר תשומת לב לצירופים נפוצים או מילות יחס לעיצוב החבר מאפשר לו לשקול לא רק פיסות נתונים בודדות אך גם את הקשר בתוך רצף לחשוב על העצמי תשומת לב אבל עכשיו זה שלם זה אומר שאמא לא רק תסתכלו על מילים בנפרד אבל מבין את הרלוונטיות שלהם בצורה גדולה יותר מבנה של משפט או אפילו של פסקה עכשיו זה מעניין ו מנגנון זה הוא באמת המפתח להבין שממבה ואני רבנו איתה הבנה זו כך בקיץ ממבה לומד להבחין בין חשובים מידע ברצף הקלט מתוך מידע לא חשוב בקלט רצף דרך נרחב אימון IT מסתגל בזמן אמת ל נתונים נכנסים באמצעות הסלקטיביים שלה מנגנון להתמקד באלמנט שהוא נודע כי סביר להניח ש משמעותי בזרם הקלט המבוסס על שלה הדרכה מעניין אז עכשיו אני מסתכל במיוחד בלמידה כך במהלך הכשרה זו שלב הממבה חשוף לכמות גדולה של נתונים כמובן מידע איזה חלק של הנתונים שהוא לומד איזה חלק הוא חשוב לבצע כעת חיזוי מדויק או החלטות.
כך בשפה שהוא לומד שמילים או ביטויים הם קריטיים עבור הבנת המשמעות של משפט ואז M משתמש עכשיו לא ב- תשומת לב עצמית של השנאי אבל עכשיו יש מודלים סלקטיביים של מרחב המדינה שיש להם את היכולת הייחודית להסתגל הפרמטרים הפנימיים A, B, C, D ו- דלתא מבוססת על הנכנסת נתוני רצף כך שבמהותם כחבר מעבד רצף של נתוני קלט להתאים ללא הרף את האופן שבו הוא מתייחס לכל אחד מהם כל פיסת מידע ואלה יכולות הסתגלות כמו אדם שלומד בחר מילות מפתח בשיחה כדי תפוס את הנקודות העיקריות אז עכשיו פרמטרים למדא א ב ג כן ד אנו מתעלמים כרגע במצב הסלקטיבי דגמי החלל שלנו SSMS מותאמים באופן דינמי בהתבסס על נתוני הקלט בפרט מתמקדים החלקים המשמעותיים יותר בקלט ואמרתי בסדר, שם זה נלמד, אבל מהו המנגנון כאן והסתכלתי על הפרמטרים ו יש לנו כאן במיוחד את הדלתא פרמטר ופרמטרים ABCD U יודע אבל מה זה דלתא עכשיו הדלתא פרמטר משחק תפקיד מכריע ב שליטה עד כמה המודל מתמקד בחלק הקלט הנוכחי לעומת שמירת מידע מקודם תשומות כך שערך גבוה של דלתא עשוי לגרום לממבה לשים לב יותר ל הקלט הנוכחי מאפס ביעילות את מצב פנימי בעוד ערך נמוך יותר של דלתא תגרום לממבה לשמור יותר מידע מהקודם תשומות אז הדלתא הזו היא אם אתה רוצה בדומה לציון קשב ב רשת טרנספורמר שאומרת לנו היי זה חשוב, זה חשוב, ו קטע זה של רצפי קלט חשוב בשביל אתה ABC אתה noce אוקיי עכשיו ARs של mamb לתת לנו את זה מבנה אדריכלי והם אומרים אתה דעו שזה נמשך עשרות שנים של מחקר אז יש לנו הרבה מודלים ו הם אומרים כן הכי טוב אם אתה לוקח את H3 דגם ואתה משלב אותו עם G MLP דגם זה עכשיו בלוק חברים אז בהשוואה לבלוק שנאי זה די קל שיש לך ליניארי הקרנה נכנסת ויוצאת ופנימה באמצע יש לך רצף טרנספורמציה עם אי-ליניאריות ש לומד כאן אז מה שיש לנו יש לנו קלט לבלוק M שלנו ואנחנו מפוצצים את זה כניסת שטח לחלל מוסתר סמוי עם יותר Dimension כדי שתוכל למצוא כל הדפוסים וכל הדפוסים פרטים בווקטור מרחב זה מרחב אז יש לנו כאן בואו נתמקד כאן רק על SSMS יש לנו כאן את המנגנון שלנו של מרחב המדינה המוצא כעת ב reparameterization א דלתא א ב ג ו אולי D במרחב לאטין זה יש לנו עכשיו את ניתוח דפוסים מוגדרים ולאחר מכן אנו יש הקרנת פלט ליניארית הקרנה למרחב הפלט שטח הפלט הוא ניתן למדידה כדי שתראו את התחליפים האלה הנה עכשיו תשומת הלב הקלאסית שלנו MLP מבנה מרשת השנאי אז נגזרת מחזור הבקרה הזו SSM אחראי כעת למצוא כאן החלקים הרלוונטיים של מידע ומוקרן לאחר מכן אל פלט הממ מעניין אני עדיין לא משוכנע שאני עדיין לא יודע, אולי אני פשוט לא אינטליגנטי למערכת הזו אבל בסדר אז ארכיטקטורת M מייצגת גישת ראייה יעילה ל- SSMS ב הרשת שלך משלבת תשומת לב ליניארית כן מגובשת כן כן כן, והם מגיבים לתשומות שונות בתוך רצף אוקיי, אוקיי, בואו נסתכל על הופעה נתונים מתוך אורטיס כפי שניתן לראות כאן אפס
RELATED POSTS
View all