דף זה תורגם על ידי Cloud Translation API.

מילון מונחים ללמידת מכונה

מילון המונחים הזה מגדיר מונחים כלליים של למידת מכונה, ובנוסף מונחים ספציפיים ל-TensorFlow.

A

אבלציה

שיטה להערכת החשיבות של תכונה או את הרכיב על ידי הסרה זמנית ממודל. לאחר מכן לאמן מחדש את המודל ללא התכונה או הרכיב האלה, ואם המודל שעבר אימון מחדש ביצועים נמוכים יותר באופן משמעותי, התכונה או הרכיב שהוסרו היא כנראה יותר חשובה.

לדוגמה, נניח שאימון האימון מודל הסיווג ב-10 תכונות ולהשיג דיוק של 88% קבוצת בדיקה. כדי לבדוק את החשיבות של התכונה הראשונה, אפשר לאמן מחדש את המודל באמצעות לבינה מלאכותית גנרטיבית. אם המודל שעבר אימון מחדש מניב ביצועים פחות טובים באופן משמעותי (למשל, בדיוק של 55%), אז התכונה שהוסרה הייתה כנראה חשובה. לעומת זאת, אם המודל שעבר אימון מחדש מניב ביצועים דומים, אז כנראה שהתכונה לא כל כך חשוב.

Ablation יכול גם לעזור לקבוע את החשיבות של:

רכיבים גדולים יותר, כמו מערכת משנה שלמה של מערכת למידת מכונה גדולה
בתהליכים או בשיטות, כמו שלב של עיבוד מראש של נתונים

בשני המקרים, תוכלו לראות איך ביצועי המערכת משתנים (או לא משתנה) לאחר הסרת הרכיב.

בדיקת A/B

דרך סטטיסטית להשוות בין שתי שיטות (או יותר) – ה-A ו-B. בדרך כלל, האות A היא שיטה קיימת. B היא שיטה חדשה. בדיקת A/B לא רק קובעת איזו טכניקה מניבה ביצועים טובים יותר וגם אם ההבדל הוא מובהק סטטיסטית.

בבדיקות A/B בדרך כלל מתבצעת השוואה בין מדד יחיד בשתי שיטות; לדוגמה, מה ההבדל בין דיוק של המודל טכניקות שונות? עם זאת, בדיקת A/B יכולה גם להשוות כל מספר סופי של מדדים.

שבב מאיץ

#GoogleCloud

קטגוריה של רכיבי חומרה מיוחדים שמיועדים לבצע מפתחות את החישובים הנדרשים לאלגוריתמים של למידה עמוקה (Deep Learning).

צ'יפים של מאיץ (או פשוט מאיצים, בקיצור) יכולים מאוד להגביר את המהירות והיעילות של משימות האימון וההסקה. בהשוואה למעבד לשימוש כללי. הם מתאימים במיוחד לאימון רשתות נוירונים ומשימות חישוביות דומות.

דוגמאות לצ'יפים של מאיץ:

יחידות עיבוד Tensor של Google (TPU) עם חומרה ייעודית ללמידה עמוקה (Deep Learning).
למעבדי ה-GPU של NVIDIA, שלמרות שבמקור נועדו לעיבוד גרפי, נועדה לאפשר עיבוד מקביל, שיכול באופן משמעותי הגברת מהירות העיבוד.

דיוק

#fundamentals

מספר החיזוי של הסיווגים הנכונים במספר הכולל של החיזויים. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, מודל שביצע 40 חיזויים נכונים ו-10 חיזויים שגויים החיזויים יהיו בעלי רמת דיוק של:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של חיזויים נכונים חיזויים שגויים. כלומר, נוסחת הדיוק לסיווג בינארי הוא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

איפה:

TP הוא המספר של התוצאות החיוביות הנכונות (חיזויים נכונים).
TN הוא המספר של מילות המפתח השליליות הנכונות (חיזויים נכונים).
FP הוא מספר התוצאות החיוביות השגויות (חיזויים שגויים).
FN הוא מספר התוצאות השליליות השגויות (חיזויים שגויים).

השוו והבדילו עם דיוק precision וגם ריקול.

לוחצים על הסמל כדי להציג הערות נוספות.

למרות שמדובר במדד מועיל במצבים מסוימים, הדיוק הוא שמטעה אנשים אחרים. חשוב לציין שדיוק הוא בדרך כלל מדד גרוע להערכת מודלים של סיווג שמעבדים מערכי נתונים ללא איזון בין מחלקות.

לדוגמה, נניח ששלג יורד רק 25 יום למאה עיר סובטרופית. מאז ימים ללא שלג (הכיתה השלילית) את מספר הימים עם שלג (המחלקה החיובית), את מערך נתוני השלג עבור העיר הזו מאוזנת. נניח שיש לכם סיווג בינארי שאמור לחזות שלג או לא שלג בכל יום, פשוט חוזה "ללא שלג" מדי יום. המודל הזה מדויק מאוד אבל אין לו כוח חיזוי. הטבלה הבאה מסכמת את התוצאות למשך מאה שנה של חיזויים:

קטגוריה	מספר
TP	0
TN	36499
FP	0
FN	25

לכן, הדיוק של המודל הזה:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

למרות שדיוק של 99.93% נראה כאחוז מרשים מאוד, המודל ואין לו בפועל כוח חיזוי.

דיוק וגם ריקול הם בדרך כלל מדדים שימושיים יותר יותר מדיוק להערכת מודלים שעברו אימון על מערכי נתונים עם איזון בכיתה.

פעולה

#rl

בלמידת חיזוק, המנגנון שבאמצעותו סוכן בין מדינות סביבה. הנציג בוחר את הפעולה באמצעות המדיניות שלנו.

פונקציית הפעלה

#fundamentals

פונקציה שמאפשרת לרשתות נוירונים ללמוד קשרים לא ליניאריים (מורכבים) בין תכונות לתיוג.

פונקציות הפעלה פופולריות כוללות:

ReLU
Sigmoid

התרשימים של פונקציות ההפעלה הם אף פעם לא קווים ישרים בודדים. לדוגמה, התרשים של פונקציית ההפעלה של ReLU מורכב שני קווים ישרים:

תרשים קרטזי בשני שורות. בשורה הראשונה יש קבוע
y של 0, לאורך ציר ה-X מ--infity,0 עד 0,-0.
השורה השנייה מתחילה ב-0.0. לקו הזה יש שיפוע של 1+. לכן
הוא בין 0,0 ל-+אינסוף,+אינסוף.

שרטוט של פונקציית ההפעלה sigmoid נראה כך:

תרשים מעוקל דו-ממדי עם ערכי x שמתפרש על פני הדומיין
-אינסוף עד +חיובי, בעוד שערכי ה-y מתפרשים על הטווח כמעט 0 עד
כמעט 1. כש-x הוא 0, y הוא 0.5. שיפוע העקומה הוא תמיד
חיובי, כאשר השיפוע הגבוה ביותר הוא 0.0.5 ויורד בהדרגה
שיפוע כשהערך המוחלט של x עולה.

כדי לראות דוגמה, צריך ללחוץ על הסמל.

ברשת נוירונים, פונקציות הפעלה מבצעות מניפולציה סכום משוקלל של כל ערכי הקלט נוירונים. כדי לחשב סכום משוקלל, מערכת הנוירונים מסתכמת את המכפלות של הערכים והמשקולות הרלוונטיים. לדוגמה, נניח ש הקלט הרלוונטי לנוירון, מורכב מהקלט הבא:

ערך הקלט	משקל הקלט
2	1.3-
-1	0.6
3	0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

נניח שהמעצב של רשת הנוירונים בוחר sigmoid בתור את פונקציית ההפעלה. במקרה הזה, מערכת הנוירונים מחשבת את sigmoid של -2.0, שהוא בערך 0.12. לכן, נוירון מעביר 0.12 (במקום -2.0) לשכבה הבאה ברשת הנוירונים. האיור הבא ממחיש את החלק הרלוונטי בתהליך:

למידה פעילה

גישת אימון שבה האלגוריתם בוחר חלק מהנתונים שהוא לומד מהם. למידה פעילה הוא חשוב במיוחד כאשר דוגמאות מתויגים שקשה להשיג אותם או שקשה להשיג אותם. במקום לחפש בצורה עיוורת מגוון דוגמאות מתויגות, אלגוריתם למידה פעיל מחפש באופן סלקטיבי את טווח הדוגמאות הספציפי שנדרש לו כדי ללמוד.

AdaGrad

אלגוריתם מתוחכם של ירידה הדרגתית שמשנה את הגודל של כל פרמטר, שמעניקות ביעילות כל פרמטר קצב למידה בלתי תלוי. הסבר מלא זמין במאמר הבא: מאמר זה של AdaGrad.

נציג

#rl

בלמידת חיזוק, את הישות שמשתמשת המדיניות במטרה למקסם את ההחזר הצפוי: בין מדינות סביבה.

באופן כללי, סוכן הוא תוכנה שמתכננת ומבצעת באופן עצמאי סדרה של פעולות להשגת יעד, עם יכולת להסתגל לשינויים בסביבה שלו. לדוגמה, סוכן שמבוסס על LLM עשוי להשתמש LLM ליצירת תוכנית, במקום ליישם מדיניות של חיזוק הלמידה.

גיבוש דפי אינטרנט לאשכולות

#clustering

ניתן לעיין באשכולות היררכיים.

זיהוי אנומליות

תהליך הזיהוי של חריגים חשודי טעות. לדוגמה, אם הממוצע לתכונה מסוימת הוא 100 עם סטיית תקן של 10, במקרה כזה, זיהוי האנומליות צריך לסמן ערך של 200 כחשוד.

AR

קיצור של Augmented Reality (מציאות רבודה).

שטח מתחת לעקומת ה-PR

ראו PR AUC (אזור מתחת לעקומת PR).

שטח מתחת לעקומת ה-ROC

למידע נוסף, אפשר לעיין בקטע AUC (אזור מתחת לעקומת ROC).

לגבי בינה מלאכותית,

מנגנון לא אנושי שמדגים מגוון רחב של פתרון בעיות, יצירתיות ויכולת הסתגלות. לדוגמה, תוכנית שממחישה מודיעין כללי יכול לתרגם טקסט, להלחין סימפוניות וגם להצטיין משחקים שעדיין לא הומצאו.

לגבי בינה מלאכותית,

#fundamentals

תוכנה לא אנושית או מודל שיכולים לפתור משימות מתוחכמות. לדוגמה, תוכנית או מודל שמתרגם טקסט, או תוכנית או מודל מאפשרת לזהות מחלות מתמונות רדיולוגיות, וגם שהן מציגות בינה מלאכותית.

באופן רשמי, למידת מכונה היא תת-תחום של בינה מלאכותית גנרטיבית. עם זאת, בשנים האחרונות, ארגונים מסוימים התחילו להשתמש מונחים בינה מלאכותית ולמידת מכונה.

תשומת הלב,

#language

מנגנון שנמצא בשימוש ברשת נוירונים ומציין החשיבות של מילה מסוימת או חלק ממילה מסוימת. דחיסת נתונים כמות המידע שנדרש למודל כדי לחזות את האסימון/המילה הבאה. מנגנון תשומת לב טיפוסי עשוי לכלול סכום משוקלל בקבוצה של ערכי קלט, כאשר משקל לכל קלט מחושב על ידי חלק אחר רשת זרימה קדימה.

כדאי גם להשתמש בקשב עצמי הקשב העצמי עם מספר ראשים, אבני הבניין של טרנספורמרים.

שיוך

#fairness

מילה נרדפת לפיצ'ר.

בהוגנות במסגרת למידת המכונה, המאפיינים מתייחסים לעיתים קרובות למאפיינים שקשורים לאנשים פרטיים.

דגימת מאפיינים

#df

טקטיקה לאימון יער החלטות שבו כל עץ ההחלטות מתייחס רק לקבוצת משנה אקראית של תכונות כשלומדים את התנאי. באופן כללי, קבוצת משנה שונה של תכונות נדגמת לכל סוג צומת. לעומת זאת, כשאימון עץ החלטות ללא דגימת מאפיינים, כל התכונות האפשריות מביאות בחשבון עבור כל צומת.

AUC (אזור מתחת לעקומת ROC)

#fundamentals

מספר בין 0.0 ל-1.0 שמייצג של מודל סיווג בינארי יכולת להפריד כיתות חיוביות מחלקות שליליות. ככל שה-AUC קרוב יותר ל-1.0, כך היכולת של המודל להפריד טובה יותר. אחד מהשני.

לדוגמה, באיור הבא מוצג מודל של מסווג שמפרידה בין סיווגים חיוביים (אליפסות ירוקות) למחלקות שליליות (מלבנים סגולים) בצורה מושלמת. המודל המושלם מבחינה לא מציאותית AUC של 1.0:

ציר מספרים עם 8 דוגמאות חיוביות בצד אחד
9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מסווג שיצרנו תוצאות אקראיות. מודל AUC של מודל זה הוא 0.5:

ציר מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא חיובי, שלילי,
חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי
שלילי, חיובי, שלילי.

כן, מספר AUC של המודל הקודם הוא 0.5 ולא 0.0.

רוב המודלים נמצאים במקום כלשהו בין שתי הקיצוניות האלה. לדוגמה, את המודל הבא מפריד במידה מסוימת בין חיוביים שליליים, יש מספר AUC בין 0.5 ל-1.0:

ציר מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי
חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי,
חיובית.

AUC מתעלם מכל ערך שהגדרת עבורו סף הסיווג. במקום זאת, AUC המערכת מביאה בחשבון את כל ערכי הסף האפשריים לסיווג.

ניתן ללחוץ על הסמל כדי לקבל מידע על הקשר בין עקומות AUC ו-ROC.

AUC מייצג את האזור תחת עקומת ROC. לדוגמה, את עקומת ה-ROC עבור מודל שמפריד באופן מושלם בין תוצאות חיוביות שליליים נראים כך:

AUC הוא האזור של האזור האפור באיור הקודם. במקרה חריג זה, האזור הוא פשוט אורך האזור האפור (1.0) כפול רוחב האזור האפור (1.0). כלומר, המוצר של 1.0 ו-1.0 מניב AUC של בדיוק 1.0, וזה הסכום הגבוה ביותר האפשרי דירוג AUC.

לעומת זאת, עקומת ROC עבור מסַווג שלא יכול להפריד בין מחלקות הוא בעצם. השטח של האזור האפור הזה הוא 0.5.

עקומת ROC טיפוסית יותר נראית בערך כך:

יהיה קשה לחשב את השטח מתחת לעקומה הזו באופן ידני, וזו הסיבה לכך שתוכנה בדרך כלל מחשבת את רוב ערכי ה-AUC.

אפשר ללחוץ על הסמל כדי לעיין בהגדרה רשמית יותר של AUC.

AUC הוא ההסתברות שהסיווג יהיה בטוח יותר הדוגמה החיובית שנבחרה באופן אקראי היא למעשה חיובית. הדוגמה השלילית שנבחרה באופן אקראי היא חיובית.

מציאות רבודה

#image

טכנולוגיה שמחליפה תמונה ממוחשבת מנקודת המבט של המשתמש את העולם האמיתי, וכך מספקת תצוגה מורכבת.

מקודד אוטומטי

#language

#image

מערכת שלומדת לחלץ את המידע החשוב ביותר מהקלט. מקודדים אוטומטיים הם שילוב של מקודד מפענח. מקודדים אוטומטיים מסתמכים על התהליך הבא שכולל שני שלבים:

המקודד ממפה את הקלט לפורמט דו-ממדי נמוך יותר (בדרך כלל) (בינוני).
המפענח בונה גרסת איבוד נתונים של הקלט המקורי על ידי מיפוי מהפורמט של ממדים נמוכים יותר לפורמט המקורי עם ממדים גבוהים יותר בפורמט הקלט.

המקודדים האוטומטיים מאומנים מקצה לקצה כי המפענח מנסה לעשות לשחזר את הקלט המקורי מפורמט הביניים של המקודד ככל האפשר. כי פורמט הביניים קטן יותר (בממד נמוך יותר) מהפורמט המקורי, המקודד האוטומטי מאולץ ללמוד איזה מידע בקלט הוא חיוני, והפלט יהיה זהה לחלוטין לקלט.

לדוגמה:

אם נתוני הקלט הם גרפיים, העותק הלא מדויק יהיה דומה ל- את הגרפיקה המקורית, אבל שונתה במידה מסוימת. אולי עותק לא מדויק מסיר את הרעש מהגרפיקה המקורית או ממלא את חסרים כמה פיקסלים.
אם נתוני הקלט הם טקסט, מקודד אוטומטי ייצור טקסט חדש שמחקה (אבל לא זהה) לטקסט המקורי.

מידע נוסף זמין גם במאמר מקודדים אוטומטיים משתנים.

הטייה אוטומטית

#fairness

כשמקבל החלטות אנושי נותן עדיפות להמלצות שניתנו על ידי מערכת לקבלת החלטות על סמך מידע שמתקבל ללא אוטומציה, כשמערכת קבלת ההחלטות האוטומטית טועה.

AutoML

כל תהליך אוטומטי לפיתוח למידת מכונה מודלים. AutoML יכול לבצע משימות כמו:

מחפשים את המודל המתאים ביותר.
כוונון היפר-פרמטרים.
הכנת נתונים (כולל נתוני ביצועים הנדסת תכונות).
פורסים את המודל שנוצר.

AutoML הוא שימושי למדעני נתונים מפני שהוא יכול לחסוך להם זמן מאמצים בפיתוח צינורות עיבוד נתונים ללמידת מכונה ושיפור החיזוי מדויקות. והיא שימושית גם למי שאינם מומחים משימות של למידת מכונה שיהיו נגישות יותר.

מודל רגרסיבי אוטומטי

#language

#image

#generativeAI

מודל שמסיק חיזוי על סמך הנתונים הקודמים שלו ויצירת חיזויים. לדוגמה, מודלים רגרסיביים של שפה חוזים האסימון על סמך האסימונים שצפויים בעבר. כל המודלים שמבוססים על טרנספורמרים מודלים גדולים של שפה (LLM) הם רגרסיביים אוטומטית.

לעומת זאת, מודלים של תמונה מבוססי GAN בדרך כלל לא רגרסיביים אוטומטית. כי הם יוצרים תמונה במעבר אחד ולא באופן איטרטיבי לבצע מיליון שלבים. עם זאת, חלק מהמודלים ליצירת תמונות הם רגרסיביים אוטומטית כי הם יוצרים תמונה בשלבים.

אובדן עזר

פונקציית אובדן – משמשת בשילוב עם הראשי של רשת נוירונים של פונקציית האובדן – שעוזרת להאיץ את האימון במהלך איטרציות מוקדמות יותר כאשר המשקולות מאותחלות באקראי.

פונקציות אובדן עזר דוחפות הדרגתיות יעילות לשכבות המוקדמות יותר. כך אפשר איחוד במהלך האימון על ידי מאבק בבעיית ההדרגתיות הנעלמת.

דיוק ממוצע

מדד לסיכום הביצועים של רצף תוצאות מדורגת. הדיוק הממוצע מחושב לפי הממוצע של precision לכל תוצאה רלוונטית (כל תוצאה של הרשימה המדורגת שבה הריקול עולה ביחס לתוצאה הקודמת).

ראו גם שטח מתחת לעקומת ה-PR.

תנאי יישור לציר

#df

בעץ החלטות, יוצרים תנאי שכולל רק תכונה אחת. לדוגמה, אם שטח היא תכונה, והתנאי הבא הוא יישור לציר:

area > 200

השוו בין מצב משופע.

B

הפצה לאחור

#fundamentals

האלגוריתם שמיישם ירידה הדרגתית ב- רשתות נוירונים.

אימון של רשת נוירונים כולל איטרציות רבות במחזור של שני המעברים:

במהלך ההעברה קדימה, המערכת מעבדת אצווה של דוגמאות ליצירת חיזויים. המערכת משווה בין שני הערכים חיזוי לכל ערך של תווית. ההבדל בין החיזוי וערך התווית הוא לוס בדוגמה. המערכת צוברת את ההפסדים עבור כל הדוגמאות כדי לחשב את הסכום הכולל באצווה הנוכחית.
במהלך המעבר לאחור (ההפצה לאחור), המערכת מפחיתה את האובדן בשיעור של לשנות את המשקולות של כל הנוירונים שכבות מוסתרות.

רשתות נוירונים מכילות בדרך כלל נוירונים רבים בשכבות נסתרות רבות. כל אחד מהנוירונים האלה תורם לאובדן הכולל בדרכים שונות. הפצה לאחור קובעת אם להגדיל או להקטין את המשקולות שחל על נוירונים מסוימים.

קצב הלמידה הוא מכפיל ששולט התדירות שבה כל מעבר אחורה עולה או יורד כל משקל. קצב למידה גבוה יגדיל או יקטין כל משקל יותר מ- קצב למידה נמוך.

במונחי החשבון, ההפצה לאחור מטמיעה את כלל שרשרת. מהחשבון. כלומר, ההפצה לאחור מחשבת את נגזרת חלקית של השגיאה עם ביחס לכל פרמטר.

לפני שנים רבות, בעלי מקצוע בתחום למידת מכונה היו צריכים לכתוב קוד כדי להטמיע הפצה לאחור. ממשקי API מודרניים של למידת מכונה כמו TensorFlow מיישמים עכשיו הפצה לאחור. סוף סוף!

כבודה

#df

שיטה לאימון של מערך שבו כל מאמן מודל אחד על קבוצת משנה אקראית של אימון דוגמאות נדגם עם החלפה. לדוגמה, יער אקראי הוא אוסף של עצי החלטה שאומנו עם כבודה.

המונח תיק נשיאה הוא קיצור של bootstrap agging.

שק מילים

#language

ייצוג של המילים בביטוי או בקטע, ללא קשר לסדר שבו הם מופיעים. לדוגמה, 'שק מילים' מייצג את הבאים באופן זהה:

הכלב קופץ
מקפץ את הכלב
כלב קופץ

כל מילה ממופה לאינדקס בוקטור דליל, שבו לווקטור יש אינדקס לכל מילה באוצר המילים. לדוגמה, הביטוי הכלב קופץ ממופה לווקטור מאפיין, שהוא לא אפס בשלושת האינדקסים שתואמים למילים the , dog דילוגים. הערך שאינו אפס יכול להיות כל אחת מהאפשרויות הבאות:

A 1 כדי לציין נוכחות של מילה.
ספירה של מספר הפעמים שמילה מופיעה בתיק. לדוגמה, אם הביטוי היה "כלב חום" הוא כלב עם פרווה חום ערמוני, אז שניהם חום ערמוני וכלב מיוצגים בתור 2, בעוד שהמילים האחרות צריך להיות מיוצג בתור 1.
ערך אחר כלשהו, כגון הלוגריתם של מספר פעם שמילה מופיעה בתיק.

ערך הבסיס

מודל שמשמש כנקודת השוואה להשוואה בין (בדרך כלל, מודל מורכב יותר). לדוגמה, מודל רגרסיה לוגי יכול לשמש ערך בסיס טוב למודל עומק.

ביחס לבעיה מסוימת, הבסיס עוזר למפתחי המודלים לכמת רמת הביצועים המינימלית הצפויה שמודל חדש צריך להשיג שימושי.

אצווה

#fundamentals

סט של דוגמאות לאימון אחד איטרציה. גודל האצווה קובע את מספר הדוגמאות אצווה.

בקטע תקופת זמן לקביעת נושאים יש הסבר על האופן שבו קבוצה מסוימת קשורה תקופה של זמן מערכת.

הסקת מסקנות באצווה

#TensorFlow

#GoogleCloud

תהליך הסקת של חיזויים על מספר חיזויים דוגמאות ללא תוויות מחולקות לקטנים יותר קבוצות משנה ("אצווה").

הסקת מסקנות בכמות גדולה יכולה לנצל את תכונות המקבילות של צ'יפים של מאיץ. כלומר, יש מספר מאיצים יכול להסיק בו-זמנית תחזיות על קבוצות שונות של דוגמאות, שמגדילה משמעותית את מספר ההסקות לשנייה.

נירמול בכמות גדולה

נרמול של הקלט או הפלט פונקציות הפעלה שכבה מוסתרת. נירמול בכמות גדולה יכול מספק את היתרונות הבאים:

שיפור היציבות של רשתות נוירונים בעזרת הגנה לעומת משקולות חריגות.
להפעיל קצבי למידה גבוהים יותר, כדי: באימון מהירות.
מפחיתים את האפשרות התאמה יתר.

גודל אצווה

#fundamentals

מספר הדוגמאות באצווה. לדוגמה, אם גודל המקבץ הוא 100, המודל יעבד 100 דוגמאות לכל איטרציה.

אסטרטגיות נפוצות לגודל אצווה הן:

Stochastic Gradient Descent (SGD), שבו גודל הקבוצה הוא 1.
אצווה מלאה, שבה גודל הקבוצה הוא מספר הדוגמאות כולה הוגדר אימון. למשל, אם האימון הוגדר מכיל מיליון דוגמאות, הגודל של קבוצת הקבצים הוא מיליון דוגמאות. אצווה מלאה היא בדרך כלל אסטרטגיה לא יעילה.
מיני-אצווה שבו גודל הקבוצה הוא בדרך כלל בין 10 ו-1000. בדרך כלל, השיטה היעילה ביותר היא הצגת מיני-אצווה.

רשת נוירונים בייסיאנית

רשת נוירונים הסתברותית שתומכת ואי-ודאות במשקולות ובפלט. רשת נוירונים רגילה מודל רגרסיה בדרך כלל מחזית ערך סקלרי. לדוגמה, מודל סטנדרטי חוזה את מחיר הבית. של 853,000. לעומת זאת, רשת נוירונים בייסיאנית חוזה התפלגות של ערכים; לדוגמה, מודל בייסיאני חוזה מחיר בית של 853,000 סטיית תקן של 67,200.

רשת נוירונים בייסיאנית מסתמכת בייס משפט כדי לחשב אי-ודאות במשקולות ותחזיות. נוירונים בייסיאניים לרשת המדיה יכולה להיות שימושית כשחשוב לכמת את אי-הוודאות, למשל שקשורים לתרופות. גם רשתות נוירונים בייסיאניות יכולות לעזור למנוע התאמה יתר.

אופטימיזציה בייסיאנית

מודל רגרסיה הסתברותית לאופטימיזציה של החישובים, פונקציות יעד באמצעות אופטימיזציה של אובייקט חלופי שמכמת את אי-הוודאות באמצעות שיטת למידה בייסיאנית. מאז אופטימיזציה בייסיאנית היא כשלעצמה יקרה מאוד, והיא בדרך כלל משמשת לאופטימיזציה משימות ש'יקרות להערכה' ומכילות מספר קטן של פרמטרים, כמו בחירה של היפר-פרמטרים.

משוואת בלמן

#rl

בלמידת חיזוק, הזהות הבאה מתקנת את Q-function:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

האלגוריתמים של למידת חיזוק מיישמים את הכלל הזה כדי ליצור Q-learning באמצעות כלל העדכון הבא:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

מעבר ללמידת החיזוק, למשוואת בלמן יש יישומים תכנות דינמי. לצפייה ערך ויקיפדיה על משוואת Bellman.

BERT (מקודד דו-כיווני ייצוגים מטרנספורמרים)

#language

ארכיטקטורה של מודלים למצג שווא של טקסט. אמנת מודל BERT יכול לשמש כחלק ממודל גדול יותר לסיווג טקסט, למשימות אחרות של למידת מכונה.

ל-BERT יש את המאפיינים הבאים:

משתמש בארכיטקטורה של טרנספורמר, ולכן הוא מסתמך על קשב עצמי.
משתמש בחלק המקודד של הטרנספורמר. התפקיד של המקודד היא ליצור ייצוגים טובים של טקסט, במקום לבצע תיאור ספציפי כמו סיווג.
היא דו-כיוונית.
נעשה שימוש באנונימיזציה לצורך הדרכה בלתי מונחית.

הווריאציות של BERT כוללות:

ALBERT, שהם ראשי תיבות של A Light BERT.
LaBSE

ראו Open Sourcing BERT: State-of-the-Art-training for Natural Language בעיבוד לסקירה כללית של BERT.

הטיה (אתיקה/הוגנות)

#fairness

#fundamentals

1. סטריאוטיפים, דעות קדומות או העדפה כלפי דברים מסוימים, אנשים או קבוצות על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים פירוש הנתונים, המבנה של מערכת והאינטראקציה בין המשתמשים עם מערכת. דוגמאות לסוגים כאלה של הטיה:

הטיית אוטומציה
הטיית אישור
ההטיה של הבודק
הטיה בשיוך קבוצתי
הטיה מרומזת
הטיה בתוך הקבוצה
הטיה והומוגניות של קבוצה מחוץ לקבוצה

2. שגיאה מערכתית שנוצרה באמצעות דגימה או תהליך דיווח. דוגמאות לסוגים כאלה של הטיה:

הטיה בכיסוי
הטיות ללא תגובה
הטיית השתתפות
הטיה בדיווח
הטיות דגימה
הטיה בבחירה

להבדיל בין מונח ההטיה במודלים של למידת מכונה, או הטיה בחיזוי.

מונח של הטיה (מתמטיקה) או הטיה

#fundamentals

יירוט או היסט ממקור. הטיה היא פרמטר ב- של למידת מכונה, שמסמל אחד הבאים:

ב
w₀

לדוגמה, ההטיה היא הערך b בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

בקו דו-ממדי פשוט, ההטיה פירושה "חיתוך y". לדוגמה, ההטיה של הקו באיור הבא היא 2.

תרשים קו עם שיפוע 0.5 והטיה (חיתוך y) של 2.

קיימת הטיה כי לא כל המודלים מתחילים מהמקור (0,0). לדוגמה, נניח שלפארק שעשועים עולה שני אירו לכניסה, ועוד 0.5 אירו לכל שעה שבה לקוח נשאר. לכן, מודל שממפה את העלות הכוללת בהטיה 2 כי העלות הנמוכה ביותר היא 2 אירו.

חשוב להבדיל בין דעות קדומות לבין הטיה והגינות. או הטיה בחיזוי.

דו-כיווני

#language

מונח שמשמש לתיאור מערכת שמעריכה את הטקסט שגם מקדים ועוקבת אחרי קטע היעד בטקסט. לעומת זאת, מערכת חד-כיוונית בלבד הפונקציה מחזירה את הטקסט שמקדם את קטע היעד בטקסט.

לדוגמה, נניח שיש לכם מודל התממת שפה (MLM) חייב לקבוע את ההסתברויות למילה או למילים המייצגות את קו תחתון השאלה הבאה:

מה זה _____ איתך?

מודל שפה חד-כיווני צריך לבסס רק את ההסתברויות שלו בהקשר שמספק המילים "מה", "הוא" ו"ה". לעומת זאת, מודל שפה דו-כיווני יכול גם לקבל הקשר מ-"with". ו'את/ה', מה שעשוי לעזור למודל ליצור חיזויים טובים יותר.

מודל שפה דו-כיווני

#language

מודל שפה שקובע את ההסתברות נתון שנמצא במיקום מסוים בקטע של טקסט המבוסס על את הטקסט הקודם והעוקב.

Bigram

#seq

#language

N-gram שבו N=2.

סיווג בינארי

#fundamentals

סוג של משימת סיווג חוזה אחד משני סיווגים בלעדיים:

המחלקה החיובית
המחלקה השלילית

לדוגמה, שני המודלים הבאים של למידת מכונה מבצעים כל אחד סיווג בינארי:

מודל שקובע אם הודעות אימייל spam (הסיווג החיובי) או לא ספאם (הסיווג השלילי).
מודל שמעריך תסמינים רפואיים כדי לקבוע אם אדם הוא מחלה מסוימת (הסיווג החיובי) או שאין לו מחלה (הסיווג השלילי).

ניגוד לסיווג מרובה-מחלקות.

כדאי לעיין גם ברגרסיה לוגית, סף הסיווג.

תנאי בינארי

#df

בעץ החלטות, יוצרים תנאי יש לה רק שתי תוצאות אפשריות, בדרך כלל כן או לא. לדוגמה, התנאי הבא הוא תנאי בינארי:

temperature >= 100

השוו בין תנאי לא בינארי.

binning

מילה נרדפת ליצירת קטגוריות.

BLEU (Bilingual Evaluation Substudy)

#language

ציון בין 0.0 ל-1.0, כולל, שמעיד על איכות התרגום בין שתי שפות אנושיות (לדוגמה, בין אנגלית לרוסית). BLEU ציון של 1.0 מצביע על תרגום מושלם. דירוג BLEU 0.0 מציין תרגום גרוע.

הגדלת

טכניקה של למידת מכונה שמשלבת באופן חזרתי קבוצה של מסווגים לא מדויקים מאוד (שנקראים 'מסווגים' חלשים) מסווג ברמת דיוק גבוהה (מסווג 'חזק') לפי שקלול הדוגמאות שהמודל כרגע וסיווג שגוי.

תיבה תוחמת (bounding box)

#image

בתמונה, הקואורדינטות (x, y) של מלבן סביב שטח של על תחום העניין, כמו הכלב בתמונה למטה.

תמונה של כלב יושב על ספה. תיבה תוחמת ירוקה
עם קואורדינטות שמאל למעלה של (275, 1271) וימין למטה
של (2954, 2761) שמקיפים את גופו של הכלב

שידור

הרחבת הצורה של אופרנד בפעולה מתמטית של מטריצה מאפיינים שתואמים לפעולה הזו. לדוגמה, באלגברה לינארית נדרשת שתי האופרנדות בפעולת חיבור במטריצה חייבים להיות באותם מימדים. לכן לא ניתן להוסיף מטריצה של צורה (m, n) לווקטור באורך n. שידור מאפשר את הפעולה הזו על ידי הרחבה וירטואלית של הווקטור של האורך n למטריצה של צורה (m, n) ב- לשכפל את אותם הערכים במורד כל עמודה.

לדוגמה, בהינתן ההגדרות הבאות, אלגברה לינארית אוסרת א+ב כי ל-א' ולב' יש מאפיינים שונים:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

עם זאת, השידור מאפשר את הפעולה A+B על ידי הרחבה וירטואלית של B אל:

 [[2, 2, 2],
  [2, 2, 2]]

לכן, A+B הוא עכשיו פעולה תקינה:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

התיאור הבא של לפרטים נוספים, שידור ב-NumPy.

יצירת קטגוריות

#fundamentals

המרת תכונה יחידה למספר תכונות בינאריות שנקראים קטגוריות או bins, בדרך כלל על סמך טווח ערכים. התמונה שנחתכה היא בדרך כלל תכונה רציפה.

לדוגמה, במקום לייצג טמפרטורה כמדד אחד נקודה צפה (floating-point), אפשר לקצץ טווחי טמפרטורות לקטגוריות נפרדות, כמו:

<= 10 מעלות צלזיוס יהיה "קר" בקטגוריה שלכם.
11-24 מעלות צלזיוס הוא ה"ממוזג" בקטגוריה שלכם.
>= 25 מעלות צלזיוס יהיה "חם" בקטגוריה שלכם.

המודל יתייחס לכל ערך באותה קטגוריה באופן זהה. עבור לדוגמה, הערכים 13 ו-22 נמצאים שניהם בקטגוריה הממוזגת, כך שהערכים מתייחס לשני הערכים באופן זהה.

לוחצים על הסמל כדי להציג הערות נוספות.

אם מייצגים טמפרטורה כתכונה רציפה, אז המודל מתייחסת לטמפרטורה כתכונה אחת. אם אתם מייצגים טמפרטורה כשלוש קטגוריות, המודל מתייחס לכל קטגוריה כמאפיין נפרד. כלומר, המודל יכול ללמוד קשרים נפרדים בין כל קטגוריה label. לדוגמה, המודל רגרסיה ליניארית יכול ללמוד משקולות נפרדות לכל קטגוריה.

הגדלת מספר הקטגוריות גורמת למורכבות המודל להגדיל את מספר הקשרים שהמודל שלכם צריך ללמוד. לדוגמה, הקטגוריות הקור, הממוזגות והחמימות הן למעשה של המודל צריך להתאמן על שלוש תכונות נפרדות. אם תחליט להוסיף עוד שתי קטגוריות--למשל, הקפאה וחמה--המודל שלך צריכים לאמן את המודל חמש תכונות נפרדות.

איך אפשר לדעת כמה קטגוריות ליצור, או מה הטווחים של כל קטגוריה הקטגוריה צריכה להיות? התשובות בדרך כלל דורשות כמות גדולה של לבצע במהירות ניסויים שונים.

C

שכבת כיול

התאמה לאחר חיזוי, בדרך כלל שמביאה בחשבון הטיה של חיזוי. התחזיות המותאמות וגם ההסתברויות צריכות להתאים להתפלגות של קבוצת תוויות שנמדדה.

יצירת מועמדים

#recsystems

הקבוצה הראשונית של ההמלצות שנבחרו על ידי מערכת ההמלצות. לדוגמה, כדאי לקחת בחשבון חנות ספרים שמציעה 100,000 כותרים. שלב יצירת המועמדים רשימה קטנה הרבה יותר של ספרים שמתאימים למשתמש מסוים, למשל 500. אבל אפילו המספר של 500 ספרים גדול מדי ואי אפשר להמליץ עליו למשתמש. הבאות, יקרות יותר, בשלבים השונים במערכת המלצות (כמו ניקוד דירוג מחדש) מפחיתים את הערכים של 500 הערכים האלה להקטנה משמעותית יותר, הצגת המלצות מועילות יותר.

דגימות של מועמדים

אופטימיזציה בזמן אימון, שמחשבת הסתברות לכל חיוביות, באמצעות תוויות softmax, אבל רק במקרה מדגם של תוויות שליליות. למשל, בדוגמה עם התווית ביגל וכלב, דגימות אפשריות מחשבת את ההסתברויות החזויות ותנאי הפסדים תואמים עבור:

ביגל
כלב
תת-קבוצה אקראית של המחלקות השליליות הנותרות (לדוגמה, cat, סוכרייה על מקל, גדר).

הרעיון הוא כיתות שליליות יכולות ללמוד מתדירות נמוכה יותר חוזק שלילי כל עוד כיתות חיוביות תמיד מקבלות ערך חיובי חזקת יותר, וזה בהחלט ניכר בצורה אמפירית.

דגימת מועמדים יעילה יותר מבחינה חישובית מאשר אלגוריתמים לאימון לחישוב חיזויים עבור כל הסוגים השליליים, במיוחד כאשר מספר המחלקות השליליות גדול מאוד.

נתונים קטגוריים

#fundamentals

לתכונות עם קבוצה ספציפית של ערכים אפשריים. לדוגמה, נחשוב על תכונה קטגורית בשם traffic-light-state, שיכולה רק מכיל אחד משלושת הערכים האפשריים הבאים:

red
yellow
green

על ידי ייצוג של traffic-light-state כתכונה קטגורית, מודל יכול ללמוד השפעות שונות של red, green ו-yellow על התנהגות הנהגים.

לפעמים תכונות קטגוריות נקראות תכונות נפרדות.

השוו בין נתונים מספריים.

מודל שפה סיבתית

#language

מילה נרדפת למודל שפה חד-כיווני.

אפשר לעיין במודל שפה דו-כיווני כדי להבדיל בין גישות כיווניות שונות בבניית מודלים של שפות.

מרכז

#clustering

מרכז האשכול כפי שנקבע באמצעות k- או אלגוריתם k-median. לדוגמה, אם k הוא 3, כלומר, האלגוריתם k-median או האלגוריתם k-median מוצא 3 מרכזים.

גיבוש דפי אינטרנט לאשכולות לפי מרכז

#clustering

קטגוריה של אלגוריתמים של קיבוץ לאשכולות שמארגנים נתונים לאשכולות לא היררכיים. k-means הוא הנפוץ ביותר להשתמש באלגוריתם קיבוץ המבוסס על צנטרואיד.

ניגודיות לאשכולות היררכיים אלגוריתמים.

הנחיות בטכניקת שרשרת מחשבה

#language

#generativeAI

שיטה של הנדסת הנחיות שמעודדת מודל שפה גדול (LLM) שיסביר את את הסבירות, שלב אחר שלב. לדוגמה, נבחן את ההנחיה הבאה, שימו לב במיוחד למשפט השני:

כמה כוחות ג'י ירגישו הנהג במכונית מ-0 עד 60 מיילים בשעה ב-7 שניות? בתשובה, מציגים את כל החישובים הרלוונטיים.

סביר להניח שהתשובה של ה-LLM:

הצגת רצף של נוסחאות בפיזיקה, שמחברים את הערכים 0, 60 ו-7 במקומות המתאימים.
הסבירו למה בחרו בה את הנוסחאות האלה ומה המשמעות של המשתנים השונים.

הנחיות בטכניקת שרשרת מחשבה מאלצות את ה-LLM לבצע את כל החישובים, מה שעלול להוביל לתשובה נכונה יותר. בנוסף, שרשרת מחשבה הנחיה עם תשובה מאפשרת למשתמש לבחון את השלבים של ה-LLM כדי לקבוע או שהתשובה לא הגיונית.

צ'אט, צ'ט, צאט, צט

#language

#generativeAI

לתוכן של שיח בין שתי פעימות עם מערכת למידת מכונה, בדרך כלל מודל שפה גדול (LLM). האינטראקציה הקודמת בצ'אט (מה הקלדתם ואיך מודל השפה הגדול (LLM) הגיב) הופך ל- את ההקשר לחלקים הבאים של הצ'אט.

chatbot הוא אפליקציה של מודל שפה גדול (LLM).

נקודת ביקורת

נתונים שמתעדים את מצב הפרמטרים של המודל ספציפית איטרציה של אימון. נקודות ביקורת מאפשרות ייצוא המודל משקולות, או ביצוע אימון במספר סשנים. נקודות ביקורת גם לאפשר אימון להמשך של שגיאות מהעבר (לדוגמה, ביטול משרה).

במהלך כוונון עדין, נקודת ההתחלה של האימון של המודל החדש יהיה של מודל שעבר אימון מראש.

מחלקה

#fundamentals

קטגוריה שאליה תווית יכולה להשתייך. לדוגמה:

במודל סיווג בינארי שמזהה ספאם, שני הסוגים עשויים להיות ספאם ולא ספאם.
במודל סיווג רב-מחלקות שמשמש לזיהוי גזעים של כלבים, הסוגים יכולים להיות פודל, ביגל, פאג, וכן הלאה.

מודל סיווג יוצר חיזוי של מחלקה. לעומת זאת, מודל רגרסיה חוזה מספר ולא כיתה.

מודל סיווג.

#fundamentals

מודל שהחיזוי שלו הוא מחלקה. לדוגמה, המודלים הבאים הם מודלים של סיווג:

מודל שחוזה את השפה של משפט קלט (צרפתית? ספרדית? איטלקית?).
מודל שחוזה את זני העצים (מייפל? אלון? באובב?).
מודל לחיזוי המחלקה החיובית או השלילית של שיעור מסוים מצב רפואי.

לעומת זאת, מודלים של רגרסיה חוזים מספרים ולא סיווגים.

יש שני סוגים נפוצים של מודלים של סיווג:

סיווג בינארי
סיווג לכמה כיתות

סף סיווג (classification threshold)

#fundamentals

בסיווג בינארי, מספר בין 0 ל-1 שממיר את הפלט הגולמי של מודל רגרסיה לוגיסטית לחיזוי של המחלקה החיובית או המחלקה השלילית. שימו לב שסף הסיווג הוא ערך שהאדם בוחר. לא ערך שנבחר באמצעות אימון מודלים.

מודל רגרסיה לוגיסטי יוצר ערך גולמי בין 0 ל-1. לאחר מכן:

אם הערך הגולמי הזה גבוה מסף הסיווג, החיזוי של המחלקה החיובית.
אם הערך הגולמי הזה נמוך מסף הסיווג, את המחלקה השלילית.

לדוגמה, נניח שסף הסיווג הוא 0.8. אם הערך הגולמי הוא 0.9, אז המודל חוזה את המחלקה החיובית. אם הערך הגולמי הוא 0.7, אז המודל חוזה את המחלקה השלילית.

בחירת סף הסיווג משפיעה באופן משמעותי על מספר תוצאות חיוביות מוטעות וגם מילות מפתח שליליות שגויות.

לוחצים על הסמל כדי להציג הערות נוספות.

ככל שמודלים או מערכי נתונים מתפתחים, לפעמים המהנדסים משנים גם סף הסיווג. כשסף הסיווג משתנה, תחזיות כיתתיות חיוביות יכולות להפוך לפתאומיות לסיווגים שליליים ולהיפך.

לדוגמה, נבחן מודל לחיזוי מחלות בסיווג בינארי. נניח שכאשר המערכת פועלת בשנה הראשונה:

הערך הגולמי של מטופל מסוים הוא 0.95.
סף הסיווג הוא 0.94.

לכן, המערכת מאבחןת את הסיווג החיובי. (המטופלים נשימה כבדה, "אוי לא! אני חולה!")

לאחר שנה, ייתכן שהערכים נראים כך:

הערך הגולמי של אותו מטופל נשאר 0.95.
סף הסיווג משתנה ל-0.97.

לכן, המערכת מסווגת מחדש את המטופל כמחלקה שלילית. (יום שמח! אני לא חולה"). אותו מטופל. אבחנה שונה.

מערך נתונים עם איזון בכיתה

#fundamentals

מערך נתונים של בעיית סיווג שבה המספר הכולל של התוויות בכל כיתה שונים באופן משמעותי. לדוגמה, נבחן מערך נתונים של סיווג בינארי ששתי תוויות שלו. מחולקות באופן הבא:

1,000,000 תוויות שליליות
10 תוויות חיוביות

היחס בין תוויות שליליות לתוויות חיוביות הוא 100,000 ל-1, הוא מערך נתונים עם איזון בין מחלקות.

לעומת זאת, מערך הנתונים הבא לא מאוזן, כי היחס בין התוויות השליליות לתוויות החיוביות קרוב יחסית ל-1:

517 תוויות שליליות
483 תוויות חיוביות

אפשר גם לאזן בין מערכי נתונים מכמה מחלקות. לדוגמה, גם מערך הנתונים של סיווג מרובה-מחלקות לא מאוזן, מכיוון שתווית אחת יש הרבה יותר דוגמאות מהשניים האחרים:

1,000,000 תוויות עם סיווג "ירוק"
200 תוויות עם סיווג "סגול"
350 תוויות עם סיווג "כתום"

ראו גם אנטרופיה, סיווג רוב, וסיווג מיעוט.

חיתוך

#fundamentals

שיטה לטיפול בחריגים יוצאי דופן באמצעות אחד או יותר משניהם:

הורדת ערכי feature שגדולים מהמקסימום עד לסף המקסימלי הזה.
הגדלת הערכים של התכונות שלא חורגים מהסף המינימלי עד לערך הזה הסף המינימלי.

לדוגמה, נניח ש-<0.5% מהערכים של תכונה מסוימת נופלים מחוץ לטווח של 40-60. במקרה כזה, אפשר לבצע את הפעולות הבאות:

צריך להצמיד את כל הערכים שחורגים מ-60 (הסף המקסימלי) כך שיהיו בדיוק 60.
צריך להצמיד את כל הערכים מתחת ל-40 (הסף המינימלי) כך שיהיו בדיוק 40.

ערכים חריגים חשודי טעות עלולים להזיק למודלים, ולפעמים לגרום למשקולות עד הסוף במהלך האימון. גם חריגים יוצאי דופן עלולים לקלקל משמעותית מדדים כמו דיוק. חיתוך הוא שיטה נפוצה להגבלת את הנזק.

כוחות חיתוך חיתוך (Gradient) ערכי הדרגתיות בטווח ייעודי במהלך האימון.

Cloud TPU

#TensorFlow

#GoogleCloud

מאיץ חומרה מיוחד שנועד להאיץ של עומסי העבודה (workloads) ב-Google Cloud.

קיבוץ לאשכולות

#clustering

דוגמאות קשורות לקיבוץ, במיוחד במהלך למידה בלתי מונחית. אחרי שכל הן מקובצות, וכל אדם יכול לספק משמעות לכל אשכול.

קיימים הרבה אלגוריתמים של קיבוץ. לדוגמה, k-כלומר של אשכולות אלגוריתמים על סמך הקרבה שלהם centroid, כמו בתרשים הבא:

גרף דו-ממדי שבו ציר ה-X מסומן ברוחב העץ,
וציר ה-Y מסומן בתווית גובה עץ. הגרף מכיל
מרכזי נתונים וכמה עשרות נקודות נתונים. נקודות הנתונים הן
מחולקות לקטגוריות לפי הקרבה ביניהן. כלומר, הנקודות על הגרף
הקרוב ביותר למרכז אחד מסווגים כאשכול 1, בעוד
הקרוב ביותר למרכז השני מסווגים כאשכול 2.

לאחר מכן חוקר אנושי יוכל לבדוק את האשכולות, לדוגמה, לסמן את אשכול 1 בתווית "עצים ננסיים" ואת אשכולות 2 כ"עצים בגודל מלא".

דוגמה נוספת: נבחן אלגוריתם של קיבוץ המבוסס על המרחק של הדוגמה מנקודת מרכז, מתואר כך:

עשרות נקודות נתונים מסודרות במעגלים קונצנטריים, כמעט
כמו חורים מסביב למרכז של לוח חיצים. הטבעת הפנימית ביותר
של נקודות הנתונים מסווגות כאשכול 1, הטבעת האמצעית
מסווג כצביר 2, והטבעת החיצונית ביותר היא
אשכול 3.

התאמה משותפת

כאשר נוירונים חוזים דפוסים בנתוני אימון על ידי מסתמכים כמעט רק על פלט של נוירונים ספציפיים אחרים במקום להסתמך התנהגות הרשת באופן כללי. מתי הדפוסים שגורמים להתאמה משותפת לא קיימים בנתוני האימות, וההתאמה המשותפת גורמת להתאמה יתר. הסתגלות לנטישה מפחיתה את ההתאמה המשותפת כי הנשירה מבטיחה נוירונים לא יכולים להסתמך רק על נוירונים ספציפיים אחרים.

סינון שיתופי

#recsystems

חיזויים לגבי תחומי העניין של משתמש מסוים. על סמך תחומי העניין של משתמשים רבים אחרים. סינון משותף משתמשים בו בדרך כלל במערכות המלצות.

סחף קונספט

שינוי בקשר בין תכונות לבין התווית. לאורך זמן, התנודות בקונספט מפחיתות את איכות המודל.

במהלך האימון, המודל לומד את הקשרים בין התכונות את התוויות שלהם בערכת האימון. אם התוויות בערכת האימון הן שרתי proxy טובים בעולם האמיתי, אז המודל צריך ליצור חיזויים מהעולם האמיתי. עם זאת, עקב סחף קונספט כלשהו, וחיזויים נוטים לרדת עם הזמן.

לדוגמה, שימו לב לסיווג בינארי שחוזה אם דגם מסוים של מכונית הוא 'יעיל דלק'. כלומר, התכונות יכולות להיות:

משקל הרכב
דחיסת מנוע
סוג השידור

כשהתווית היא:

חסכוני בדלק
לא חסכוני בדלק

עם זאת, המושג 'מכונית חסכונית בדלק' שומר משתנה. דגם של מכונית שסווג כיעיל בדלק בשנת 1994 היה כמעט בטוח יסווג כלא יעיל בדלק ב-2024. מודל שסובל משחיקה של קונספט נוטה להפיק חיזויים פחות מועילים לאורך זמן.

השוואה וניגוד לללא תחנות.

לוחצים על הסמל כדי להציג הערות נוספות.

כדי לפצות על סחף קונספט, אימון מחדש של המודלים מהיר יותר מהקצב של סחף קונספט כלשהו. לדוגמה, אם סחף קונספט מפחית את דיוק המודל בשיעור של רווח משמעותי מדי חודשיים, ולאחר מכן לאמן מחדש את המודל בתדירות גבוהה יותר מאשר בכל חודשיים.

תנאי

#df

בעץ החלטות, כל צומת מחשבת ביטוי מסוים. לדוגמה, החלק הבא של עץ ההחלטות מכיל שני תנאים:

עץ החלטות שמורכב משני תנאים: (x > 0) ו
(y > 0).

תנאי נקרא גם פיצול או בדיקה.

ניגודיות בין המצב עם עלה.

ראה גם:

תנאי בינארי
תנאי לא בינארי.
תנאי יישור לציר
oblique-condition

קונבולציה

#language

הזיה היא מילה נרדפת.

מונחה הוא כנראה מדויק יותר מבחינה טכנית מאשר הזיה. עם זאת, תגובות לא תואמות נתונים הפכו לפופולריות לפני כולם.

הגדרות אישיות

התהליך של הקצאת ערכי המאפיין הראשוניים שמשמשים לאימון מודל, כולל:

שכבות ההרכבה של המודל
המיקום של הנתונים
היפר-פרמטרים כמו:

בפרויקטים של למידת מכונה, אפשר להגדיר או באמצעות ספריות תצורה כמו:

הטיית אישור

#fairness

הנטייה לחפש, לפרש, להעדיף ולזכור מידע שמאשרת את האמונות הקיימות או ההיפותזה של אדם. מפתחי למידת מכונה עשויים לאסוף או להוסיף תוויות בטעות בדרכים שמשפיעות על התוצאה שתומכת את האמונות שלהם. הטיית אישור היא סוג של הטיה מרומזת.

ההטיה של עורך הניסוי היא סוג של הטיית אישור שבה והניסוי ממשיך לאמן מודלים עד ההשערה אושרה.

מטריצת בלבול

#fundamentals

טבלת NxN שמסכמת את מספר החיזויים הנכונים והשגויים שנוצר במודל סיווג. לדוגמה, נבחן את מטריצת הבלבול הבאה עבור מודל סיווג בינארי:

	גידול (לפי חיזוי)	ללא גידול (לפי חיזוי)
Tumor (ground truth)	18 (TP)	1 (FN)
לא-Tumor (אמת קרקע)	6 (FP)	452 (TN)

מטריצת הבלבול שלמעלה מראה את הדברים הבאים:

מתוך 19 החיזויים שבהם האמת האדמה הייתה Tumor, המודל סיווג את 18 בצורה נכונה וסיווג את 1 באופן שגוי.
מתוך 458 החיזויים שבהם האמת (ground truth) הייתה לא-Tumor, המודל סיווג נכון של 452 וסיווג שגוי של 6.

מטריצת הבלבול לסיווג מרובה-מחלקות יכולה לעזור לכם לזהות דפוסים של טעויות. לדוגמה, נבחן את מטריצת הבלבול הבאה עבור סולם של 3 מחלקות. מודל סיווג רב-מחלקות שמסווג שלושה סוגים שונים של קשתית העין (וירג'יניה, ורזיקול וסטוסה). כשהאמת הבסיסית הייתה וירג'יניה, מטריצת הבלבול מראה שלמודל היה הרבה יותר סיכויים בטעות חוזים 'Versicolor' מאשר 'Setosa':

	סטוסה (לפי התחזית)	דרגת מלל (צפוי)	וירג'יניה (לפי החיזוי)
Setosa (ground truth)	88	12	0
Versicolor (ground truth)	6	141	7
וירג'יניה (האמת היבשתית)	2	27	109

דוגמה נוספת, מטריצת בלבול יכולה לחשוף שמודל מאומן זיהוי ספרות בכתב יד נוטה לחזות בטעות 9 במקום 4, או לחזות בטעות את הערך 1 ולא את 7.

מטריצות בלבול מכילות מספיק מידע כדי לחשב מגוון מדדי ביצועים, כולל דיוק ו-recall.

ניתוח של מחוז בחירה

#language

פיצול משפט למבנים דקדוקיים קטנים יותר ('מרכיבים'). חלק מאוחר יותר במערכת למידת המכונה, כמו של הבנת שפה טבעית, יכול לנתח את המרכיבים בקלות רבה יותר מאשר המשפט המקורי. לדוגמה, נבחן את המשפט הבא:

חבר שלי אימץ שני חתולים.

מנתח של מחוז בחירה יכול לחלק את המשפט הזה כך: שני מרכיבים:

חבר שלי הוא ביטוי של שם עצם.
אמץ שני חתולים הוא ביטוי של פועל.

ניתן לחלק את המרכיבים האלה לחלוקות משנה קטנות יותר. לדוגמה, הביטוי של פועל

אימץ שני חתולים

ניתן לחלק אותו לקבוצות משנה:

adopted הוא פועל.
שני חתולים הוא ביטוי נוסף של שם עצם.

הטמעת שפה לפי הקשר

#language

#generativeAI

הטמעה קרובה ל'הבנה' מילים וביטויים באופן שדוברים ילידיים יכולים לראות. שפה לפי הקשר הטמעות יכולות להבין תחביר, סמנטיקה והקשר מורכבים.

לדוגמה, כדאי לשקול הטמעות של המילה באנגלית cow. הטמעות ישנות יותר כמו word2vec יכול לייצג אנגלית מילים כמו המרחק בשטח ההטמעה מפרה לשור דומה למרחק מכבשה (כבשה) ram (כבש זכר) או מנקבה לזכר. שפה לפי הקשר יכולות להשתפר צעד אחד קדימה, בגלל זיהוי שדוברי אנגלית משתמשים במילה פרה ופירושה "פרה" או "שור".

חלון ההקשר

#language

#generativeAI

מספר האסימונים שמודל יכול לעבד הודעה. ככל שחלון ההקשר גדול יותר, כך יש יותר מידע שהמודל יכול להשתמש בהן כדי לספק תשובות עקביות ועקביות להנחיה.

תכונה רציפה

#fundamentals

תכונה עם נקודה צפה (floating-point) עם מגוון אינסופי של אפשרויות ערכים, כמו טמפרטורה או משקל.

ניגודיות עם תכונה נפרדת.

דגימת נוחות [ברבים: דגימות נוחוּת]

שימוש במערך נתונים שלא נאסף באופן מדעי כדי להריץ ניסויים. בשלב מאוחר יותר, חשוב לעבור למודל מדעי שנאסף של הכיתובים.

התכנסות

#fundamentals

מצב שמגיעים אליו כשערכי הפסד משתנים מעט מאוד או לא בכלל בכל איטרציה. לדוגמה, לפי עקומה של הפסד, הצ'אט הוא בערך 700 איטרציות:

עלילה קרטזית. ציר ה-X יאבד. ציר ה-Y הוא מספר האימון
כמה חזרות. האובדן גבוה מאוד במהלך האיטרציות הראשונות, אבל
יורדת חדה. לאחר כ-100 חזרות, האובדן עדיין
בסדר יורד, אבל בהדרגה. לאחר כ-700 חזרות,
האובדן נשאר קבוע.

מודל מתכנס כשאימון נוסף לא מצליח לשפר את המודל.

בלמידה עמוקה, ערכי אובדן לפעמים נשארים קבועים או כמעט כל כך במשך הרבה חזרות לפני שבסופו של דבר יורדות. במהלך תקופה ארוכה של ערכי הפסדים קבועים, יכול להיות שתקבלו באופן זמני תחושה שגויה של התכנסות.

למידע נוסף, כדאי לעיין בקטע עצירה מוקדמת.

פונקציית קמור

פונקציה שבה האזור מעל הגרף של הפונקציה הוא קבוצת קמורות. הפונקציה הקמורה האב טיפוסית צורה של האות U. לדוגמה, הן פונקציות קמורות:

עקומות בצורת U, שלכל אחת מהן יש נקודה מינימלית אחת.

לעומת זאת, הפונקציה הבאה אינה קמורה. שימו לב איך האזור שמעל התרשים אינו קבוצה קמורה:

עקומה בצורת W עם שתי נקודות מינימום מקומיות שונות.

לפונקציה קמורה מחמירה יש בדיוק נקודת מינימום מקומית אחת, הוא גם נקודת המינימום העולמית. הפונקציות הקלאסיות בצורת U פונקציות קמורות מאוד. אבל יש פונקציות קמורות (לדוגמה, קווים ישרים) לא בצורת U.

ניתן ללחוץ על הסמל כדי לקבל מידע מעמיק יותר על המתמטיקה.

הרבה פונקציות הפסד נפוצות, כולל הן פונקציות קמורות:

הפסד L₂
אובדן יומנים
רגולריזציה של L₁
רגולריזציה של L₂

וריאציות רבות של ירידה הדרגתית תמצא נקודה שקרובה למינימום היא קמורה לחלוטין. באופן דומה, וריאציות רבות של לירידה הדרגתית אקראית יש סבירות גבוהה (אבל זו לא הבטחה) למציאת נקודה שקרובה למינימום היא קמורה לחלוטין.

הסכום של שתי פונקציות קמורות (לדוגמה, אובדן ₂ L + הרגולריזציה של L₁) היא פונקציה קמורה.

מודלים עמוקים הם אף פעם לא פונקציות קמורות. למרבה המזל, האלגוריתמים מיועדים באופטימיזציה עבור המרות הן בדרך כלל בכל מקרה, פתרונות טובים למדי ברשתות עמוקות, לא מובטח שפתרונות אלה יהיו ערך מינימום גלובלי.

אופטימיזציה של קמורות

התהליך של השימוש בטכניקות מתמטיות כמו ירידה הדרגתית כדי למצוא הערך המינימלי של פונקציה קמורה. הרבה מחקר בלמידת מכונה התמקד בניסוחים בעיות כמו בעיות אופטימיזציה קמורות ובפתרון הבעיות האלה ביעילות רבה יותר.

לפרטים מלאים, ראו בויד ו-ונדנברג, קמורות אופטימיזציה.

קבוצה קמורה

תת-קבוצה של המרחב האאוקלידי, כך שקו משרטט בין שתי נקודות תת-התחום נותר במלואו בתוך קבוצת המשנה. לדוגמה, שתי ההנחיות הבאות צורות הן קבוצות קמורות:

איור אחד של מלבן. איור נוסף של אליפסה.

לעומת זאת, שתי הצורות הבאות הן לא קבוצות קמורות:

איור אחד של תרשים עוגה שחסרה בו פרוסה.
איור נוסף של פוליגון לא סדיר.

קונבולציה

#image

במתמטיקה, במילים קלילות, שילוב של שתי פונקציות. במכונה למידה חישובית, קונבולציה משלבת את הגישות מסנן ומטריצת הקלט כדי לאמן משקולות.

את המונח "קונבולציה" בלמידת מכונה היא בדרך כלל דרך קצרה שמתייחס לפעולה קונבולוציה או שכבת הקיפול.

ללא קונבולציות, האלגוריתם של למידת המכונה צריך ללמוד משקל נפרד לכל תא בטנזור גדול. לדוגמה, אימון אלגוריתם של למידת מכונה על תמונות בגודל 2K x 2K ייאלץ מוצאים 4 מיליון משקולות נפרדות. הודות לקיפולים (קונבולציות), מודל למידת מכונה הוא צריך למצוא משקולות רק לכל תא מסנן מתקפל, שמפחית משמעותית הזיכרון הדרוש כדי לאמן את המודל. כשמסנן הקונבולוציה הוא הוא פשוט משוכפל בין תאים כך שכל אחד מהם מוכפל על ידי המסנן.

מסנן קונבולוציה

#image

אחד משני השחקנים פעולה מסוכנת. (השחקן השני היא פרוסה ממטריצת קלט). מסנן קונבולוציה הוא מטריצה שיש זהה לדירוג כמו מטריצת הקלט, אבל צורה קטנה יותר. לדוגמה, בהינתן מטריצת קלט של 28x28, המסנן יכול להיות כל מטריצה דו-ממדית קטן מ-28x28.

במניפולציה מצולמת, כל התאים במסנן קונבולוציה בדרך כלל מוגדר לדפוס קבוע של אחת ואפס. בלמידת מכונה, מסננים קונבולוציה הם בדרך כלל מקורות עם מספרים אקראיים, ואז שמאמנת את הערכים האידיאליים.

שכבת קונבולוציה

#image

שכבה של רשת נוירונים עמוקה שבה מסנן קונבולוציה מעביר לאורך קלט במטריצה. לדוגמה, נבחן את המודל 3x3 מסנן קונבולוציה:

מטריצה בגודל 3x3 עם הערכים הבאים: [[0,1,0], [1,0,1], [0,1,0]]

האנימציה הבאה מציגה שכבה קונבולוציה שמורכבת מ-9 פעולות קונבולוציה שכוללות מטריצת הקלט 5x5. שימו לב שבכל אחת פעולה קונבולוציה פועלת על פרוסה אחרת בגודל 3x3 במטריצת הקלט. המטריצה שמתקבלת בגודל 3x3 (בצד ימין) מורכבת מהתוצאות של 9 פעולות קונבולוציה:

אנימציה שמוצגות בה שתי מטריצות. המטריצה הראשונה היא 5x5
מטריצה: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
המטריצה השנייה היא מטריצה בגודל 3x3:
[[181,303,618], [115,338,605], [169,351,560]].
כדי לחשב את המטריצה השנייה, משתמשים
מסנן [[0, 1, 0], [1, 0, 1], [0, 1, 0]] בטווח
קבוצות משנה שונות של 3x3 במטריצה בגודל 5x5.

רשת עצבית מתקפלת

#image

רשת נוירונים שבה לפחות שכבה אחת שכבת הקיפול. נתיב קונבולוציה טיפוסי רשת נוירונים מורכבת משילוב כלשהו של השכבות הבאות:

שכבות מתקפלות
מאגרי שכבות
שכבות צפופות

רשתות נוירונים מלאכותיות השיגו הצלחה רבה בסוגים מסוימים של בעיות, כמו זיהוי תמונה.

פעולה קונבולציה

#image

הפעולה המתמטית הבאה בשני שלבים:

הכפלה מבוססת-היסודות של מסנן מתקפל ופרוסה מטריצת קלט. (לפרוסה של מטריצת הקלט יש דירוג זהה וגם כמסנן קונבולוציה).
סיכום של כל הערכים במטריצת המוצרים שמתקבלת.

לדוגמה, נבחן את מטריצת הקלט הבאה בגודל 5x5:

מטריצת 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

עכשיו נניח את המסנן המסתורי הבא בגודל 2x2:

מטריצה 2x2: [[1, 0], [0, 1]]

כל פעולה קונבולציה כוללת פרוסה יחידה בגודל 2x2 מטריצת קלט. לדוגמה, נניח שאנחנו משתמשים בחלקה בגודל 2x2 בפינה השמאלית העליונה של מטריצת הקלט. כך שפעולת הקונבולוציה מופעלת הפלח הזה נראה כך:

החלת המסנן המתקפל [[1, 0], [0, 1]] לפינה הימנית העליונה
הקטע 2x2 במטריצת הקלט, שהוא [[128,97], [35,22]].
הפילטר המורכב משאיר את 128 ו-22 ללא שינוי, אבל אפסים
את 97 ו-35. לכן פעולת הקונבולוציה מניבה
הערך 150 (128+22).

שכבה מתקפלת מורכבת סדרה של פעולות קונבולוציה, שכל אחת מהן פועלת לפלח אחר של מטריצת הקלט.

עלות

מילה נרדפת להפסד.

אימון משותף

גישה של למידה מונחית למחצה שימושי במיוחד כאשר כל התנאים הבאים מתקיימים:

היחס בין דוגמאות ללא תוויות לבין במערך הנתונים יש דוגמאות מסומנות.
מדובר בבעיית סיווג (בינארית או כמה סיווגים).
מערך הנתונים מכיל שתי קבוצות שונות של תכונות חיזוי שלא תלויות אחת בשנייה ומשלימות.

אימון משותף למעשה מגביר אותות עצמאיים לאות חזק יותר. לדוגמה, נבחן מודל סיווג מסווג רכבים משומשים כטובים או גרועים. קבוצה אחת של תכונות חיזוי עשויות להתמקד במאפיינים נצברים כמו השנה, היצרן והדגם של הרכב. קבוצה אחרת של תכונות חיזוי עשויה להתמקד היסטוריית הנהיגה של הבעלים הקודם והיסטוריית התחזוקה של הרכב.

המאמר העיקרי בנושא אימון משותף הוא שילוב נתונים מתויגים ונתונים לא מתויגים עם אימון משותף של בלום ומיטשל.

הוגנות מנוגדת

#fairness

מדד הוגנות שבודק אם מסווג מניבה את אותה תוצאה לאדם אחד כמו לאדם אחר שזהה לראשון, מלבד ביחס לאחד או יותר מאפיינים רגישים. הערכת סיווג של הוגנות נגדית היא שיטה אחת לגילוי מקורות פוטנציאליים של של ההטיה במודל.

צפייה כאשר עולמות מתנגשים: שילוב עובדות נגדיות שונות הנחות בנוגע להוגנות" לדיון מפורט יותר לגבי עובדות מנוגדות הוגנות.

הטיית הכיסוי

#fairness

מידע נוסף זמין בקטע הטיות בבחירות.

פריחה מקרוסלת

#language

משפט או ביטוי עם משמעות לא ברורה. פריחת הפריחה מהווה בעיה משמעותית בטבע הבנת השפה. לדוגמה, הכותרת Red Tape Holds Up מלבן עומד היא לפריחת התוצאות, מכיוון שמודל NLU יכול לפרש את הכותרת באופן מילולי או באופן בדיוני.

לוחצים על הסמל כדי להציג הערות נוספות.

רק כדי להבהיר את הכותרת המסתורית:

סרט אדום יכול להתייחס לאחת מהאפשרויות הבאות:
- דבק
- בירוקרטיה מוגזמת
המונח Holds Up יכול להתייחס לאחת מהאפשרויות הבאות:
- תמיכה מבנית
- עיכובים

מבקר

#rl

מילה נרדפת ל-Deep Q-Network.

ב-Crossentropy

הכללה של אובדן יומנים על בעיות בסיווג של כמה כיתות. חוצה אנטרופיה מכמת את ההבדל בין שתי התפלגויות הסתברות. עוד באותו הקשר מורכבות.

אימות צולב

מנגנון להערכת מידת ההשפעה של מודל כללי על נתונים חדשים באמצעות בדיקת המודל מול קבוצת משנה אחת או יותר של נתונים שאינן חופפות הוסרו מקבוצת האימון.

פונקציית התפלגות מצטברת (CDF)

פונקציה שמגדירה את התדירות של דגימות קטנה מ- או שווה לו בערך היעד. לדוגמה, נבחן התפלגות נורמלית של ערכים רציפים. לפי CDF, כ-50% מהדגימות צריכות להיות פחות או יותר שווה לממוצע, ושכ-84% מהמדגמים צריכים להיות שווים או פחות מ- לסטיית תקן אחת מעל הממוצע.

D

ניתוח נתונים

קבלת הבנה של נתונים על ידי התחשבות בדגימות, מדידות, והמחשה חזותית. ניתוח נתונים יכול להיות שימושי במיוחד כאשר מערך הנתונים מתקבל לראשונה, לפני שיוצרים את המודל הראשון. הוא חיוני גם בהבנת ניסויים ובניפוי באגים בבעיות במערכת.

הגדלת נתונים

#image

הגדלה מלאכותית של הטווח והמספר דוגמאות לאימון על ידי טרנספורמציה של טרנספורמציה קיימת examples כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחת features, אבל מערך הנתונים לא לכלול מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד שיוכים מועילים. במצב אידיאלי מומלץ להוסיף מספיק תייגו תמונות למערך הנתונים כדי שמאפשרות למודל לאמן כראוי. אם זה לא אפשרי, הרחבת נתונים יכולות לסובב, למתוח ולשקף כל תמונה כדי ליצור וריאנטים רבים של התמונה המקורית, שאולי הניבו מספיק נתונים מתויגים כדי באימון.

DataFrame

#fundamentals

סוג נתונים פופולרי של פנדות לייצוג מערכי נתונים בזיכרון.

DataFrame מקביל לטבלה או לגיליון אלקטרוני. כל עמודה של ל-DataFrame יש שם (כותרת), וכל שורה מזוהה באמצעות מספר ייחודי.

כל עמודה ב-DataFrame בנויה כמו מערך דו-ממדי, מלבד אפשר להקצות לכל עמודה סוג נתונים משלה.

עוד מידע רשמי הפניה ל-pandas.DataFrame .

מקביליות של נתונים

דרך להגדיל את האימון או את הסקת המסקנות שמשכפל מודל שלם מספר מכשירים, ומעבירה קבוצת משנה של נתוני הקלט לכל מכשיר. מקבילות של נתונים יכולה לאפשר אימון והסקת מסקנות גדלים של פריטים מרובים; עם זאת, מקביליות של נתונים דורשת שהמודל יהיה קטן מספיק כדי להתאים לכל המכשירים.

מקביליות של נתונים בדרך כלל מאיצה את האימון וההסקה.

ניתן לעיין גם במודל מקבילה.

מערך נתונים או מערך נתונים

#fundamentals

אוסף של נתונים גולמיים, לרוב (אבל לא רק) שמאורגן בפורמטים הבאים:

גיליון אלקטרוני
קובץ בפורמט CSV (ערכים המופרדים בפסיקים)

Dataset API (tf.data)

#TensorFlow

ממשק API ברמה גבוהה של TensorFlow לקריאת נתונים שיהפכו אותו לצורה שדורשת אלגוריתם של למידת מכונה. אובייקט tf.data.Dataset מייצג רצף של רכיבים, שבו כל רכיב מכיל חיישן אחד או יותר. tf.data.Iterator מספקת גישה לרכיבים של Dataset.

פרטים על Dataset API זמינים בכתובת tf.data: פיתוח צינורות עיבוד נתונים של TensorFlow במדריך למתכנת של TensorFlow.

גבול החלטה

המפריד בין כיתות שנלמדו על ידי מודל מחלקה בינארית או בעיות בסיווג בכמה כיתות. לדוגמה, בתמונה הבאה שמייצגת בעיית סיווג בינארית, גבול ההחלטה הוא הגבול בין המחלקה הכתומה המחלקה הכחולה:

גבול מוגדר היטב בין מחלקה אחת לאחרת.

יער החלטה

#df

מודל שנוצר מכמה עצי החלטות. יער ההחלטות יוצר חיזוי על ידי צבירת החיזויים של עצי ההחלטות שלו. סוגים פופולריים של יערות החלטה: יערות אקראיים ועצים מוגדלים הדרגתיים.

סף לקבלת החלטה

ערך סף לסיווג – מילה נרדפת.

עץ ההחלטות

#df

מודל של למידה מונחית שמורכב מקבוצה תנאים ועלים שמסודרים בהיררכיה. לדוגמה, זהו עץ ההחלטות:

עץ החלטות המורכב מארבעה תנאים
באופן היררכי, שמוביל לחמישה עלים.

מפענח

#language

באופן כללי, כל מערכת למידת מכונה שעוברת המרה ממערכת מעובדת, צפופה או מייצוג פנימי יותר לייצוג גולמי, דל או חיצוני יותר.

מפענחים הם בדרך כלל רכיב במודל גדול יותר, בשילוב עם מקודד.

במשימות של רצף לרצף, מפענח מתחיל במצב הפנימי שהמקודד יצר כדי לחזות את המופע הבא ברצף.

ההגדרה של מפענח בתוך טרנספורמר על הארכיטקטורה של טרנספורמר.

מודל עמוק

#fundamentals

רשת נוירונים שמכילה יותר מרשת אחת שכבה מוסתרת.

מודל עומק נקרא גם רשת נוירונים עמוקה.

השוו עם מודל רחב.

של רשת עצבית עמוקה

מילה נרדפת למודל עומק.

Deep Q-Network (DQN)

#rl

ב-Q-learning, רשת נוירונים עמוקה שחוזה פונקציות Q.

Critic היא שם נרדף ל-Deep Q-Network.

שוויון דמוגרפי

#fairness

מדד הוגנות שעומד בתנאים אם תוצאות הסיווג של המודל לא תלויות נתון מאפיין רגיש.

לדוגמה, אם גם ליליפוטים וגם ליליפוטים חלים על באוניברסיטת גלובדובדב, משיגים שוויון דמוגרפי אם מהליליפוטים שנתנו לאחרים זהה לאחוז התושבים אישור להצטרף לתוכנית, בין אם קבוצה אחת מניבה בממוצע איכות תוכן גבוהה יותר מהשני.

השוו בין סיכויים שווה וגם שוויון הזדמנויות, שמאפשר תוצאות של סיווג מצטבר בהתאם למאפיינים רגישים, אבל לא מתירים תוצאות סיווג מסוימות תוויות של ground truth שתלויות במאפיינים רגישים. צפייה "תקפה אפליה בעזרת למידת מכונה חכמה יותר" להמחשה חזותית בחינת ההשלכות במסגרת אופטימיזציה לשוויון דמוגרפי.

ניקוי רעשים

#language

גישה נפוצה ללמידה בפיקוח עצמי שבו:

רעש נוסף באופן מלאכותי למערך הנתונים.
המודל מנסה להסיר את הרעש.

ביטול "הפרעות" מאפשר ללמוד מדוגמאות ללא תוויות. מערך הנתונים המקורי משמש כיעד או תווית וגם את הנתונים עם הרעש בתור הקלט.

בחלק מהמודלים המסופים של שפה (MLM) משתמשים בביטול רעשים ככה:

הוספה של רעש באופן מלאכותי למשפט לא מתויג באמצעות אנונימיזציה של חלק את האסימונים.
המודל מנסה לחזות את האסימונים המקוריים.

רכיב דחוס

#fundamentals

תכונה שבה רוב הערכים או כולם הם לא אפס, בדרך כלל Tensor של ערכי נקודה צפה (floating-point). לדוגמה, רכיב Tensor של 10 רכיבים צפוף כי 9 מהערכים שלו הם לא אפס:

ניגודיות עם תכונה מצומצמת.

שכבה צפופה

מילה נרדפת לשכבה מקושרת.

עומק

#fundamentals

הסכום של הפריטים הבאים ברשת נוירונים:

מספר השכבות המוסתרות
מספר שכבות הפלט, שהוא בדרך כלל 1
מספר שכבות ההטמעה

לדוגמה, רשת נוירונים עם חמש שכבות נסתרות ושכבת פלט אחת העומק הוא 6.

שימו לב ששכבת הקלט עומק ההשפעה.

רשת עצבית מתקפלת (קונבולציה) נפרדת בעומק (sepCNN)

#image

רשת עצבית מתקפלת שמבוססת על Inception, אבל שבהם מודולים של התחלה מוחלפים במודלים של למידה עמוקה, קיפולים (קונבולציות). נקרא גם Xception.

קונבולציה נבדלת בעומק (מופיעה גם בצורה מקוצרת כקונבולוציה ניתנת להפרדה) גורם קונבולציה תלת-ממדית סטנדרטית לשתי פעולות קונבולציה נפרדות יעילות יותר מבחינה חישובית: ראשית, קונבולציה עמוקה כשהעומק הוא 1 (n משתמשת n בייט 1) ואז השני, קונבולציה נקודתית, באורך וברוחב של 1 (1 משתמשת 1 דו n).

אפשר לקרוא מידע נוסף במאמר Xception: למידה עמוקה עם הפרדה עמוקה (Depthwise) תנודות.

תווית נגזרת

מילה נרדפת לתווית לשרת proxy.

מכשיר

#TensorFlow

#GoogleCloud

מונח עמוס מדי עם שתי ההגדרות האפשריות הבאות:

קטגוריית חומרה שיכולה להריץ סשן של TensorFlow, כולל מעבדים, מעבדי GPU ומעבדי TPU.
כשמאמנים מודל למידת מכונה על צ'יפים של מאיצים (מעבדי GPU או TPU), החלק במערכת שמבצע מניפולציה בפועל רכיבי tensor והטמעה. המכשיר פועל על צ'יפים של מאיץ. לעומת זאת, המארח בדרך כלל פועלת על מעבד (CPU).

פרטיות דיפרנציאלית

בלמידת מכונה, אנחנו משתמשים באנונימיזציה כדי להגן על מידע אישי רגיש (לדוגמה, מידע אישי של אדם פרטי) שנכלל קבוצת אימון למניעת חשיפה. הגישה הזאת מבטיחה שהמודל לא לומד או זוכר הרבה בנוגע אישי. ניתן להשיג זאת באמצעות דגימה והוספה של רעש במהלך המודל אימון להסתרת נקודות נתונים בודדות, ולצמצם את הסיכון לחשוף של נתוני אימון רגישים.

פרטיות דיפרנציאלית משמשת גם מחוץ ללמידת מכונה. לדוגמה, מדעני נתונים משתמשים לפעמים בפרטיות דיפרנציאלית כדי להגן על פרטיות בעת חישוב סטטיסטיקות השימוש במוצר עבור קבוצות דמוגרפיות שונות.

צמצום מאפיינים

הקטנת מספר המאפיינים שמשמשים לייצוג תכונה מסוימת בווקטור מאפיין, לוקטור הטמעה.

מימדים

המונח עמוס מדי באחת מההגדרות הבאות:

מספר רמות הקואורדינטות בחיישן. לדוגמה:
- לסקלר יש אפס מימדים; לדוגמה, ["Hello"].
- לווקטור יש מימד אחד; לדוגמה, [3, 5, 7, 11].
- למטריצה יש שני מימדים: לדוגמה, [[2, 4, 18], [5, 7, 14]].
ניתן לציין באופן ייחודי תא מסוים בווקטור חד-ממדי עם קואורדינטה אחת, צריך שתי קואורדינטות כדי לציין תא מסוים במטריצה דו ממדית.
מספר הרשומות בוקטור מאפיין.
מספר הרכיבים בשכבת הטמעה.

הנחיות ישירות

#language

#generativeAI

מילה נרדפת להנחיות מאפס (zero-shot)..

פיצ'ר בדיד

#fundamentals

תכונה עם קבוצה מוגבלת של ערכים אפשריים. לדוגמה, תכונה שהערכים שלה יכולים להיות רק בעל חיים, ירק או מינרל בדיספרה (או קטגורית).

ניגודיות עם תכונה רציפה.

מודל דיסקרימינטיבי

מודל שחוזה תוויות מקבוצה של עוד תכונות. באופן רשמי יותר, מודלים דיסקרימינטיביים מגדירים של פלט מותנית, בהינתן התכונות weights; כלומר:

p(output | features, weights)

לדוגמה, מודל שחוזה אם הודעת אימייל היא ספאם מתכונות ומשקולות הוא מודל דיסקרימינטיבי.

הרוב המכריע של מודלים של למידה בפיקוח, כולל סיווג ומודלים של רגרסיה הם מודלים דיסקרימינטיביים.

ביצוע ניגוד למודל גנרטיבי.

מבדילה

מערכת שקובעת אם דוגמאות הן אמיתיות או מזויפות.

לחלופין, מערכת המשנה בתוך מודל למידה חישובית גנרטיבית, שקובעת אם שהדוגמאות שנוצרו על ידי המחולל הן אמיתיות או מזויפות.

השפעה שונה

#fairness

קבלת החלטות על אנשים שמשפיעים על אוכלוסייה אחרת באופן לא פרופורציונלי. בדרך כלל מדובר במצבים מקרים שבהם תהליך קבלת החלטות אלגוריתמי פוגע או מועיל יש תתי-קבוצות יותר מאחרות.

לדוגמה, נניח שאלגוריתם שקובע להלוואה מיניאטורית יש סיכוי גבוה יותר לסווג אותן כ"לא עומדות בתנאים" אם הכתובת שלהם למשלוח דואר מכילה מיקוד. אם יש סיכוי גבוה יותר לליליפוטם במזרח הרחוק כתובות למשלוח דואר עם המיקוד הזה מאשר ליטל-אנדיאנים הקטנה, האלגוריתם הזה עשוי להוביל להשפעה שונה.

השוו לטיפול שונה, שמתמקד בפערים שנוצרים כאשר מאפיינים של תתי-קבוצה הם קלטים מפורשים לתהליך קבלת החלטות באמצעות אלגוריתם.

טיפול שונה

#fairness

תוך חישוב הנושאים מאפיינים רגישים לתהליך קבלת החלטות אלגוריתמי, כך שקבוצות משנה שונות מאנשים מקבלים יחס שונה.

לדוגמה, נבחן אלגוריתם קובע להלוואה של בית מיניאטורי על סמך את הנתונים שהם מספקים בבקשת ההלוואה. אם האלגוריתם משתמש השתייכותו של ליליפוטין בתור Big-Endian או Little-Endian כקלט, נוקטים יחס שונה לגבי המאפיין הזה.

השוו עם השפעה שונה, שמתמקדת על הפערים בהשפעות החברתיות של החלטות אלגוריתמיות על תת-קבוצות, בלי קשר לקבוצות המשנה האלה בתור קלט למודל.

זיקוק

#generativeAI

תהליך ההקטנה של מודל אחד (שנקרא מורה) למודל קטן יותר (שנקרא תלמיד/ה) שמבצע אמולציה את החיזויים של המודל המקורי בצורה מהימנה ככל האפשר. זיקוק שימושי כי למודל הקטן יותר יש שני יתרונות מרכזיים על פני המודל (המורה):

זמן הסקת מסקנות מהיר יותר
הפחתה של צריכת הזיכרון והאנרגיה

עם זאת, החיזויים של התלמיד בדרך כלל לא טובים באותה מידה את החיזויים למורה.

חידוד האימון מאמן את המודל של התלמיד כדי לצמצם loss function (פונקציית אובדן), על סמך ההבדל בין הפלט של המודלים לחיזוי המודלים של התלמידים והמורים.

השוו והבדילו בין זיקוק למונחים הבאים:

כוונון עדין
למידה מבוססת-הנחיות

distribution

התדירות והטווח של ערכים שונים מערך נתון feature או תווית. ההתפלגות מייצגת את הסבירות של ערך מסוים.

התמונה הבאה מציגה היסטוגרמות של שתי הפצות שונות:

בצד שמאל, התפלגות חוק הכוח של העושר לעומת מספר האנשים באמצעות העושר הזה.
בצד ימין, התפלגות נורמלית של גובה לעומת מספר האנשים בעלי הגובה הזה.

שתי היסטוגרמות. היסטוגרמה אחת מציגה התפלגות של חוקי כוח עם
עושר בציר ה-X ומספר האנשים שיש להם את העושר הזה
על ציר ה-Y. לרוב האנשים יש עושר מועט, ולמעט אנשים
המון עושר. ההיסטוגרמה השנייה מציגה התפלגות נורמלית
עם גובה על ציר ה-X ומספר האנשים שיש להם את הגובה הזה
על ציר ה-Y. רוב האנשים מקובצים במקום כלשהו ליד הממוצע.

הבנת ההתפלגות של כל תכונה וכל תווית יכולה לעזור לך לקבוע איך כדי לנרמל ערכים ולזהות חריגים חשודי טעות.

הביטוי out of grouping מתייחס לערך שלא מופיע או שהוא נדיר מאוד. לדוגמה, תמונה של כוכב שבתאי למערך נתונים שמורכב מתמונות של חתולים.

אשכולות מחלקים

#clustering

ניתן לעיין באשכולות היררכיים.

downsampling

#image

מונח של עומס יתר יכול להיות אחת מהאפשרויות הבאות:

הפחתת כמות המידע בתכונה ב- כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון של מודל לזיהוי תמונות, הפחתת דגימה ברזולוציה גבוהה של התמונות לפורמט ברזולוציה נמוכה יותר.
אימון על אחוז נמוך באופן לא פרופורציונלי של ייצוג יתר כיתה כדי לשפר את אימון המודלים של כיתות שסובלות מחוסר ייצוג. לדוגמה, בתרחיש לא מאוזן בכיתה , המודלים נוטים ללמוד הרבה על דרגת הרוב ואין מספיק מידע על סיווג מיעוט. הפחתת הדגימה עוזרת לאזן את כמות האימון בכיתות הרוב ובמיעוט.

DQN

#rl

קיצור של Deep Q-Network (רשת כזו).

הרגולריזציה של נטישה

סוג של ארגון שמועיל לאימון רשתות נוירונים. הרגולריזציה של נטישה מסירה בחירה אקראית של מספר קבוע של יחידות ברשת לשכבת הדרגתית של שלב אחד. ככל שיותר יחידות נוטשים, כך הרגולריזציה. הפעולה הזו מקבילה לאימון הרשת לבצע אמולציה שילוב גדול באופן אקספוננציאלי של רשתות קטנות יותר. פרטים מלאים זמינים במאמר נשירה: דרך פשוטה למנוע מרשתות נוירונים התאמת יתר.

דינמי

#fundamentals

פעולה שבוצעה בתדירות גבוהה או ברציפות. המונחים דינמיים ואונליין הם מילים נרדפות בלמידת מכונה. בהמשך מפורטים שימושים נפוצים באונליין ובאונליין במכונות במצב למידה:

מודל דינמי (או מודל אונליין) הוא מודל שאומנו מחדש לעיתים קרובות או באופן מתמשך.
אימון דינמי (או הדרכה אונליין) היא תהליך האימון בתדירות גבוהה או מתמשכת.
הסקה דינמית (או הֶקֵּשׁ אונליין) היא התהליך של יצירת תחזיות על פי דרישה.

מודל דינמי

#fundamentals

מודל שנמצא לעיתים קרובות (אולי אפילו מתמשך) הכשרה מחדש. מודל דינמי הוא 'למידה לכל החיים' ש מתאים את עצמו כל הזמן לנתונים שמתפתחים. מודל דינמי נקרא גם מודל אונליין.

השוו עם המודל הסטטי.

E

ביצוע נחוש

#TensorFlow

סביבת תכנות של TensorFlow שבה פעולות הפעלה מיידית. לעומת זאת, פעולות שנקראות ביצוע תרשימים אינו פועל עד שהוא מופעל באופן מפורש עוד לא בדקתם. ביצוע נלהב הוא ממשק חיוני, כמו הקוד ברוב שפות התכנות. תוכניות ביצוע יזומות בדרך כלל קל יותר לנפות באגים מאשר תוכנות לביצוע תרשימים.

עצירה מוקדמת

#fundamentals

שיטה לארגון שכוללת סיום האימון לפני סיום האימון בירידה. בעצירה מוקדמת, אתם מפסיקים באופן מכוון את אימון המודל כשההפסד של מערך נתונים של אימות מתחיל increase; כלומר, כאשר הביצועים של הכללה יורדים.

לוחצים על הסמל כדי להציג הערות נוספות.

עצירה מוקדמת עשויה להיראות כאילו היא לא הגיונית. אחרי הכול, לומר למודל לעצור והאובדן, בזמן שהאובדן עדיין במגמת ירידה, יכולה להיראות כמו לומר לשף להפסיק את הבישול לפני שהקינוח ייאפו במלואו. אבל אימון מודל יותר מדי זמן עלול לגרום להתאמה יתר. כלומר, אם לאמן מודל ארוך מדי, המודל עשוי להתאים לנתוני האימון עד כדי כך שהמודל לא מספק תחזיות טובות לגבי דוגמאות חדשות.

המרחק של כדור הארץ (EMD)

מדד של הדמיון היחסי בין שתי הפצות. ככל שהמרחק של תנועה בכדור הארץ נמוך יותר, ההתפלגויות דומות יותר.

עריכת המרחק

#language

מדידה של הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, עריכת המרחק היא שימושית כי ודרך יעילה להשוות שתי מחרוזות שידועות דומות או למצוא מחרוזות שדומות למחרוזת נתונה.

יש כמה הגדרות של מרחק עריכה, כל אחת מהן משתמשת במחרוזת שונה ב-AI. לדוגמה, מרחק לבנשטיין מביא בחשבון את פעולות המחיקה, הזנה וההחלפה שמצוינות בו הכי פחות.

לדוגמה, המרחק של לבנשטיין בין המילים 'לב' ו'חיצים' הוא 3, כי 3 העריכות הבאות הן השינויים הכי מעטים לביצוע מילה אחת לתוך השני:

לב ← deart (מחליפים את 'h' ב-'d')
deart ← dart (Delete "e")
חץ ← הטלת חיצים (insert "s")

סימון Einsum

סימון יעיל שמתאר את האופן שבו שני טנסורים צריכים להיות משולב. כדי לשלב את הטנסטורים, מכפילים את הערכים של טנזור אחד. לפי הרכיבים של הטנזור השני, ואז סיכום המכפלות. סימון Einsum משתמש בסמלים כדי לזהות את הצירים של כל טנזור, אותם סמלים מסודרים מחדש כדי לציין את הצורה של הארגומנט החדש שנוצר.

NumPy מספק הטמעה נפוצה של Einsum.

שכבת הטמעה

#language

#fundamentals

שכבה נסתרת מיוחדת שמבצעת אימון על תכונה קטגורית בעלת ממדים גבוהים כדי ללמוד בהדרגה את וקטור ההטמעה של מימד נמוך יותר. מאפשרת לרשת נוירונים לאמן הרבה יותר ביעילות רבה יותר מאשר אימונים רק על התכונה קטגורית בממדים גבוהים.

לדוגמה, Google Earth תומך כרגע בכ-73,000 זני עצים. נניח מין עצים הוא תכונה במודל, לכן בשכבת הקלט יש וקטור חם אחד 73,000 לאורך זמן. לדוגמה, אולי baobab מיוצגת בערך כך:

מערך של 73,000 רכיבים. 6,232 הרכיבים הראשונים שומרים את הערך
0. הרכיב הבא מכיל את הערך 1. נשמרים 66,767 הרכיבים האחרונים
הערך אפס.

מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים שכבת הטמעה האימון של המודל ידרוש זמן רב מאוד שמכפילה 72,999 אפסים. אולי תבחרו את שכבת ההטמעה שתכיל של 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל מין של עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

שטח הטמעה

#language

מרחב וקטורי D-מימדי שמופיע מתוך של שטח וקטורי ממופים. באופן אידיאלי, מרחב ההטמעה מבנה שמוביל לתוצאות מתמטיות משמעותיות; לדוגמה, במרחב הטמעה אידיאלי, חיבור וחיסור של הטמעות יכול לפתור משימות של אנלוגיה מילולית.

המוצר הכולל נקודות של שתי הטמעות הוא מדד של הדמיון ביניהם.

וקטור הטמעה

#language

באופן כללי, מערך של מספרים נקודתיים (floating-point) נלקח מכל דבר מוסתרת שמתארת את מקורות הקלט של השכבה המוסתרת הזו. לעיתים קרובות, וקטור הטמעה הוא מערך של מספרים בנקודה צפה (floating-point) שמאומן או שכבת הטמעה. לדוגמה, נניח ששכבת הטמעה חייבת ללמוד של כל אחד מ-73,000 מינים של עצים בכדור הארץ. אולי המערך הבא הוא וקטור ההטמעה של עץ באובב:

מערך של 12 רכיבים, שכל אחד מהם מכיל מספר נקודה צפה (floating-point)
בין 0.0 ל-1.0.

וקטור הטמעה הוא לא קבוצה של מספרים אקראיים. שכבת הטמעה קובע את הערכים האלה באמצעות אימון, בדומה לאופן שבו רשת נוירונים לומדת משקולות אחרות במהלך אימון. כל רכיב הוא דירוג לאורך מאפיין מסוים של מין עצים. איזה שמייצג את סוגי העצים של המאפיין? זה קשה מאוד שבני אדם יקבעו.

החלק המתמטי המתמטי של וקטור הטמעה הוא לפריטים יש קבוצות דומות של מספרי נקודה צפה (floating-point). לדוגמה, לזנים של עצים יש קבוצה דומה יותר של מספרי נקודה צפה (floating-point) בין מיני עצים שונים. עצי סקוויה וסקויה הם זני עצים קשורים, תהיה להם קבוצה דומה יותר של מספרים צפים עצי סקוויה וכף קוקוס. המספרים בווקטור ההטמעה משתנה בכל פעם שמאמנים מחדש את המודל, גם אם מאמנים את המודל מחדש עם קלט זהה.

את פונקציית ההתפלגות האמפירית המצטברת (eCDF או EDF)

פונקציית התפלגות מצטברת שמבוססים על מדידות אמפיריות ממערך נתונים אמיתי. הערך של בכל נקודה לאורך ציר ה-X הוא חלק מהתצפיות מערך הנתונים שקטן מהערך שצוין או שווה לו.

צמצום סיכונים אמפירי (ERM)

בחירת הפונקציה שמפחיתה את האובדן בערכת האימון. ניגודיות באמצעות צמצום סיכונים מבני.

מקודד

#language

באופן כללי, כל מערכת למידת מכונה שממירה נתונים גולמיים, דליים או חיצוניים לייצוג פנימי יותר, מעובד יותר או צפוף יותר.

מקודדים הם לעיתים קרובות רכיב במודל גדול יותר, מותאם למפענח. חלק מטרנספורמרים מתאימים בין מקודדים למפענחים, אבל טרנספורמרים אחרים משתמשים רק או רק את המפענח.

חלק מהמערכות משתמשות בפלט של המקודד כקלט לסיווג רשת רגרסיה.

במשימות של רצף לרצף, מקודד לוקחת רצף קלט ומחזירה מצב פנימי (וקטור). לאחר מכן, מפענח משתמש במצב הפנימי הזה כדי לחזות את הרצף הבא.

ההגדרה של מקודד מופיעה בקטע טרנספורמר על הארכיטקטורה של טרנספורמר.

אנסמבל

אוסף של מודלים שאומנו בנפרד, והחיזויים שלהם הם ממוצעים או נצברים. במקרים רבים, אנסמבל מייצר תוצאות טובות יותר חיזויים ולא מודל אחד. לדוגמה, יער אקראי הוא הרכבה שמורכבת מכמה פיצ'רים עצי החלטות. שימו לב שלא כל יערות החלטות הם מורכבים.

אנטרופיה

#df

לחשבון תורת המידע, תיאור של מידת ההסתברות הבלתי צפויה של הסבירות. לחלופין, האנטרופיה מוגדרת גם בתור כל דוגמה מכילה. להתפלגות יש את האנטרופיה הגבוהה ביותר האפשרית כאשר כל הערכים של משתנה אקראי בסבירות שווה.

האנטרופיה של קבוצה עם שני ערכים אפשריים – 0 ו-'1' (לדוגמה, התוויות בבעיה של סיווג בינארי) מכיל את הנוסחה הבאה:

H = -p יומן - q יומן = -p יומן - (1-p) * יומן (1-p)

איפה:

H היא האנטרופיה.
p הוא החלק של '1' דוגמאות.
q הוא החלק של '0' דוגמאות. שימו לב ש-q = (1 - p)
log הוא בדרך כלל יומן₂. במקרה הזה, האנטרופיה הוא קצת.

לדוגמה, נניח את הדברים הבאים:

100 דוגמאות מכילות את הערך '1'
300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 ביט לכל דוגמה

קבוצה מאוזנת לחלוטין (לדוגמה, 200"0" ו-200"1") תהיה אנטרופיה של 1.0 ביט לכל דוגמה. ככל שהקבוצה הופכת לא מאוזן, האנטרופיה שלו נעה לכיוון 0.0.

בעצי ההחלטות, האנטרופיה עוזרת לנסח צבירת מידע כדי לעזור splitter בוחרים את התנאים במהלך הצמיחה של עץ החלטות מסוג סיווג.

השוו בין אנטרופיה עם:

gini impurity
פונקציית אובדן נתונים ב-Cross-entropy

אנטרופיה נקראת בדרך כלל 'אנטרופיה של שנון'.

environment

#rl

בלמידה חיזוק, העולם שמכיל את הסוכן ומאפשר לסוכן לצפות במצב של אותו עולם. לדוגמה, העולם המיוצג יכול להיות משחק כמו שחמט, או עולם פיזי כמו מבוך. כשהנציג מחיל פעולה על הסביבה, הסביבה עוברת בין מצבים.

פרק

#rl

בלמידת חיזוק, כל אחד מהניסיונות החוזרים agent כדי ללמוד על סביבה.

תקופה של זמן מערכת

#fundamentals

עובר אימון מלא על כל ערכת האימון כך שכל דוגמה עברה עיבוד פעם אחת.

תקופה של זמן מערכת מייצגת את הגודל של N/גודל אצווה איטרציות, שבהן N הוא את המספר הכולל של הדוגמאות.

לדוגמה, נניח את הדברים הבאים:

מערך הנתונים כולל 1,000 דוגמאות.
גודל הקבוצה הוא 50 דוגמאות.

לכן בתקופה מסוימת נדרשים 20 איטרציות:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

המדיניות בנושא אלגוריתם חמדן אפסילון

#rl

בלמידת חיזוק, מדיניות שמבוססת על מדיניות אקראית עם סבירות של אפסילון במדיניות בנושא אלגוריתם חמדן. לדוגמה, אם אפסילון הוא 0.9, המדיניות פועלת לפי מדיניות אקראית ב-90% מהמקרים ב-10% מהמקרים.

על פני פרקים רצופים, האלגוריתם מפחית את הערך של אפסילון לעבור מציות למדיניות אקראית לציות למדיניות של אלגוריתם חמדן. על ידי משנה את המדיניות, הנציג בוחן קודם את הסביבה באופן אקראי ואז מנצל באלגנטיות את התוצאות של ניתוח אקראי.

שוויון הזדמנויות

#fairness

מדד של הוגנות כדי לבדוק אם מודל מסוים חיזוי של התוצאה הרצויה באופן שווה לכל הערכים מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של המודל היא הסיווג החיובי, המטרה היא שהשיעור החיובי האמיתי יהיה זהה לכל הקבוצות.

שוויון ההזדמנויות קשור לסיכויים שווים, שמחייבת גם את השיעורים החיוביים האמיתיים שיעורי התוצאות החיוביות השגויות זהים לכל הקבוצות.

נניח שאוניברסיטת גלודובדריב מודה גם לליליפוטים וגם לתושבי ברודנגנגים לתוכנית קפדנית במתמטיקה. ליליפוטים בתי ספר משניים מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, והרוב המכריע של התלמידים מוסמך לתוכנית האוניברסיטה. ברודינגאנגים בתי ספר משניים מציעים שיעורי מתמטיקה, וכתוצאה מכך, הרבה פחות מהתלמידים כשיר. מתקיים שוויון הזדמנויות עבור התווית המועדפת של 'אושר' ביחס ללאום (ליליפוטי או ברודינגנאגי) אם קיימת סבירות שווה להתקבל לתוכנית, בין אם הם ליליפוטם או ברודינגנג.

לדוגמה, נניח ש-100 ליליפוטים ו-100 שו"ת חלים על אוניברסיטת גלודובדריב והחלטות לגבי קבלה מתבצעות כך:

טבלה 1. מועמדים ל-Liliputian (90% זכאים)

	כשיר	לא מתאים
אושר	45	3
נדחה	45	7
סה"כ	90	10
אחוז הסטודנטים המוסמכים שהתקבלו: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות שנדחו: 7/10 = 70% האחוז הכולל של סטודנטים מליליפוטיים שהתקבלו: (45+3)/100 = 48%

טבלה 2. מועמדי Brobdingnagian (10% זכאים):

	כשיר	לא מתאים
אושר	5	9
נדחה	5	81
סה"כ	10	90
אחוז הסטודנטים המוסמכים שהתקבלו: 5/10 = 50% אחוז התלמידים שלא עומדים בדרישות שנדחו: 81/90 = 90% האחוז הכולל של סטודנטים מברודנגנג שהתקבלו: (5+9)/100 = 14%

הדוגמאות שלמעלה מייצגות את שוויון ההזדמנויות לקבלת סטודנטים מוסמכים מכיוון שגם ליליפוטם וגם ברודינגנגים מוסמכים יש סיכוי של 50% להתקבל.

למרות ששוויון ההזדמנויות מתקיים, שני המדדים הבאים של הוגנות לא מרוצים:

שוויון דמוגרפי: ליליפוטים סטודנטים מתקבלים לאוניברסיטה בתעריף שונה; 48% מהסטודנטים לליליפוטם להתקבל, אבל רק 14% סטודנטים בסגנון Brobdingnagian מקבלים.
סיכויים שווה: ליליפוטם מוסמך ולסטודנטים בסגנון ברודנגינג יש סיכוי זהה לקבלה, את המגבלה הנוספת שחלה על ליליפוטים לא מוסמכים לקטינים יש סיכוי זהה להידחות מרוצה. לליליפוטים לא מוסמכים יש שיעור דחיות של 70%, ואילו לתושבי ברובינגנאגיה לא מוסמכים יש שיעור דחיות של 90%.

ראו "שוויון 'הזדמנות בלמידה מונחית' לדיון מפורט יותר של שוויון הזדמנויות. ראו גם "תקפה אפליה בעזרת למידת מכונה חכמה יותר" להמחשה חזותית בחינת ההשלכות במסגרת אופטימיזציה לשוויון הזדמנויות.

סיכויים שווים

#fairness

מדד של הוגנות לצורך הערכה אם מודל חוזה תוצאות באופן שווה כל הערכים של מאפיין רגיש עם גם למחלקה החיובית וגם מחלקה שלילית – לא רק כיתה אחת או השנייה באופן בלעדי. במילים אחרות, גם השיעור החיובי האמיתי ושיעור false צריך להיות זהה עבור כל הקבוצות.

המדד 'סיכויים שווה' קשור ל- שוויון הזדמנויות, שמתמקד רק את שיעורי השגיאות במחלקה אחת (חיובית או שלילית).

לדוגמה, נניח שאוניברסיטת גלואבדאבדריב מקבלת כניסה גם לליליפוטים וגם נלחמים בתוכנית מתמטיקה קפדנית? ליליפוטים משנית בתי הספר מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, והרוב המכריע סטודנטים מוסמכים לתוכנית האוניברסיטה. ברודינגאנגים משנית בתי הספר לא מציעים בכלל שיעורי מתמטיקה, וכתוצאה מכך, הרבה פחות שהתלמידים מוסמכים. הסיכוי שוויון מתאים בתנאי שלא לא משנה אם מגיש הבקשה הוא ליליפוטי או ברודינגנג, אם מתאימים לתוכנית, יש סיכוי שווה להתקבל לתוכנית. ואם הם לא עומדים בדרישות, יש סיכוי זהה לכך שהם יידחו.

נניח ש-100 ליליפוטים ו-100 ליליפוטים ו-100 אנשי ברובדינג פונים לגלובדובדריב ההחלטות לגבי האוניברסיטה והקבלה מתבצעות באופן הבא:

טבלה 3. מועמדים ל-Liliputian (90% זכאים)

	כשיר	לא מתאים
אושר	45	2
נדחה	45	8
סה"כ	90	10
אחוז הסטודנטים המוסמכים שהתקבלו: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות נדחו: 8/10 = 80% האחוז הכולל של סטודנטים מליליפוטיים שהתקבלו: (45+2)/100 = 47%

טבלה 4. מועמדי Brobdingnagian (10% זכאים):

	כשיר	לא מתאים
אושר	5	18
נדחה	5	72
סה"כ	10	90
אחוז הסטודנטים המוסמכים שהתקבלו: 5/10 = 50% אחוז התלמידים שלא עומדים בדרישות שנדחו: 72/90 = 80% האחוז הכולל של סטודנטים מברודנגנג שהתקבלו: (5+18)/100 = 23%

הסיכוי שוויון הוא שביעות רצון כי ליליפוטיאן וברודינגיאנה (Liliputian and Brobdingnagian) מוסמכים לשני הסטודנטים יש סיכוי של 50% להתקבל, ו-Brobdingnagian יש סיכוי של 80% להידחות.

סיכויים שווים מוגדרים באופן רשמי באמצעות "שוויון הזדמנות בלמידה מונחית": "החיזוי מייצג את הסיכויים שווים מבחינת כבוד לתכונה מוגנת A ולתוצאה Y אם נבחרה ו-A הן בלתי תלויות, מותנה ב-Y."

מעריך

#TensorFlow

ממשק API של TensorFlow שהוצא משימוש. במקום זאת, צריך להשתמש ב-tf.keras של מעריכים.

הערכה

התהליך של מדידת האיכות של מודל למידת מכונה חיזויים. במהלך פיתוח המודל, להחיל מדדי הערכה לא רק על קבוצת האימון. אלא גם בקבוצת אימות קבוצת בדיקה. אפשר גם להשתמש במדדי הערכה כדי להשוות מודלים שונים.

דוגמה

#fundamentals

הערכים של שורה אחת של features ואולי גם ערכים של תווית. דוגמאות ב: למידה מונחית מתחלקת לשניים קטגוריות כלליות:

דוגמה מסומנת בתווית מורכבת מתכונה אחת או יותר ותווית. במהלך האימון נעשה שימוש בדוגמאות מסומנות בתוויות.
דוגמה ללא תווית מורכבת מדוגמה אחת או יותר תכונות, אבל בלי תווית. בתהליך ההסקה נעשה שימוש בדוגמאות ללא תוויות.

למשל, נניח שאתם מאמנים מודל כדי לקבוע את ההשפעה את תנאי מזג האוויר בציוני המבחנים של התלמידים. לפניכם שלוש דוגמאות לתוויות:

תכונות			תווית
טמפרטורה	לחות	לחץ	ציון הבדיקה
15	47	998	טוב
19	34	1020	מצוינת
18	92	1012	גרועה

הנה שלוש דוגמאות לא מסומנות:

טמפרטורה	לחות	לחץ
12	62	1014
21	47	1017
19	41	1021

השורה של מערך נתונים היא בדרך כלל המקור הגולמי של דוגמה. כלומר, הדוגמה בדרך כלל מורכבת מקבוצת משנה של העמודות מערך הנתונים. בנוסף, התכונות שבדוגמה יכולות לכלול גם תכונות סינתטיות, כמו תכונות חוצה.

שידור חוזר של החוויה

#rl

בלמידת חיזוק, נעשה שימוש בשיטת DQN כדי לצמצם מתאמים מבחינת זמן בנתוני אימון. הסוכן שומרת את המעברים בין המצבים במאגר נתונים זמני, ואז הדוגמאות מועברות ממאגר הנתונים הזמניים לצורך יצירה של נתוני אימון.

הטיה של עורך הניסוי

#fairness

מידע נוסף זמין בקטע הטיית אישור.

בעיה של הדרגתי מתפוצץ

#seq

הנטייה של הדרגתיות רשתות נוירונים עמוקות (במיוחד רשתות נוירונים חוזרות) כדי להפוך תלול באופן מפתיע (גבוה). רמות תלולות גורמות לעיתים קרובות לעדכונים גדולים מאוד למשקולות של כל צומת רשת עצבית עמוקה.

מודלים שסובלים מבעיית ההדרגתיות המתפוצצת הופכים לקשה או בלתי אפשרי לאמן אותה. חיתוך הדרגתי יכול לצמצם את הבעיה.

ניתן להשוות לבעיה נעלמת של הדרגתי.

F

F₁

נכס-על של סיווג בינארי, מסתמכת גם על דיוק וגם על אחזור. זאת הנוסחה:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

לדוגמה, בהינתן המשפט הבא:

דיוק = 0.6
ריקול = 0.4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

כשהדיוק והזכירה די דומים (כמו בדוגמה הקודמת), F₁ קרוב לממוצע. אם יש הבדלים בין הדיוק והזכירה משמעותית, F₁ קרוב יותר לערך הנמוך יותר. לדוגמה:

דיוק = 0.9
ריקול = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

מגבלה על הוגנות

#fairness

החלת אילוץ על אלגוריתם כדי להבטיח הגדרה אחת או יותר של הוגנות. דוגמאות למגבלות הוגנות:

עיבוד לאחר עיבוד הפלט של המודל.
שינוי של פונקציית הפסדים לצורך הכללת קנס עקב הפרה של מדד הוגנות.
הוספה ישירה של מגבלה מתמטית לבעיית אופטימיזציה.

מדד הוגנות

#fairness

הגדרה מתמטית של 'הוגנות' שאפשר למדוד. דוגמאות למדדים נפוצים של הוגנות:

סיכויים שווה
צמד חזוי
הוגנות מנוגדת
שוויון דמוגרפי

הרבה מדדים של הוגנות הם בלעדיים זה לזה. לראות חוסר תאימות של מדדי הוגנות.

false negative (FN)

#fundamentals

דוגמה שבה המודל חוזה בטעות את מחלקה שלילית. לדוגמה, המודל חוזה שהודעת אימייל מסוימת היא לא ספאם (המחלקה השלילית), אבל הודעת האימייל הזו למעשה היא ספאם.

שיעור שלילי שגוי

היחס של הדוגמאות החיוביות בפועל שעבורן המודל שגוי חוזים את המחלקה השלילית. הנוסחה הבאה מחשבת את הארגומנט 'FALSE' תעריף שלילי:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

תוצאה חיובית כוזבת (FP)

#fundamentals

דוגמה שבה המודל חוזה בטעות את סיווג חיובי. לדוגמה, המודל מייצר תחזית של שהודעת אימייל מסוימת היא ספאם (הסיווג החיובי), אבל הודעת אימייל היא למעשה אינה ספאם.

שיעור חיובי שווא (FPR)

#fundamentals

היחס של הדוגמאות השליליות בפועל שעבורן המודל שגוי חוזים את המחלקה החיובית. הנוסחה הבאה מחשבת את הארגומנט 'FALSE' שיעור חיובי:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

השיעור החיובי השגוי הוא ציר ה-X בעקומת ROC.

מאפיין

#fundamentals

משתנה קלט למודל למידת מכונה. דוגמה שכולל תכונה אחת או יותר. לדוגמה, נניח שאתם מאמנים כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני המבחנים של התלמידים. בטבלה הבאה מוצגות שלוש דוגמאות, וכל אחת מהן כוללת שלוש תכונות ותווית אחת:

תכונות			תווית
טמפרטורה	לחות	לחץ	ציון הבדיקה
15	47	998	92
19	34	1020	84
18	92	1012	87

השוו בין באמצעות תווית.

צלב פיצ'רים

#fundamentals

תכונה סינתטית שנוצרה באמצעות 'חצייה' תכונות קטגוריות או קטגוריות.

לדוגמה, שימוש ב'תחזית מצב הרוח' שמייצג באחת מארבע הקטגוריות הבאות:

freezing
chilly
temperate
warm

הוא מייצג את מהירות הרוח באחת משלוש הקטגוריות הבאות:

still
light
windy

ללא הצלבות מאפיינים, המודל הלינארי מתאמן בנפרד על כל אחד את שבע הקטגוריות השונות שמופיעות לפניהן. המודל מתאמן על freezing בנפרד מהאימון, לדוגמה: windy.

לחלופין, אפשר ליצור מדד של הפרשי טמפרטורה מהירות הרוח. לתכונה הסינתטית הזו יש את 12 האפשרויות הבאות ערכים:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

בזכות הצלבים, המודל יכול ללמוד את ההבדלים במצבי הרוח בין יום freezing-windy ליום freezing-still.

אם יוצרים תכונה סינתטית משתי תכונות שבכל אחת מהן יש הרבה של הקטגוריות השונות, של שילובים אפשריים. לדוגמה, אם לתכונה אחת יש 1,000 קטגוריות ו בתכונה השנייה יש 2,000 קטגוריות, בצלב של התכונה שמתקבל יש 2,000,000 קטגוריות.

באופן רשמי, צלב הוא מכפלה קרטזית.

הצלבות פיצ'רים משמשות בעיקר עם מודלים ליניאריים, ורק לעיתים רחוקות משתמשים בהן ברשתות נוירונים.

הנדסת פיצ'רים (feature engineering)

#fundamentals

#TensorFlow

תהליך שכולל את השלבים הבאים:

איך להחליט אילו תכונות עשויות להועיל באימון של מודל.
להמיר נתונים גולמיים ממערך הנתונים לגרסאות יעילות של את התכונות האלה.

לדוגמה, אפשר להחליט ש-temperature יכול להיות שימושי . לאחר מכן תוכלו להתנסות ביצירת קטגוריות. כדי לבצע אופטימיזציה של מה שהמודל יכול ללמוד מטווחים שונים של temperature.

לפעמים קוראים להנדסת פיצ'רים (feature engineering) חילוץ תכונות או YouTube.

אפשר ללחוץ על הסמל כדי לראות הערות נוספות לגבי TensorFlow.

ב-TensorFlow, הנדסת פיצ'רים בדרך כלל פירושה המרה של קובץ יומן גולמי במאגרי נתונים זמניים של פרוטוקולים tf.Example. עוד באותו הקשר tf.Transform.

חילוץ פיצ'רים

המונח עמוס מדי באחת מההגדרות הבאות:

אחזור ייצוגים של תכונות ביניים שמחושבים על ידי מודל ללא פיקוח או מודל שעבר אימון מראש (לדוגמה, הערכים של שכבה מוסתרת רשת נוירונים) לשימוש במודל אחר כקלט.
מילה נרדפת להנדסת תכונות.

חשיבות התכונות

#df

מילה נרדפת לחשיבות משתנה.

קבוצת פיצ'רים

#fundamentals

קבוצת התכונות של למידת המכונה מתבצע אימון של מודל. לדוגמה, מיקוד, גודל נכס ומצב הנכס יכולים הרכיבו קבוצת תכונות פשוטה למודל שחוזה את מחירי הדיור.

מפרט תכונות

#TensorFlow

תיאור המידע שנדרש לחילוץ נתוני תכונות ממאגר הפרוטוקולים tf.Example. כי מאגר הנתונים הזמני של tf.Example הוא רק מאגר של נתונים, צריך לציין הבאים:

הנתונים לחילוץ (כלומר, המפתחות של התכונות)
סוג הנתונים (לדוגמה: מספר ממשי (float) או int)
האורך (קבוע או משתנה)

וקטור מאפיינים

#fundamentals

מערך הערכים של feature example. הווקטור המאפיין הוא קלט במהלך אימון ובמהלך הסקת מסקנות. לדוגמה, הווקטור המאפיין של מודל עם שתי תכונות נפרדות יכול להיות:

[0.92, 0.56]

ארבע שכבות: שכבת קלט, שתי שכבות מוסתרות ושכבת פלט אחת.
שכבת הקלט מכילה שני צמתים, שאחד מהם מכיל את הערך
0.92 והשני שמכיל את הערך 0.56.

כל דוגמה מספקת ערכים שונים לווקטור המאפיין, של הדוגמה הבאה, יכול להיות, למשל:

[0.73, 0.49]

הנדסת פיצ'רים (feature engineering) קובעת איך לייצג בווקטור המאפיין. לדוגמה, תכונה בינארית קטגורית עם שחמישה ערכים אפשריים יכולים להיות מיוצגים באמצעות קידוד חם אחד. במקרה הזה, החלק של בדוגמה מסוימת, יהיה מורכב מארבעה אפסים 1.0 יחיד במיקום השלישי, באופן הבא:

[0.0, 0.0, 1.0, 0.0, 0.0]

דוגמה נוספת, נניח שהמודל שלך מורכב משלוש תכונות:

תכונה בינארית קטגורית עם חמישה ערכים אפשריים שמיוצגים באמצעות קידוד חם אחד; לדוגמה: [0.0, 1.0, 0.0, 0.0, 0.0]
עוד תכונה בינארית קטגורית עם שלושה ערכים אפשריים באמצעות קידוד חם אחד; לדוגמה: [0.0, 0.0, 1.0]
פיצ'ר נקודה צפה (floating-point), לדוגמה: 8.3.

במקרה הזה, הווקטור המאפיין של כל דוגמה מיוצג ב-תשעה ערכים. בהתאם לערכים לדוגמה ברשימה שלמעלה, יהיה:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

פיצ'ר

תהליך החילוץ של תכונות ממקור קלט, כמו מסמך או סרטון, ולמפות את התכונות האלה וקטור התכונות.

חלק ממומחי למידת המכונה משתמשים בפיצ'ר כמו מילה נרדפת ב-feature engineering או חילוץ תכונות.

למידה משותפת (Federated)

גישה של למידת מכונה מבוזרת שמאמנים מודלים של למידת מכונה באמצעות דוגמאות שמופיעות במכשירים כגון סמארטפונים. בלמידה משותפת, רק חלק מהמכשירים מורידים את המודל הנוכחי משרת תיאום מרכזי. המכשירים משתמשים בדוגמאות ששמורות במכשירים כדי לבצע שיפורים במודל. המכשירים לאחר מכן מעלים את השיפורים במודל (אבל לא את דוגמאות האימון) שבו הם נצברים יחד עם עדכונים אחרים, כדי להניב שיפור מודל גלובלי. לאחר הצבירה, המודל מתעדכן ומחושב על ידי מכשירים שאין יותר צורך בהם, ואפשר למחוק אותם.

מכיוון שדוגמאות האימון אף פעם לא מועלות, הלמידה המשותפת פועלת לפי את עקרונות הפרטיות של איסוף נתונים ממוקד והגבלה על איסוף המידע.

למידע נוסף על למידה משותפת: ראו מדריך זה.

לולאת משוב

#fundamentals

בלמידת מכונה, מצב שבו החיזויים של המודל משפיעים על לאימון של אותו מודל או של מודל אחר. לדוגמה, מודל ממליצה על סרטים ישפיעו על הסרטים שאנשים יראו, ולאחר מכן להשפיע על המודלים הבאים של המלצות לסרטים.

רשת זרימה קדימה (FFN)

רשת נוירונים ללא חיבורים מחזוריים או רקורסיביים. לדוגמה, רשתות נוירונים עמוקות מסורתיות ברשתות נוירונים מלאכותיות. השוו עם נוירונים חוזרים רשתות, שהן מחזוריות.

למידה מכמה דוגמאות

גישה של למידת מכונה, שמשמשת בדרך כלל לסיווג אובייקטים, שנועד לאמן מסווגים יעילים מתוך מספר קטן בלבד דוגמאות לאימון.

אפשר לקרוא גם למידה מדוגמה אחת למידה מאפס.

הנחיות מכמה דוגמאות

#language

#generativeAI

הנחיה שמכילה יותר מדוגמה אחת ('מעט') הדגמה של המודל מודל שפה גדול (LLM) צריך להגיב. לדוגמה, ההנחיה הארוכה הבאה מכילה דוגמאות שמראות מודל שפה גדול (LLM) איך לענות על שאילתה.

החלקים של הנחיה אחת	הערות
`מה המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה יצטרך לענות ה-LLM.
`צרפת: EUR`	דוגמה אחת.
`בריטניה: GBP`	דוגמה נוספת.
`הודו:`	השאילתה עצמה.

הנחיות מכמה דוגמאות מניבות תוצאות רצויות יותר בדרך כלל הנחיות מאפס (zero-shot) וגם יצירת הנחיות מדוגמה אחת. אבל כדי לעצב הנחיות עם כמה דוגמאות דורש הנחיה ארוכה יותר.

הנחיות מכמה דוגמאות הן סוג של למידה מכמה דוגמאות שהוחל על למידה מבוססת-הנחיות.

כינור

#language

ספריית הגדרה שמתבססת על עדיפות של Python ומגדירה של פונקציות ומחלקות ללא קוד או תשתית פולשניים. במקרה של Pax – ו-codebases אחרים של למידת מכונה – הפונקציות האלה מחלקות מייצגות מודלים ואימון היפר-פרמטרים.

כינור מניחה שבסיסי קוד של למידת מכונה מחולקים בדרך כלל ל:

קוד הספרייה, שמגדיר את השכבות ואת כלי האופטימיזציה.
'דבק' של מערך הנתונים שקורא לספריות ומחבר את הכל יחד.

Fiddle מתעד את מבנה הקריאה של קוד הדבק ניתנת לשינוי.

כוונון עדין

#language

#image

#generativeAI

מעבר נוסף של אימון ספציפי למשימה שבוצע מודל שעבר אימון מראש כדי לצמצם את הפרמטרים שלו במקרים ספציפיים. לדוגמה, רצף האימון המלא של חלק מודלים גדולים של שפה (LLM) הם:

אימון מראש: לאמן מודל שפה גדול (LLM) על מערך נתונים כללי נרחב, כמו כל דפי הוויקיפדיה באנגלית.
כוונון: מאמנים את המודל שעבר אימון מראש לביצוע משימה ספציפית, למשל, מענה לשאילתות רפואיות. בדרך כלל כוונון עדין מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת, רצף האימון המלא של מודל תמונה גדול ככה:

אימון מראש: אימון מודל תמונה גדול על תמונה כללית גדולה של קבוצת הנתונים, כמו כל התמונות ב-Wikimedia Commons.
כוונון: מאמנים את המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של אורקות.

כוונון עדין יכול לכלול כל שילוב של השיטות הבאות:

שינוי כל המודלים הקיימים של המודל שעבר אימון מראש פרמטרים. פעולה זו נקראת לפעמים כוונון עדין.
שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל השכבות הקרובות ביותר לשכבת הפלט), תוך שמירה על שאר הפרמטרים הקיימים ללא שינוי (בדרך כלל השכבות שהכי קרוב לשכבת הקלט). צפייה כוונון יעיל בפרמטרים.
הוספת שכבות נוספות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר בשכבת פלט.

כוונון עדין הוא סוג של למידת העברה. לכן, כוונון עדין עשוי להשתמש בפונקציית הפסדים שונה או במודל אחר יותר מאלה ששימשו לאימון המודל שעבר אימון מראש. לדוגמה, אפשר: ולכוונן מודל תמונות גדול שעבר אימון מראש כדי ליצור מודל רגרסיה מחזירה את מספר הציפורים בתמונת קלט.

השוו בין כוונון עדין בעזרת המונחים הבאים:

זיקוק
למידה מבוססת-הנחיות

פשתן

#language

קוד פתוח עם ביצועים גבוהים ספרייה עבור למידה עמוקה (Deep Learning) המבוססת על JAX. פלקס מספק פונקציות לצורך אימון רשתות נוירונים, וגם כשיטות להערכת הביצועים.

פלקספורמר

#language

טרנספורמר בקוד פתוח ספרייה, מבוסס על Flax, ומיועד בעיקר לעיבוד שפה טבעית (NLP) ומחקר רב-אופני.

מחיקת השער

#seq

החלק מתוך זיכרון לטווח קצר תא שמווסת את זרימת המידע דרך התא. המערכת שוכחת את השערים ושומרת על ההקשר באמצעות ההחלטה איזה מידע למחוק ממצב התא.

softmax מלא

מילה נרדפת ל-softmax.

השוו לדגימת מועמדים.

שכבה מחוברת

שכבה מוסתרת שבה כל צומת מחובר לכל הצומת בשכבה המוסתרת הבאה.

שכבה שמחוברת באופן מלא נקראת גם שכבה צפופה.

טרנספורמציה של פונקציה

פונקציה שמקבלת פונקציה כקלט ומחזירה פונקציה שעברה טרנספורמציה כפלט. JAX משתמש בטרנספורמציות של פונקציות.

G

GAN

קיצור של Gertary Adversarial .

הכללה

#fundamentals

היכולת של מודל לבצע חיזויים נכונים לגבי של נתונים שלא נצפו בעבר. מודל שאפשר ליצור כללי הוא ההפך של מודל שמתאים במיוחד.

לוחצים על הסמל כדי להציג הערות נוספות.

מאמנים מודל על הדוגמאות שניתנות בערכת האימון. לכן לומד את הייחודיות של הנתונים בערכת האימון. הכללה שואלת אם המודל יכול לבצע חיזויים טובים על דוגמאות שלא לא בקבוצת האימון.

כדי לעודד הכללה, סידור מחדש עוזר לאמן מודל פחות בדיוק למאפיינים ספציפיים של הנתונים בערכת האימון.

Gemini

#language

#image

#generativeAI

הסביבה העסקית שמבוססת על טכנולוגיית ה-AI המתקדמת ביותר של Google. הרכיבים של המערכת האקולוגית הזו כוללים:

מודלים שונים של Gemini.
ממשק השיחה האינטראקטיבי למודל Gemini. המשתמשים מקלידים הנחיות ו-Gemini עונה עליהן.
ממשקי API שונים של Gemini.
מוצרים עסקיים שונים שמבוססים על מודלים של Gemini. לדוגמה, Gemini ל-Google Cloud.

מודלים של Gemini

#language

#image

#generativeAI

הממשק המתקדם של Google שמבוסס על טרנספורמר מודלים רב-אופניים. המודלים של Gemini מתייחסים באופן ספציפי, שמיועדים לשילוב עם סוכנים.

המשתמשים יכולים לקיים אינטראקציה עם המודלים של Gemini במגוון דרכים, כולל ממשק דו-שיח אינטראקטיבי ודרך ערכות SDK.

עקומת הכללה

#fundamentals

תרשים של הפסד באימון וגם אובדן אימות כפונקציה של מספר איטרציות.

עקומת הכללה יכולה לעזור לך לזהות התאמת יתר. לדוגמה, עקומת ההכללה מצביעה על התאמת יתר כי אובדן האימות בסופו של דבר יהיה גבוה באופן משמעותי מההפסד באימון.

גרף קרטזי שבו ציר ה-Y מסומן בתווית 'הפסד' וב'ציר ה-X'
הוא חזרות מתויגות. יופיעו שתי תרשימים. בתרשים אחד ניתן לראות את
והשני מראה את הפסד האימות.
שתי העלילות מתחילות באותו אופן, אבל אובדן האימון בסופו של דבר
יורדים הרבה יותר נמוך מאובדן האימות.

מודל ליניארי כללי

הכללה של רגרסיה של ריבועים מינימליים שמבוססים על גאוס , שמבוססים על סוגים אחרים של רעשים, רעש של פואסון או רעשי רקע. דוגמאות למודלים ליניאריים כלליים:

רגרסיה לוגיסטית
רגרסיה רב-שלבית
רגרסיה של ריבועים לפחות

אפשר למצוא את הפרמטרים של מודל ליניארי כללי אופטימיזציה של המרות קמורות.

מודלים ליניאריים כלליים מייצגים את המאפיינים הבאים:

החיזוי הממוצע של מודל הרגרסיה האופטימלי של הריבועים הקטנים ביותר הוא שווה לתווית הממוצעת בנתוני האימון.
ההסתברות הממוצעת שחזויה לפי הרגרסיה הלוגיסטית האופטימלית שווה לתווית הממוצעת בנתוני האימון.

הכוח של מודל ליניארי כללי מוגבל על ידי התכונות שלו. ביטול הלייק מודל ליניארי כללי לא יכול "ללמוד תכונות חדשות".

רשת למידה חישובית גנרטיבית (GAN)

מערכת ליצירת נתונים חדשים שבהם יוצר מחולל ומודל הבחנה קובע אם הנתונים שנוצרו חוקיים או לא חוקיים.

בינה מלאכותית גנרטיבית

#language

#image

#generativeAI

תחום מתפתח ומהנה ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של בינה מלאכותית גנרטיבית תיצור ('ליצור') תוכן שעונה על כל הקריטריונים הבאים:

מורכב
קוהרנטית
מקורית

לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור מאמרים או תמונות.

כמה מהטכנולוגיות הקודמות, כולל LSTMs וRNN, יכולות גם ליצור קוהרנטית. חלק מהמומחים מתייחסים לטכנולוגיות הקודמות האלה לגבי בינה מלאכותית גנרטיבית, ואילו אחרים מרגישים שבינה מלאכותית גנרטיבית מסובכת יותר ממה שהטכנולוגיות הקודמות יכולות לייצר.

השוו בין למידת מכונה חזויה.

מודל גנרטיבי

בפועל, מודל שעושה אחת מהפעולות הבאות:

יוצר (יוצר) דוגמאות חדשות ממערך הנתונים לאימון. לדוגמה, מודל גנרטיבי יכול ליצור שירה אחרי האימון. לפי מערך נתונים של שירים. החלק של המחולל רשת למידה חישובית גנרטיבית משתייכים לקטגוריה הזו.
היא קובעת את ההסתברות שדוגמה חדשה תגיע או שהיא נוצרה מאותו מנגנון שיצר במערך האימון. לדוגמה, אחרי אימון מערך נתונים שמורכב ממשפטים באנגלית, מודל גנרטיבי לקבוע את ההסתברות שקלט חדש הוא משפט תקף באנגלית.

מודל גנרטיבי יכול להבחין באופן תיאורטי של ההתפלגות של דוגמאות או תכונות מסוימות במערך נתונים. כלומר:

p(examples)

מודלים של למידה בלתי מונחית הם גנרטיביים.

השוו בין מודלים מפלה.

מחולל

מערכת המשנה בתוך מודל יריב גנרטיבי ערוץ שיוצרת דוגמאות חדשות.

סתירה עם מודל מפלה.

טוהר ג'יני

#df

מדד שדומה ל-entropy. פוצצים משתמשים בערכים שנגזרים מ-gini impurity או מאנטרופיה כדי להרכיב תנאים לסיווג עצי החלטות. איסוף מידע נגזר מאנטרופיה. אין מונח מקביל ומקובל באופן אוניברסלי עבור המדד שנגזר מפני טוהר ג'יני, עם זאת, המדד הזה ללא שם חשוב באותה מידה מידע נוסף.

זיהום ג'יני נקרא גם מדד ג'יני, או פשוט gini.

ניתן ללחוץ על הסמל כדי לקבל פרטים מתמטיים על בוהק של ג'יני.

טוהר ג'יני הוא ההסתברות לסיווג שגוי של קטע נתונים חדש נלקחות מאותה התפלגות. הטוהר הג'יני של סט עם ערכים אפשריים "0" ו-'1' (לדוגמה, התוויות סיווג בינארי) מחושב לפי הנוסחה הבאה:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

איפה:

I הוא הטוהר הג'יני
p הוא החלק של '1' דוגמאות.
q הוא החלק של '0' דוגמאות. שימו לב ש-q = 1-p

לדוגמה, נבחן את מערך הנתונים הבא:

100 תוויות (0.25 במערך הנתונים) מכילות את הערך 1
300 תוויות (0.75 במערך הנתונים) מכילות את הערך 0

לכן, הטוהר של הג'יני הוא:

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

כתוצאה מכך, לתווית אקראית מאותו מערך נתונים יש סיכוי של 37.5% לא מסווג באופן שגוי, וסיכוי של 62.5% לקבל סיווג מתאים.

תווית מאוזנת לחלוטין (לדוגמה, 200"0" ו-200"s) תהיה טוהר ג'יני של 0.5. מאוד התווית לא מאוזנת תכלול ל-gini impeity כמעט מ-0.0.

מערך נתונים ברמת הזהב

קבוצת נתונים שנאספו באופן ידני ומתעדים אמת קרקע. צוותים יכולים להשתמש במערך נתונים אחד או יותר כדי להעריך את איכות המודל.

חלק ממערכי הנתונים המוזהבים מתעדים תת-דומיינים שונים של אמת קרקע. לדוגמה, מערך נתונים מוזהב לסיווג תמונות עשוי לתעד את תנאי התאורה ורזולוציית תמונה.

GPT (טרנספורמר גנרטיבי שעבר אימון מראש)

#language

משפחה שמבוססת על טרנספורמר מודלים גדולים של שפה (LLM) שפותחו על ידי OpenAI.

וריאציות של GPT יכולות לחול על כמה שיטות, כולל:

יצירת תמונות (לדוגמה, ImageGPT)
של טקסט לתמונה (לדוגמה, DALL-E).

הדרגתי

הווקטור של נגזרות חלקיות ביחס את כל המשתנים הבלתי תלויים. בלמידת מכונה, ההדרגתיות היא הווקטור של נגזרות חלקיות של פונקציית המודל. נקודות ההדרגתיות לכיוון העלייה התלולה ביותר.

הצטברות הדרגתית

שיטת הפצה לאחור שמעדכנת את פרמטרים רק פעם אחת בכל תקופה ולא פעם אחת בכל בחזרה הקודמת. לאחר העיבוד של כל מיני-אצווה, הדרגתי המצטברות פשוט מעדכנת את הסכום הכולל של הדרגה. ואז, אחרי לאחר עיבוד המיני-אצווה האחרון בשלב מוקדם, המערכת מתעדכנת בסופו של דבר את הפרמטרים על סמך הסכום הכולל של כל השינויים ההדרגתיים.

צבירה הדרגתית שימושית כאשר גודל האצווה הוא גדול מאוד בהשוואה לכמות הזיכרון הזמינה לאימון. כשהזיכרון הוא בעיה, הנטייה הטבעית היא להקטין את כמות הקבצים. עם זאת, צמצום גודל הקבצים בהפצה רגילה כבר עלייה מספר עדכוני הפרמטרים. צבירה הדרגתית מאפשרת את המודל כדי להימנע מבעיות זיכרון אבל עדיין לאמן ביעילות.

עצים מוגברים הדרגתיים (החלטה) (GBT)

#df

סוג של יער החלטות שבו:

האימון מבוסס על שיפור הדרגתי.
המודל החלש הוא עץ החלטות.

הגדלה הדרגתית

#df

אלגוריתם אימון שבו מודלים חלשים מאומנים באופן איטרטיבי לשפר את האיכות (לצמצם את האובדן) של מודל חזק. לדוגמה, מודל חלש יכול להיות מודל ליניארי או מודל של עץ החלטות קטן. המודל החזקה הופך לסכום של כל המודלים החלשים שאימנו קודם לכן.

בצורה הפשוטה ביותר של שיפור הדרגתי, בכל איטרציה, מודל חלש מאומנות כדי לחזות את הדרגתיות של הפסד של המודל החזקה. לאחר מכן, הפלט של מודל חזק מתעדכן על ידי חיסור ההדרגתיות החזויה, בדומה לירידה הדרגתית.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

איפה:

$F_{0}$ הוא המודל החזקה מתחיל.
$F_{i+1}$ הוא המודל החזקה הבא.
$F_{i}$ הוא המודל החזקה הנוכחי.
$\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא כיווץ, מקביל קצב למידה ב- ירידה הדרגתית.
$f_{i}$ הוא המודל החלשה שאומן לחזות את הדרגתיות של אובדן $F_{i}$.

וריאציות מודרניות של הגדלה הדרגתית כוללות גם את הנגזרת השנייה (הסיאן) של האובדן בחישובים שלהם.

עצי החלטה משמשים בדרך כלל כמודלים חלשים הגדלה הדרגתית. צפייה עצים מוגברים בהדרגתיות (החלטה).

חיתוך הדרגתי

#seq

מנגנון נפוץ לצמצום פיצוץ של בעיה הדרגתית באמצעות הגבלת הערך המקסימלי של הדרגה כשמשתמשים ירידה הדרגתית כדי לאמן מודל.

ירידה הדרגתית

#fundamentals

שיטה מתמטית לצמצום הפסד. תהליך ירידה הדרגתי משתנה באופן חזרתי משקולות והטיות, למצוא בהדרגה את השילוב הטוב ביותר כדי למזער את האובדן.

תהליך הירידה ההדרגתי הוא ישן יותר – הרבה, הרבה יותר ישן – מלמידת מכונה.

תרשים

#TensorFlow

ב-TensorFlow, מפרט מחשוב. הצמתים בתרשים שמייצגים פעולות. הקצוות מכוונים ומייצגים את העברת התוצאה של פעולה (Tensor) בתור לפעולה אחרת. כדאי להשתמש TensorBoard כדי להציג תרשים באופן חזותי.

ביצוע תרשים

#TensorFlow

סביבת תכנות של TensorFlow שבה התוכנה בונה תרשים ולאחר מכן מפעיל את כל התרשים או חלק ממנו. תרשים הוא מצב הביצוע שמוגדר כברירת מחדל ב-TensorFlow 1.x.

השוו בין ביצוע eene.

המדיניות בנושא אלגוריתם חמדן

#rl

בלמידת חיזוק, מדיניות שבוחרת תמיד הפעולה עם ההחזר הצפוי ביותר.

אמת קרקע

#fundamentals

מציאות.

מה שקרה בפועל.

לדוגמה, שימו לב לסיווג בינארי שחוזה אם תלמיד בשנת הלימודים הראשונה שלו תסיים את הלימודים בתוך שש שנים. האמת לגבי המודל הזה היא אם או ולא שהתלמיד סיים את הלימודים תוך שש שנים.

לוחצים על הסמל כדי להציג הערות נוספות.

אנחנו מעריכים את איכות המודל מול האמת. אבל האמת לא תמיד שלם, נכון, אמיתי. לדוגמה, נבחן את הדוגמאות הבאות לפגמים אפשריים באמת קרקע:

בדוגמה של סיום הלימודים, האם אנחנו בטוחים שהשלמת לגבי כל תלמיד ותלמידה, הם תמיד נכונים? האם האוניברסיטה שמירת התיעוד בצורה מושלמת?
נניח שהתווית היא ערך של נקודה צפה (floating-point) שנמדד באמצעות מכשירים (למשל, ברומטרים). איך אנחנו יכולים להיות בטוחים שכל כלי מתבצע כיול זהה או שכל מדידה בוצעה לנסיבות?
אם התווית היא עניין של דעה אנושית, איך אנחנו יכולים להיות בטוחים כל מדרג אנושי מעריך אירועים באותה דרך? כדי לשפר את העקביות, לפעמים מדרגים אנושיים מומחים להתערב.

הטיית שיוך בקבוצה

#fairness

בהנחה שמה שרלוונטי לאדם פרטי, נכון גם לגבי כולם בקבוצה הזאת. ההשפעות של הטיית השיוך הקבוצתית עלולות להחמיר אם דגימת נוחות משמש לאיסוף נתונים. במדגם לא מייצג, ייחוסים שלא משקפות את המציאות.

ראו גם הטיה והומוגניות של קבוצה מחוץ לקבוצה והטיה בתוך הקבוצה.

H

הזיה

#language

הפקת פלט שנראה סביר אבל שגוי עובדתי על ידי של בינה מלאכותית גנרטיבית, שמתיימר ליצור טענות נכונות (assertions) לגבי העולם האמיתי. לדוגמה, מודל של בינה מלאכותית גנרטיבית שטוען שברק אובמה מת בשנת 1865 יש תגובה חיובית.

גיבוב (hashing)

בלמידת מכונה, מנגנון ליצירת קטגוריות נתונים קטגוריים, במיוחד כאשר המספר מספר הקטגוריות גדול, אבל מספר הקטגוריות שמופיעות בפועל במערך הנתונים קטן יחסית.

לדוגמה, ב-Earth יש כ-73,000 זני עצים. אפשר שמייצגים כל אחד מ-73,000 זני העצים ב-73,000 מינים שונים קטגוריות. לחלופין, אם רק 200 מזני העצים האלו מופיעים בפועל במערך נתונים, אפשר להשתמש בגיבוב (hashing) כדי לחלק מינים של עצים למשל 500 קטגוריות.

קטגוריה אחת יכולה להכיל מספר מינים של עצים. לדוגמה, גיבוב (hashing) יכולים למקם את באובב ומייפל אדום – שני דברים שונים מבחינה גנטית לאותה קטגוריה. לא משנה, גיבוב (hashing) הוא עדיין דרך טובה למפות קבוצות גדולות של קטגוריות למספר הקטגוריות שנבחר. הגיבוב הופך תכונה מסווגת שיש לה מספר גדול של ערכים אפשריים באמצעות קיבוץ של ערכים במספר קטן יותר של ערכים בדרך דטרמיניסטית.

היוריסטיקה

פתרון פשוט ויעיל לבעיה. לדוגמה, "באמצעות היוריסטיקה השגנו 86% דיוק. כשעברנו לתרחיש לדוגמה רשת עצבית עמוקה, הדיוק עלה ל-98%."

שכבה נסתרת

#fundamentals

שכבה ברשת נוירונים בין inputLayer (התכונות) שכבת הפלט (החיזוי). כל שכבה מוסתרת מורכבת מנוירונים אחד או יותר. לדוגמה, רשת הנוירונים הבאה מכילה שתי שכבות נסתרות, הראשון עם שלושה נוירונים והשני עם שני נוירונים:

רשת נוירונים עמוקה מכילה יותר מרשת נוירונים עמוקה או שכבה נסתרת. לדוגמה, האיור שלמעלה הוא דוגמת עיצוב נוירונים רשת מכיוון שהמודל מכיל שתי שכבות נסתרות.

אשכולות היררכיים

#clustering

קטגוריה של אלגוריתמים של קיבוץ לאשכולות שיוצרים עץ של אשכולות. אשכולות היררכיים מתאימים מאוד לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של היררכיה אלגוריתמים של קיבוץ לאשכולות:

קיבוץ אגרגטיבים מקצה קודם כל דוגמה לאשכול משלו, היא ממזגת באופן חזרתי את האשכולות הקרובים ביותר כדי ליצור היררכיה עץ.
קיבוץ אשכולות מקבץ קודם את כל הדוגמאות לאשכול אחד, ואז הוא מחלק את האשכול באופן חזרתי לעץ היררכי.

השוו בין אשכולות מבוססי מרכז.

אובדן צירים

משפחה של אובדן פועלת סיווג שמטרתו למצוא גבול החלטה, רחוק ככל האפשר מכל דוגמה לאימון, וכך למקסם את השוליים בין הדוגמאות לגבולות. מכונות KSVM משתמשות באובדן ציר (או בפונקציה קשורה כמו אובדן צירים בריבוע). לסיווג בינארי, הפונקציה של אובדן צירים מוגדרת כך:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

כאשר y הוא התווית האמיתית, -1 או +1, ו-y' הוא הפלט הגולמי של מודל הסיווג:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

כתוצאה מכך, תרשים של אובדן צירים לעומת (y * y') נראה כך:

תרשים קרטזי שמורכב משני קטעי קו מחוברים. הראשון
קטע הקו מתחיל ב-(3, 4) ומסתיים ב- (1, 0). השורה השנייה
קטע מתחיל ב- (1, 0) וממשיך ללא הגבלת זמן עם שיפוע
מתוך 0.

הטיה היסטורית

#fairness

סוג של הטיה שכבר קיימת בעולם נכנס למערך נתונים. ההטיות האלה נוטים לשקף סטריאוטיפים תרבותיים, אי שוויון דמוגרפי ודעות קדומות קבוצות חברתיות.

לדוגמה, נבחן מודל סיווג חוזה אם מגיש הבקשה להלוואה יהיה ברירת מחדל של ההלוואה, לאימון לפי נתוני ברירת מחדל היסטוריים של הלוואות משנות ה-80 של המאה ה-20, מהבנקים המקומיים, קהילות שונות. אם מספר המועמדים בעבר מקהילה א' היה גבוה פי 6 שסביר להניח שישלחו את ההלוואות כברירת מחדל בהשוואה למועמדים מקהילה ב', המודל עשוי ללמוד הטיה היסטורית, וכתוצאה מכך יש סיכוי נמוך יותר שהמודל לאשר הלוואות בקהילה א', גם אם התנאים ההיסטוריים שנגרמו כתוצאה שיעורי ברירת המחדל הגבוהים יותר של הקהילה כבר לא היו רלוונטיים.

נתוני החזקה לצורך משפטי

דוגמאות שלא נעשה בהן שימוש מכוון ('לא בוטלה') במהלך האימון. מערך הנתונים של האימות מערך נתוני בדיקה הם דוגמאות לנתוני השהיה. נתוני השהייה עוזרת להעריך את יכולת המודל להכליל נתונים מלבד הנתונים שהיא אומנה לפיהם. האובדן בקבוצת ההשהיה הדרגתית משפר את להעריך של האובדן במערך נתונים שלא נצפה מזה של האובדן ערכת האימון.

מארח

#TensorFlow

#GoogleCloud

כשמאמנים מודל למידת מכונה על צ'יפים של מאיצים (מעבדי GPU או TPU), החלק במערכת ששולט בשני הרכיבים הבאים:

התהליך הכולל של הקוד.
חילוץ וטרנספורמציה של צינור עיבוד הנתונים.

המארח פועל בדרך כלל במעבד (CPU), ולא בצ'יפ מאיץ. ה device מבצע מניפולציות על כלי כוונון שבבי מאיצים.

היפר-פרמטר

#fundamentals

המשתנים שאתם או שירות כוונון של היפר-פרמטרים לבצע התאמות במהלך רציפות של אימון מודל. לדוגמה, קצב למידה הוא היפר-פרמטר. אפשר להגדיר את קצב הלמידה ל-0.01 לפני סשן אימון אחד. אם אם תציינו ש-0.01 גבוה מדי, אולי תוכלו להגדיר את הלמידה ל-0.003 בסשן ההדרכה הבא.

לעומת זאת, פרמטרים משקולות ודעה קדומה שלפיה המודל לומד במהלך האימון.

היפר-מטוס

תחום שמפריד בין רווח לשני תת-מרחבים. לדוגמה, קו הוא היפר-מישור בשני ממדים ומישור הוא היפר-מישור בשלושה ממדים. בדרך כלל בלמידת מכונה, היפר-מישור הוא הגבול שמפריד שטח רב-ממדי. השימוש במכונות וקטוריות לתמיכה בליבה (Kernel) היפר-מישורים להפרדת מחלקות חיוביות מסיווגים שליליים, לעיתים קרובות שטח רב-ממדי.

I

i.i.d.

קיצור של הפצה עצמאית וזהה.

זיהוי תמונות, זיהוי תמונה

#image

תהליך שמסווג אובייקטים, תבניות או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.

מידע נוסף זמין במאמר הבא: ML Practicum: סיווג תמונות.

מערך נתונים לא מאוזן

מילה נרדפת למערך נתונים עם איזון בכיתה.

הטיה מרומזת

#fairness

שיוך אוטומטי של שיוך או הנחה לפי דעתו של אחד מודלים של טרנספורמרים וזיכרונות. הטיה מרומזת יכולה להשפיע על:

איך נאספים ומסווגים נתונים?
איך מערכות למידת מכונה תוכננו ומפתחים.

לדוגמה, כשיוצרים מסַווג לזיהוי תמונות מחתונה, מהנדס יכול להשתמש בהצגה של שמלה לבנה בתמונה כמאפיין. יחד עם זאת, השמלות הלבנות נהוגות רק בתקופות מסוימות בתרבויות מסוימות.

ראו גם הטיית אישור.

יישום

חישובים של הערך בצורה קצרה

חוסר תאימות של מדדי הוגנות

#fairness

הרעיון שכמה מושגים של הוגנות אינם תואמים זה לזה, לא יכול להיות מרוצה בו-זמנית. כתוצאה מכך, אין מדד אוניברסלי למדידת הוגנות שאפשר להחיל על כל הבעיות של למידת מכונה.

זה עשוי להיראות מרתיע, אבל חוסר התאמה למדדי ההוגנות לא מרמזת על כך שמאמצי ההוגנות לא מניבים תוצאות. במקום זאת, שצריך להגדיר את ההוגנות בהקשר לבעיה נתונה של למידת מכונה, במטרה למנוע פגיעה ספציפית בתרחישים לדוגמה שלו.

ראו " (ה) אפשרות של הוגנות", לדיון מפורט יותר בנושא הזה.

למידה בהקשר

#language

#generativeAI

מילה נרדפת להנחיות מכמה דוגמאות.

מופצת באופן עצמאי וזהה (i.d)

#fundamentals

נתונים הנובעים מהתפלגות שלא משתנה, ואיפה כל ערך לא תלויים בערכים שציירנו קודם לכן. מזהה הוא הגז האידיאלי של מכונה למידת מכונה - מבנה מתמטי שימושי, אך כמעט אף פעם לא נמצא בדיוק בעולם האמיתי. לדוגמה, התפלגות המבקרים בדף אינטרנט יכול להיות תוך חלון זמן קצר; כלומר, ההתפלגות לא במהלך החלון הקצר הזה וביקור של אדם אחד בדרך כלל ללא תלות בביקור של אדם אחר. אבל, אם מרחיבים את חלון הזמן הזה, עשויים להופיע הבדלים עונתיים בין המבקרים בדף האינטרנט.

ניתן לעיין גם במאמר לא תחנה.

הוגנות אישית

#fairness

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, ייתכן ש-Brobdingnagian Academy הוגנות אישית באמצעות הקפדה על כך ששני תלמידים בעלי ציונים זהים וציונים סטנדרטיים בבחינות צפויים במידה שווה לקבל הרשמה.

לתשומת לבכם, הוגנות אינדיבידואלית מסתמכת לחלוטין על האופן שבו אתם מגדירים 'דמיון' (במקרה הזה, הציונים וציוני המבחן), ואפשר לסכן את הוספת בעיות חדשות הוגנות אם חסר מידע חשוב במדד הדמיון מידע (למשל, רמת הדיוק של תוכנית הלימודים של התלמיד).

ראו "דרך הוגנות מוּדעוּת" לדיון מפורט יותר לגבי הוגנות אינדיבידואלית.

הֶקֵּשׁ,

#fundamentals

בלמידת מכונה, תהליך יצירת תחזיות על ידי החלת מודל מאומן על דוגמאות ללא תווית.

להשערה יש משמעות שונה מעט בסטטיסטיקה. לצפייה מאמר בוויקיפדיה על מסקנות סטטיסטיות.

נתיב ההסקה

#df

בעץ ההחלטות, במהלך הסקה, את המסלול שדוגמה מסוימת לוקחת root לתנאים אחרים, שמסתיים ב- עלה. לדוגמה, בעץ ההחלטות הבא, בחיצים עבים יותר, אתם יכולים לראות את נתיב ההסקה לדוגמה. :

x = 7
y = 12
z = -3

נתיב ההסקה באיור הבא עובר דרך שלוש תנאים לפני הגעה לעלה (Zeta).

עץ החלטות שמורכב מארבעה תנאים וחמישה עלים.
התנאי הבסיסי הוא (x > 0). מאחר שהתשובה היא 'כן',
נתיב ההסקה עובר מהשורש לתנאי הבא (y > 0).
מכיוון שהתשובה היא 'כן', נתיב ההסקה עובר
התנאי הבא (z > 0). מכיוון שהתשובה היא 'לא', נתיב ההסקה
עובר לצומת הטרמינל שלו, שהוא העלה (Zeta).

שלושת החיצים העבים מראים את נתיב ההסקה.

איסוף מידע

#df

ביערות החלטה, ההבדל בין אנטרופיה של צומת והשקלול (לפי מספר הדוגמאות) סכום האנטרופיה של צמתי הצאצאים. האנטרופיה של צומת היא האנטרופיה של הדוגמאות שבצומת הזה.

לדוגמה, נבחן את ערכי האנטרופיה הבאים:

האנטרופיה של צומת ההורה = 0.6
אנטרופיה של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
ב-צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

לכן 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות צומת צאצא אחר. לכן:

סכום האנטרופיה המשוקללת של צומתי צאצא = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

כלומר, כמות המידע שמתקבלת היא:

השגת מידע = אנטרופיה של צומת הורה – סכום אנטרופיה משוקלל של צומתי צאצא
רווח מידע = 0.6 - 0.14 = 0.46

רוב המפזרים מנסים ליצור תנאים כדי להפיק מידע מקסימלי.

הטיה בתוך הקבוצה

#fairness

הצגת חלקיות על הקבוצה של עצמך או על המאפיינים שלו. אם הבודקים או המדרגים כוללים חברים של מפתח למידת המכונה, בני משפחה או עמיתים, הטיה בתוך הקבוצה עלולה לשלול את התוקף של בדיקת המוצרים או את מערך הנתונים.

הטיה בתוך הקבוצה היא סוג של הטיה בשיוך קבוצתי. ראו גם הטיה והומוגניות של קבוצה מחוץ לקבוצה.

מחולל קלט

מנגנון שבאמצעותו הנתונים נטענים רשת נוירונים.

אפשר להתייחס למחולל קלט כרכיב שאחראי לעיבוד לנתונים הגולמיים לטנסטורים, שעברו איטרציה כדי ליצור אצוות אימון, הערכה והסקת מסקנות.

שכבת קלט

#fundamentals

השכבה של רשת נוירונים מכילה את הוקטור של התכונה. כלומר, שכבת הקלט, שמספק דוגמאות לאימון הֶקֵּשׁ. לדוגמה, שכבת הקלט בדוגמה הבאה רשת נוירונים מורכבת משתי תכונות:

ארבע שכבות: שכבת קלט, שתי שכבות מוסתרות ושכבת פלט.

תנאי מוגדר

#df

בעץ החלטות, יוצרים תנאי שבודק אם יש פריט אחד בקבוצת פריטים. לדוגמה, הדוגמה הבאה היא תנאי מוגדר:

  house-style in [tudor, colonial, cape]

במהלך ההסקה, אם הערך של התכונה בסגנון בית הוא tudor או colonial או cape, אז התנאי הזה מקבל את הערך 'כן'. אם המיקום הערך של התכונה 'סגנון בית' הוא משהו אחר (לדוגמה, ranch), התנאי הזה מקבל את הערך 'לא'

תנאים קבועים בדרך כלל מובילים לעצי החלטה יעילים יותר מאשר תנאים שבודקים תכונות בקידוד חם אחד.

מכונה

example מילה נרדפת.

כוונון לפי הוראות

#generativeAI

סוג של כוונון עדין שמשפר היכולת של מודל בינה מלאכותית גנרטיבית לפעול לפי הוראות להתאמה אישית. כוונון של הוראות כולל אימון של מודל לפי סדרה של הנחיות, שכוללות בדרך כלל מגוון משימות. לאחר מכן המודל שמכוונן לפי הוראות ליצור תשובות שימושיות להנחיות מאפס במגוון משימות.

השוו והבדילו עם:

כוונון יעיל בפרמטרים
כוונון הנחיות

בינה מלאכותית

#fundamentals

היכולת להסביר או להציג את ההיגיון של מודל למידת מכונה במונחים מובנים לאדם.

למשל, רוב המודלים של רגרסיה ליניארית מאוד לפענוח, צריך רק לבדוק את המשקולות לאחר אימון feature.) גם ביערות החלטה ניתן להבין בצורה משמעותית. עם זאת, חלק מהמודלים נדרש תצוגה מתוחכמת כדי שתהיה ניתנת להבנה.

אפשר להשתמש הכלי חיזוי תוצאות הלמידה (LIT) כדי לפרש מודלים של למידת מכונה.

הסכם בין המדרגים

מדידה של התדירות שבה מדרגים אנושיים מסכימים כשהם מבצעים משימה. אם המדרגים לא מסכימים, ייתכן שצריך לשפר את הוראות המשימה. נקרא לפעמים גם הסכם עם המשתמשים שיכולים להוסיף הערות, או אמינות בין המדרגים. עוד באותו הקשר kappa, שהוא אחד מהמדידות הפופולריות ביותר של הסכם בין תעריפים.

הצטלבות דרך איחוד (IoU)

#image

הצטלבות של שתי קבוצות חלקי האיחוד שלהן. בלמידת מכונה וגם משימות של זיהוי תמונה, IoU משמש למדידת הדיוק שנחזתה תיבה תוחמת ביחס תיבה תוחמת מסוג ground truth. במקרה הזה, ה-IoU של שתי תיבות הן היחס בין האזור החופף לשטח הכולל, הערך שלו נע בין 0 (ללא חפיפה בין התיבה החזויה החזויה לבין האמת היבשתית תיבה תוחמת (bounding box) ל-1 (החיזוי של תיבה תוחמת (bounding box) והתיבה הזאת יש את אותן הקואורדינטות בדיוק).

למשל, בתמונה הבאה:

התיבה התוחמת החזויה (הקואורדינטות המפרידות בין המקומות שבהם המודל חוזה שטבלת הלילה בציור נמצאת) מתוארת בסגול.
התיבה התוחמת בקרקע (הקואורדינטות המפרידות בין מיקום הלילה) שהטבלה בציור ממוקמת בפועל) מסומנת בירוק.

ציור ואן גוך של 'חדר השינה של וינסנט בארל', שכולל שני ציורים
תיבה עם קוביות מסביב לשולחן העבודה ליד המיטה. האמת
תיבה תוחמת (בירוק) שמקיפה את שולחן הלילה בצורה מושלמת.
תיבה תוחמת צפויה (בסגול) מתקזזת ב-50% למטה וימינה
של התיבה התוחמת אמת-קרקע; הוא כולל את הרבעון הימני התחתון
של שולחן הלילה, אבל פספס את שאר השולחן.

כאן, ההצטלבויות של התיבות התוחמות לחיזוי ואמת קרקע (מתחת לשמאל) הוא 1, והאיחוד של התיבות התוחמות לחיזוי ערך הבסיס (מתחת מימין) הוא 7, כך שה-IoU הוא $\frac{1}{7}$.

אותה תמונה כמו למעלה, אבל כל תיבה תוחמת (bounding box) מחולקת לארבע
מרובעים. יש שבעה רבעונים סה"כ, כך שהפינה הימנית התחתונה
בריבוע של התיבה התוחמת של אמת הקרקע והבפינה השמאלית העליונה
בריבוע של התיבה התוחמת החזויה חופף זה לזה. הזה
הקטע החופף (מודגש בירוק) מייצג את
ושטחו 1.

IoU

קיצור של intersection over union.

מטריצת פריטים

#recsystems

במערכות ההמלצות, של וקטורים של הטמעה שנוצרה על ידי פירוק לגורמים של מטריצות שכולל אותות נסתרים לגבי כל פריט. כל שורה במטריצת הפריטים מכילה את הערך של אובייקט לטנטי יחיד לכל הפריטים. לדוגמה, נבחן מערכת המלצות על סרטים. כל עמודה במטריצת הפריטים שמייצגת סרט אחד. האותות הסמויים שמייצג ז'אנרים או שלפעמים יהיה קשה יותר לפרש אותו אותות שכוללים אינטראקציות מורכבות בין ז'אנרים, כוכבים, של סרט מסוים, או גורמים אחרים.

במטריצת הפריטים יש אותו מספר עמודות כמו ביעד שמפירים לגורמים את המטריצה. לדוגמה, כשמזינים סרט מערכת המלצות שמעריכה 10,000 כותרי סרטים, מטריצת הפריטים תכלול 10,000 עמודות.

פריטים

#recsystems

במערכת המלצות, הישויות שמערכת ממליצה עליהם. לדוגמה, סרטונים הם הפריטים בחנות סרטונים מומלץ, ואילו ספרים הם הפריטים שמומלצים על ידי חנות ספרים.

איטרציה

#fundamentals

עדכון יחיד של פרמטרים של מודל – משקולות והטיות – במהלך אימון. גודל האצווה קובע מספר הדוגמאות שהמודל מעבד באיטרציה אחת. לדוגמה, אם גודל המקבץ הוא 20, המודל יעבד 20 דוגמאות לפני לשנות את הפרמטרים.

במהלך אימון של רשת נוירונים, איטרציה אחת כוללת את שני האישורים הבאים:

מעבר קדימה כדי להעריך הפסד באצווה אחת.
מעבר אחורה (הפצה לאחור) לשינוי של של המודל על סמך ההפסד וקצב הלמידה.

J

JAX

ספריית מחשוב מסוג 'מערך', שמאחדת XLA (אלגברה לינארית מואצת) ובידול אוטומטי למחשוב מספרי בעל ביצועים גבוהים. JAX מספק מודל פשוט וחזק API לכתיבת קוד מספרי מואץ עם טרנספורמציות קומפוזביליות. JAX מספק תכונות כמו:

grad (הבחנה אוטומטית)
jit (אוסף 'בדיוק בזמן')
vmap (חלוקה אוטומטית לווקטורים או קיבוץ)
pmap (טעינה מקבילה)

JAX היא שפה שנועדה לבטא ולחבר טרנספורמציות של מספרים מקביל ל-NumPy של Python, אבל הוא בעל היקף גדול בהרבה. לספרייה. (למעשה, ספריית ה- .numpy מתחת ל-JAX היא מקבילה מבחינה פונקציונלית, אבל זו גרסה משוכתבת לגמרי של ספריית Python NumPy).

JAX מתאים במיוחד להאצת משימות רבות של למידת מכונה על ידי טרנספורמציה של המודלים והנתונים לצורה שמתאימה ל המקבילות ב-GPU ובTPU צ'יפים של מאיץ.

Flax, Optax, Pax ועוד הרבה ספקים ובתשתית JAX.

K

Keras

API פופולרי ללמידת מכונה של Python. Keras פועל על כמה מסגרות של למידה עמוקה (Deep Learning), כולל TensorFlow, זמין בתור tf.keras.

מכונות וקטורים לתמיכה בליבה (KSVMs)

אלגוריתם סיווג שמטרתו להגדיל את השוליים בין חיוביות וגם סיווגים שליליים על ידי מיפוי וקטורים של נתוני קלט למרחב עם ממדים גבוהים יותר. לדוגמה, נבחן את הסיווג שבה מערך הנתונים של הקלט יש מאה תכונות. כדי להגדיל את השוליים בין סיווגים חיוביים ושליליים, KSVM יכולה למפות באופן פנימי את התכונות האלה מרחב של מיליון מימדים. מכונות KSVM משתמשות בפונקציית הפסד שנקראת אובדן צירים.

נקודות מפתח

#image

הקואורדינטות של ישויות מסוימות בתמונה. לדוגמה, עבור של זיהוי תמונות שמבדיל מיני פרחים, נקודות מפתח עשויות להיות המרכז של כל עלה כותרת, גזע, את האבן וכן הלאה.

אימות פי K-F

אלגוריתם לחיזוי יכולתו של מודל לכלול נתונים חדשים. הערך k ב-k Fold מתייחס מספר הקבוצות שוות שאליהן מחלקים את הדוגמאות של מערך נתונים; כלומר, מאמנים ובדקו את המודל כמה פעמים. לכל סבב של אימון ובדיקה, קבוצה אחרת היא קבוצת הבחינה, וכל הקבוצות שנשארות הופכות לאימון הוגדרה. לאחר K סבבים של אימון ובדיקה, אתם מחשבים את הממוצע סטיית תקן של מדדי הבדיקה שנבחרו.

למשל, נניח שמערך הנתונים מכיל 120 דוגמאות. הנחה נוספת, אתם מחליטים להגדיר את k ל-4. לכן, אחרי ערבוב הדוגמאות, מחלקים את מערך הנתונים לארבע קבוצות שוות של 30 דוגמאות ועורכים סבבי אימון/בדיקה:

מערך נתונים מחולק לארבע קבוצות שוות של דוגמאות. בסיבוב 1,
שלוש הקבוצות הראשונות משמשות לאימון, והקבוצה האחרונה
משמש לבדיקה. בסיבוב 2, שתי הקבוצות הראשונות והאחרונה
משמשים לאימון, והקבוצה השלישית משמשת לאימון.
בדיקה. בסבב 3, הקבוצה הראשונה ושתי הקבוצות האחרונות
משמשת לאימון, והקבוצה השנייה משמשת לבדיקה.
בסבב 4, הקבוצה הראשונה משמשת לבדיקה, והקבוצה הסופית
של שלוש קבוצות משתמשים לאימון.

לדוגמה, הפונקציה Mean Squared Error (MSE) יכולה הוא המדד המשמעותי ביותר למודל רגרסיה ליניארית. לכן, ימצא את הממוצע וסטיית התקן של ה-MSE בכל ארבעת הסיבובים.

K-כלומר

#clustering

אלגוריתם פופולרי של קיבוץ לאשכולות שמקבץ דוגמאות בלמידה בלתי מונחית. המשמעות של אלגוריתם k-הוא בעצם את הדברים הבאים:

קובע באופן חזרתי את נקודות המרכז (K) הטובות ביותר כמרכזים).
מקצה כל דוגמה למרכז הסוג הקרוב ביותר. הדוגמאות הקרובות ביותר אותו מרכז משתייך לאותה קבוצה.

האלגוריתם k-כלומר בוחר מיקומי מרכזיות כדי לצמצם את ריבוע של המרחקים מכל דוגמה למרכז העיר הקרוב ביותר.

לדוגמה, נבחן את התרשים הבא של גובה הכלב ורוחב הכלב:

תרשים קרטזי עם כמה עשרות נקודות נתונים.

אם k=3, האלגוריתם k-כלומר יקבע שלושה מרכזים. כל דוגמה מוקצית למרכז העיר הקרוב ביותר, ומניבה שלוש קבוצות:

אותה עלילה קרטזית כמו באיור הקודם,
שנוספו להם שלושה מרכזים.
נקודות הנתונים הקודמות מקובצות לשלוש קבוצות נפרדות,
שכל קבוצה מייצגת את נקודות הנתונים הקרובות ביותר
במרכז העיר.

נניח שיצרן רוצה לקבוע את המידות האידיאליות של פריטים קטנים, סוודרים בגודל בינוני וגדול לכלבים. שלושת המוקדים מזהים את הממוצע הגובה והרוחב של כל כלב באשכול הזה. אז היצרן כדאי לבסס את גודל הסוודרים על שלושת המרכזים האלה. שימו לב מרכז האשכול הוא בדרך כלל לא דוגמה באשכול.

באיורים הקודמים רואים k-כלומר לדוגמאות שבהן רק שתי ישויות (גובה ורוחב). שימו לב ש-k-יכול לקבץ דוגמאות על פני מגוון פיצ'רים.

חציון K

#clustering

אלגוריתם של קיבוץ באשכולות שקשור מאוד ל-k-means. ההבדל המעשי בין שני החשבונות הוא:

כלומר, מרכזים נקבעים על ידי מזעור הסכום ריבועים של המרחק בין המועמד במרכז לבין כל אחד את הדוגמאות שלו.
בחציון k, צנטרואידים נקבעים על ידי מזעור סכום המרחק בין המועמד המרכזי לבין כל אחת מהדוגמאות שלו.

שימו לב שההגדרות של מרחק שונות גם הן:

כלומר, מסתמך על מרחק אוקלדי את המרכזי עד לדוגמה. (בשני ממדים, המודל האוקלדיאני מרחק הוא שימוש במשפט פיתגורס כדי לחשב היתר). לדוגמה, המרחק k הוא בין (2,2) ו-(5,-2) יהיו:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median מסתמך על המרחק של מנהטן מהמרכז עד לדוגמה. המרחק הזה הוא הסכום בכל מימד מוחלט. לדוגמה, את החציון k המרחק בין (2,2) לבין (5,-2) יהיה:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

תקינה₀

#fundamentals

סוג של ארגון להעניש את המספר הכולל של משקולות שאינם אפס במודל. לדוגמה, למודל יש 11 משקולות שאינן אפס יוטלו סנקציות על מודל דומה שיש לו 10 משקולות שאינן אפס.

הרגולריזציה של L₀ נקראת לפעמים regularization L0-norm.

לוחצים על הסמל כדי להציג הערות נוספות.

בדרך כלל, סטנדרטיזציה L₀ היא לא פרקטית במודלים גדולים, רמה ₀ של הרגולריזציה הופכת את האימון קבורה אופטימיזציה קלאסית.

הפסד ₁

#fundamentals

פונקציית הפסד שמחשבת את הערך המוחלט של ההבדל בין ערכי התווית בפועל מהם הערכים שמודל חוזים אותם. לדוגמה, הנה חישוב של הפסד ₁ עבור אצווה מתוך חמש דוגמאות:

הערך בפועל של דוגמה	הערך החזוי של המודל	הערך המוחלט של דלתא
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = הפסד ₁ L

אובדן ₁ פחות רגיש לחריגים חשודי טעות מאשר אובדן של L₂.

השגיאה המוחלטת הממוצעת היא הממוצע הפסד ₁ לכל דוגמה.

אפשר ללחוץ על הסמל כדי לראות את החישוב הרשמי.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא הערך שהמודל חוזים בשביל $y$.

תקינה₁

#fundamentals

סוג של ארגון שמוטל עליו סנקציות משקולות ביחס לסכום הערך המוחלט של את המשקולות. הרגולריזציה ₁ עוזרת לעודד את המשקולות של גורמים לא רלוונטיים או תכונות שכמעט לא רלוונטיות ל-0 בדיוק. תכונה עם משקל של 0 מוסר מהמודל.

השוו עם L₂ רגולריזציה.

אובדן ₂ L

#fundamentals

פונקציית הפסד שמחשבת את הריבוע של ההבדל בין ערכי התווית בפועל מהם הערכים שמודל חוזים אותם. לדוגמה, הנה חישוב של הפסד ₂ L עבור אצווה של חמישה דוגמאות:

הערך בפועל של דוגמה	הערך החזוי של המודל	ריבוע דלתא
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = הפסד ₂ L

בגלל ריבוע, הפסד ₂ מגביר את ההשפעה של חריגים יוצאי דופן. כלומר, הפסד של L₂ מגיב חזק יותר לחיזויים גרועים מאשר L₁ הפסד. לדוגמה, הפסד L₁ הקבוצה הקודמת תהיה 8 ולא 16. שימו לב שמאפיין חשבונות חריגים של 9 מתוך ה-16.

מודלים של רגרסיה בדרך כלל משתמשים באובדן L₂ בתור פונקציית הפסד.

השגיאה הממוצעת בריבוע היא הממוצע L₂ הפסד לכל דוגמה. אובדן ריבועי הוא שם נוסף להפסד של L₂.

אפשר ללחוץ על הסמל כדי לראות את החישוב הרשמי.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא הערך שהמודל חוזים בשביל $y$.

תקינה₂

#fundamentals

סוג של ארגון שמוטל עליו סנקציות משקולות ביחס לסכום הריבועים של המשקולות. הרגולריזציה ₂ עוזרת להשיג משקולות חריגות (אלה עם ערכים שליליים גבוהים או שליליים, שקרובים ל-0 אבל לא בדיוק ל-0. תכונות עם ערכים קרובים מאוד ל-0 נשארות במודל אבל לא משפיעות על התחזית של המודל באופן משמעותי.

רמה ₂ תמיד משפרת את ההכללה מודלים לינאריים.

השוו עם L₁ רגולריזציה.

תווית

#fundamentals

בלמידת מכונה בפיקוח, "answer" או 'תוצאה' חלק מ-example.

כל דוגמה מסומנת בתווית מורכבת מדוגמה אחת או יותר תכונות ותווית. לדוגמה, בהודעת ספאם של מערך נתונים, כנראה שהתווית תהיה 'ספאם'. או 'לא ספאם'. במערך נתונים של משקעים, התווית יכולה להיות גשם שירד בפרק זמן מסוים.

דוגמה עם תווית

#fundamentals

דוגמה שכוללת תכונה אחת או יותר וגם label. לדוגמה, הטבלה הבאה מציגה 3 דוגמאות מתויגות מתוך מודל הערכת שווי הבית, כאשר לכל אחת יש שלוש תכונות ותווית אחת:

מספר חדרי שינה	מספר חדרי הרחצה	גיל הבית	מחיר הבית (תווית)
3	2	15	345,000$
2	1	72	179,000$
4	2	34	392,000$

בלמידת מכונה בפיקוח, מודלים מאומנים לפי דוגמאות מתויגות, ומפיקים תחזיות לגבי דוגמאות ללא תווית.

יש להשוות בין דוגמאות עם תוויות לדוגמאות ללא תווית.

דליפת תווית

פגם בעיצוב של המודל שבו תכונה היא שרת proxy label. לדוגמה, כדאי לקחת בחשבון סיווג בינארי שחוזה האם לקוח פוטנציאלי ירכוש מוצר מסוים. נניח שאחת מהתכונות של המודל היא שם בוליאני SpokeToCustomerAgent נניח גם שסוכן לקוחות הוקצה אחרי שהלקוח הפוטנציאלי רכש בפועל את המוצר. במהלך האימון, המודל ילמד במהירות את הקשר בין SpokeToCustomerAgent לבין התווית.

למבדה

#fundamentals

מילה נרדפת לשיעור הנורמליזציה.

Lambda הוא מונח עמוס מדי. כאן נתמקד בהגדרה של regularization.

LaMDA (מודל שפה לאפליקציות דיאלוג)

#language

מודל שמבוסס על טרנספורמר מודל שפה גדול (LLM) שפותח על ידי Google ושאומן על מערך נתונים גדול של דיאלוג שיכול ליצור תשובות מציאותיות לשיחות.

LaMDA: השיחה פורצת הדרך שלנו הטכנולוגיה מספקת סקירה כללית.

ציוני דרך

#image

מילה נרדפת לנקודות מפתח.

מודל שפה

#language

מודל שמעריך את ההסתברות של אסימון או רצף של אסימונים ברצף ארוך יותר.

לוחצים על הסמל כדי להציג הערות נוספות.

למרות שמודלים רבים שמעריכים טקסט אינם אינטואיטיביים, מודלים של שפה. לדוגמה, מודלים של סיווג טקסט וסנטימנטים והם לא מודלים של שפה.

מודל שפה גדול (LLM)

#language

לכל הפחות, למודל שפה יש מספר גבוה מאוד של פרמטרים. באופן לא רשמי יותר, מודל שפה שמבוסס על טרנספורמר, כמו Gemini או GPT.

מרחב לטנטי

#language

מילה נרדפת להטמעת המרחב.

שכבה

#fundamentals

קבוצה של נוירונים רשת נוירונים. שלושה סוגים נפוצים של שכבות הן:

שכבת הקלט, שמספקת ערכים לכל תכונות.
שכבה מוסתרת אחת או יותר, שאינם ליניאריים בין התכונות לבין התווית.
שכבת הפלט, שמספקת את החיזוי.

לדוגמה, באיור הבא מוצגת רשת נוירונים עם שכבת קלט אחת, שתי שכבות מוסתרות ושכבת פלט אחת:

רשת נוירונים עם שכבת קלט אחת, שתי שכבות נסתרות והשנייה
בשכבת פלט. שכבת הקלט מורכבת משתי מאפיינים. הראשון
השכבה הנסתרת מורכבת משלושה נוירונים והשכבה השנייה נסתרת
מורכב משני נוירונים. שכבת הפלט מורכבת מצומת אחד.

ב-TensorFlow, שכבות הן גם פונקציות Python שמקבלות חיישנים ואפשרויות תצורה בתור קלט כדי לייצר טנזורים אחרים כפלט.

Layers API (tf.layers)

#TensorFlow

API של TensorFlow ליצירת רשת נוירונים עמוקה שהוא מורכב משכבות. ה-Layers API מאפשר ליצור סוגים של שכבות, כמו:

tf.layers.Dense בשכבה שמחוברת באופן מלא.
tf.layers.Conv2D לשכבה קונבולוציה.

ה-Layers API פועל בהתאם למוסכמות ה-API של שכבות Keras. כלומר, מעבר לקידומת שונה, כל הפונקציות ב-Layers API יש את אותם השמות והחתימות של המקבילים שלהם ב-Keras שכבות API של שכבות.

עלה

#df

כל נקודת קצה בעץ החלטות. ביטול לייק condition, עלה לא מבצע בדיקה. במקום זאת, עלה הוא חיזוי אפשרי. עלה הוא גם הטרמינל צומת של נתיב ההסקה.

לדוגמה, עץ ההחלטות הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

כלי לחיזוי למידה (LIT)

כלי אינטראקטיבי להבנת מודלים ולהצגה חזותית של נתונים.

אפשר להשתמש ב-LIT בקוד פתוח כדי לפרש מודלים או להמחיש טקסט, תמונה בטבלאות.

קצב למידה

#fundamentals

מספר נקודה צפה (floating-point) שמציין את הירידה ההדרגתית את האלגוריתם לשינוי המשקל וההטיות איטרציה. לדוגמה, קצב למידה של 0.3 להתאים משקולות והטיות, פי שלושה יותר, מאשר קצב למידה מתוך 0.1.

קצב הלמידה הוא היפר-פרמטר מפתח. אם מגדירים קצב הלמידה נמוך מדי, האימון יימשך יותר מדי זמן. אם המיקום הגדרתם קצב למידה גבוה מדי, בירידה ההדרגתית יש לעתים קרובות בעיות להגיע לאיחוד.

יש ללחוץ על הסמל כדי לקבל הסבר מתמטי יותר.

במהלך כל איטרציה, ירידה הדרגתית מכפלה את קצב הלמידה ההדרגתי. המוצר שמתקבל נקרא שלב הדרגתי.

רגרסיה של ריבועים לפחות

מודל של רגרסיה ליניארית שאומן על ידי מזעור הפסד₂.

ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאפשר לייצג אך ורק באמצעות חיבור וכפל.

העלילה של קשר ליניארי היא קו.

השוו ל-לא לינארי.

מודל לינארי

#fundamentals

מודל שמקצה משקל אחד לכל פיצ'ר כדי ליצור חיזויים. (מודלים לינאריים גם כוללים הטיה). לעומת זאת, הקשר בין תכונות לחיזויים במודלים עמוקים בדרך כלל לא לינארי.

בדרך כלל קל יותר לאמן מודלים לינאריים, לפרשנות לעומת מודלים עמוקים. אבל, לפעמים מודלים עמוקים יכולים ללמוד קשרים מורכבים בין תכונות.

רגרסיה לינארית וגם רגרסיה לוגיסטית הם שני סוגים של מודלים לינאריים.

צריך ללחוץ על הסמל כדי לראות את החשבון.

מודל ליניארי מבוסס על הנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

איפה:

שנה הוא החיזוי הגולמי. (בסוגים מסוימים של מודלים ליניאריים, החיזוי הגולמי ישתנה עוד יותר. לדוגמה, ראה רגרסיה לוגיסטית).
b הוא ההטיה.
w הוא משקל, כך ש₁ הוא המשקל של התכונה הראשונה, w₂ הוא המשקל של לישות שנייה, וכן הלאה.
x הוא תכונה, כך ש-x₁ הוא הערך של התכונה הראשונה, x₂ הוא הערך של התכונה השנייה, וכן הלאה.

לדוגמה, נניח שמודל ליניארי לשלוש תכונות לומד את הדברים הבאים הטיה ומשקולות:

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

לכן, בהינתן שלוש תכונות (x₁, x₂, ו-x₃), המודל הלינארי משתמש במשוואה הבאה כדי ליצור כל חיזוי:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

נניח שדוגמה מסוימת מכילה את הערכים הבאים:

x₁ = 4
x₂ = -10
x₃ = 5

הזנת הערכים האלה לנוסחה תיצור חיזוי לדוגמה הבאה:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

מודלים לינאריים כוללים לא רק מודלים שמשתמשים רק במשוואה לינארית כדי ליצור תחזיות אבל גם על קבוצה רחבה יותר של מודלים שמשתמשים במשוואה לינארית רק רכיב אחד בנוסחה שיוצרת חיזויים. לדוגמה, רגרסיה לוגיסטית לאחר עיבוד חיזוי (y) כדי להפיק ערך חיזוי סופי בין 0 ל-1, באופן בלעדי.

רגרסיה ליניארית

#fundamentals

סוג של מודל למידת מכונה שבו מתקיימים שני התנאים הבאים:

המודל הוא מודל לינארי.
החיזוי הוא ערך בנקודה צפה (floating-point). (זהו החלק רגרסיה של רגרסיה ליניארית.)

בצעו השוואה בין רגרסיה ליניארית לבין רגרסיה לוגיסטית. בנוסף, השוו בין רגרסיה לבין סיווג.

LIT

קיצור של Learning preability Tool (LIT), שנקרא קודם לכן, הכלי לפירוש השפה.

LLM

#language

קיצור של large language model (מודל שפה גדול).

רגרסיה לוגיסטית

#fundamentals

סוג של מודל רגרסיה שחוזה הסתברות. למודלים של רגרסיה לוגיסטית יש את המאפיינים הבאים:

התווית היא קטגורית. המונח לוגיסטי רגרסיה מתייחסת בדרך כלל לרגרסיה לוגיסטית בינארית, כלומר למודל שמחשב הסתברויות לתוויות עם שני ערכים אפשריים. היא וריאציה פחות נפוצה, רגרסיה לוגיסטית ריבוינומית, הסתברויות לתוויות עם יותר משני ערכים אפשריים.
פונקציית האובדן במהלך האימון היא מחיקת יומנים. (אפשר למקם במקביל יחידות של אובדן יומנים מרובים עבור תוויות עם יותר משני ערכים אפשריים).
למודל יש ארכיטקטורה ליניארית, ולא רשת נוירונים עמוקה. עם זאת, שאר ההגדרה של ההגדרה חלה גם על מודלים עמוקים שמנבאים הסתברויות לתוויות קטגוריות.

לדוגמה, נבחן מודל רגרסיה לוגיסטי שמחשב את שהודעת אימייל קלט היא ספאם או לא ספאם. במהלך ההסקה, נניח שהמודל חוזה את הערך 0.72. לכן, מבצע הערכה של:

סיכוי של 72% שהאימייל הוא ספאם.
סיכוי של 28% שהודעת האימייל היא לא ספאם.

מודל רגרסיה לוגיסטי מבוסס על ארכיטקטורת שני שלבים:

המודל יוצר חיזוי גולמי (y) על ידי החלת פונקציה לינארית של תכונות קלט.
המודל משתמש בחיזוי הגולמי הזה כקלט sigmoid, שממירה את חיזוי לערך בין 0 ל-1, לא כולל.

בדומה לכל מודל רגרסיה, מודל רגרסיה לוגיסטי חוזה מספר. עם זאת, המספר הזה בדרך כלל הופך לחלק מסיווג בינארי באופן הבא:

אם המספר החזוי גדול מה סף הסיווג, ומודל הסיווג הבינארי חוזים את המחלקה החיובית.
אם המספר החזוי נמוך מסף הסיווג, מודל הסיווג הבינארי חוזה את המחלקה השלילית.

פונקציות הלוג'יט

הווקטור של תחזיות גולמיות (לא מנורמלות) שסיווג יוצר, ובדרך כלל מועבר לאחר מכן לפונקציית נירמול. אם המודל פותר סיווג של כמה כיתות היא פונקציית לוג'יט בדרך כלל הופכת לקלט הפונקציה softmax. לאחר מכן, פונקציית ה-softmax יוצרת וקטור של (מנורמל) הסתברויות עם ערך אחד לכל מחלקה אפשרית.

אובדן תיעוד

#fundamentals

פונקציית ההפסד בשיטה הבינארית רגרסיה לוגיסטית.

צריך ללחוץ על הסמל כדי לראות את החשבון.

הנוסחה הבאה מחשבת 'אובדן יומן':

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

איפה:

$(x,y)\in D$ הוא מערך הנתונים שמכיל הרבה תוויות דוגמאות, שהן $(x,y)$ זוגות.
$y$ הוא התווית בדוגמה עם תווית. מכיוון שזו רגרסיה לוגיסטית, כל ערך של $y$ חייב להיות 0 או 1.
$y'$ הוא הערך החזוי (בין 0 ל-1, לא כולל), בהינתן קבוצת התכונות ב- $x$.

סיכויים לרישום ביומן

#fundamentals

הלוגריתם של הסיכויים לאירוע מסוים.

צריך ללחוץ על הסמל כדי לראות את החשבון.

אם האירוע הוא הסתברות בינארית, הסיכויים מתייחסים היחס בין ההסתברות להצלחה (p) להסתברות של כשל (1-p). לדוגמה, נניח שלאירוע מסוים יש 90% הם יהיו הסתברותיים להצלחה ו-10% הסתברות לכישלון. במקרה הזה, כך מחושבים הסיכויים:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

סיכויי היומן הם פשוט הלוגריתם של הסיכויים. על פי המוסכמה, 'לוגריתם' מתייחס אל לוגריתם טבעי, אבל הלוגריתם יכול להיות כל בסיס שגדול מ-1. לאור המוסכמה, הסיכויים לתרחישי היומן של הדוגמה שלנו הם:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

הפונקציה Log-odds היא ההופכי של sigmoid.

זיכרון ארוך לטווח קצר (LSTM)

#seq

סוג של תא בתוך רשת נוירונים חוזרת שמשמשת לעיבוד רצפים של נתונים באפליקציות כמו זיהוי כתב יד, מכונות תרגום וכיתובי תמונות. אפליקציות LSTM מתייחסות אל בעיית הדרגתיות נעלמת שמתרחשת כאשר לאימון RNN בגלל רצפי נתונים ארוכים, על ידי שמירת ההיסטוריה על מצב הזיכרון הפנימי שמבוסס על קלט והקשר חדשים מהתאים הקודמים ברשת הנוירונים החוזרת.

LoRA

#language

#generativeAI

קיצור של Adaptability בדירוג נמוך.

הפסד

#fundamentals

במהלך האימון של מודל בפיקוח, מדד שמציין את המרחק החיזוי של המודל מגיע מהתווית שלו.

פונקציית הפסד מחשבת את אובדן.

אתר אגרגטור למחירי הפסדים

סוג של אלגוריתם של למידת מכונה משפר את הביצועים של מודל באמצעות שילוב של החיזויים של מספר מודלים להשתמש בחיזויים האלה כדי לבצע חיזוי אחד. כתוצאה מכך, שאגרגטור הפסדים יכול לצמצם את השונות של החיזויים לשפר את הדיוק של החיזויים.

עקומת הפסד

#fundamentals

תרשים של הפסד כפונקציה של מספר האימון איטרציות. בתרשים הבא מוצג הפסד אופייני עקומה:

גרף קרטזי של הפסד לעומת איטרציות של אימון, שמראה
ירידה מהירה באובדן של החזרות הראשוניות, ואחריה ירידה הדרגתית
ואז שיפוע שטוח במהלך האיטרציות הסופיות.

עקומות הפסדים יכולות לעזור לכם לקבוע מתי המודל שיחה או התאמת יתר.

עקומות אובדן יכולות להציג את כל סוגי האובדן הבאים:

הפסד אימון
הפסד אימות
הפסד בדיקה

ראו גם עקומת הכללה.

את פונקציית האובדן

#fundamentals

במהלך אימון או בדיקה, פונקציה מתמטית שמחשבת וכל מספר של דוגמאות. פונקציית הפסד מחזירה ערך אובדן נמוך יותר מודלים שמפיקים תחזיות טובות מאשר מודלים שמייצרים ויצירת חיזויים לא טובים.

מטרת האימון היא בדרך כלל לצמצם את האובדן של פונקציית הפסד החזרות.

יש סוגים רבים ושונים של פונקציות אובדן. בוחרים את סוג האובדן המתאים מתאים לסוג המודל שאתם בונים. לדוגמה:

הפסד L₂ (או שגיאה ממוצעת בריבוע) היא פונקציית האובדן של רגרסיה ליניארית.
Log Loss (אובדן יומן) היא פונקציית האובדן של רגרסיה לוגיסטית.

שטח אובדן

גרף של משקל(משקלים) לעומת ירידה. שאיפה של ירידה בדירוג כדי למצוא את המשקולות שעבורן סף הירידה הוא המינימלי המקומי.

יכולת התאמה לדירוג נמוך (LoRA)

#language

#generativeAI

אלגוריתם לביצוע כוונון יעיל בפרמטרים כוונון עדין רק חלק של פרמטרים של מודל שפה גדול (LLM). LoRA מספק את היתרונות הבאים:

ההתאמה מתבצעת מהר יותר מאשר שיטות שמצריכות כוונון עדין של כל המאפיינים .
הפחתת העלות החישובית של הסקה שעבר כוונון עדין.

מודל שמכוונן באמצעות LoRA שומר או משפר את האיכות של החיזויים.

LoRA מאפשר להפעיל כמה גרסאות מיוחדות של המודל.

LSTM

#seq

קיצור של זיכרון לטווח קצר (LFV).

M

למידה חישובית

#fundamentals

תוכנית או מערכת שמאמנים מודל מנתוני הקלט. אחרי האימון, המודל יכול להפיק חיזויים שימושיים מנתונים חדשים (שלא הוצגו בעבר) מתוך הנתונים שוות בהתפלגות כמו זו ששימשה לאימון המודל.

למידת מכונה מתייחסת גם לתחום המחקר המדובר עם התוכנות האלה או המערכות האלה.

קבוצת הרוב

#fundamentals

ככל שהתווית הכי נפוצה מערך נתונים לא מאוזן class. לדוגמה, בהינתן מערך נתונים שמכיל 99% תוויות שליליות ו-1% תוויות חיוביות, תוויות שליליות הן סיווג הרוב.

השוו ל-סיווג מיעוט.

תהליך ההחלטה של מרקוב (MDP)

#rl

תרשים שמייצג את מודל קבלת ההחלטות שבו החלטות (או פעולות) מתבצעות כדי לנווט ברצף של מצוינת בהנחה נכס מרקוב החזקות. לחשבון למידת חיזוק, המעברים האלה בין מדינות בארה"ב, מחזיר תגמול מספרי.

נכס מרקוב

#rl

מאפיין של סביבות מסוימות, שבהן המצב נקבעים במלואם לפי מידע שמשתמע המצב הנוכחי והפעולה של הנציג.

מודל התממת שפה (MLM)

#language

מודל שפה שחוזה את ההסתברות אסימונים נדרשים כדי למלא את החלקים הריקים ברצף. לדוגמה, מודל התממת שפה(MLM) יכול לחשב הסתברויות למילים מועמדות כדי להחליף את הקו התחתון במשפט הבא:

ה-____ בכובע חזר.

בדרך כלל נעשה שימוש במחרוזת "MASK" במקום להוסיף קו תחתון. לדוגמה:

ה-"MASK" חזר.

רוב המודלים המודרניים של שפה מתמשכת הם דו-כיווניים.

matplotlib

ספריית Python 2D ליצירת גרפים בקוד פתוח. matplotlib עוזר לכם ליצור תמונות היבטים שונים של למידת מכונה.

פירוק לגורמים של מטריצות

#recsystems

במתמטיקה, מנגנון למציאת המטריצות שמכפלה שלהן קרובה במטריצת היעד.

במערכות ההמלצות, מטריצת היעד כוללת לעיתים קרובות דירוגים של פריטים. לדוגמה, היעד למערכת המלצות לסרטים עשויה להיראות בערך כך כאשר המספרים השלמים החיוביים הם דירוגי משתמשים, ו-0 מציין שהמשתמש לא דרג את הסרט:

	קזבלנקה	הסיפור של פילדלפיה	הפנתר השחור	וונדר וומן	ספרות זולה
משתמש 1	5.0	3.0	0.0	2.0	0.0
משתמש 2	4.0	0.0	0.0	1.0	5.0
משתמש 3	3.0	1.0	4.0	5.0	0.0

מטרת מערכת ההמלצות על סרטים היא לחזות את דירוגי המשתמשים לגבי סרטים ללא סיווג תוכן. לדוגמה, האם משתמש 1 יאהב את הפנתר השחור?

אחת מהגישה במערכות של המלצות היא להשתמש במטריצות פירוק לגורמים כדי ליצור את שתי המטריצות הבאות:

מטריצת משתמשים, בצורת מספר המשתמשים X מספר מאפייני ההטמעה.
מטריצת פריטים, בצורת מספר ההטמעה מאפיינים X את מספר הפריטים.

לדוגמה, שימוש בפקודת מטריצות עבור שלושת המשתמשים וחמישה פריטים יכולה להניב את מטריצת המשתמשים ומטריצת הפריטים הבאה:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

המכפלה של מטריצת המשתמשים ומטריצת הפריטים יוצרת המלצה מטריצה שמכילה לא רק את דירוגי המשתמשים המקוריים אלא גם חיזויים של סרטים שכל משתמש לא ראה. לדוגמה, נניח שהדירוג של משתמש 1 הוא קזבלנקה, שהוא 5.0. הנקודה של המוצר שתואם לתא הזה במטריצת ההמלצות היא בסביבות 5.0, והיא:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

חשוב יותר: האם משתמש 1 יאהב את הפנתר השחור? שימוש במכפלת הנקודות שתואם לשורה הראשונה והעמודה השלישית מניבה דירוג של 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

פירוק לגורמים של מטריצות בדרך כלל מניב מטריצת משתמשים ומטריצת פריטים אשר ביחד, הן הרבה יותר קומפקטיות ממטריצת היעד.

שגיאה אבסולוטית ממוצעת (MAE)

האובדן הממוצע לכל דוגמה כאשר הפסד L₁ הוא בשימוש. חשבו את השגיאה המוחלטת הממוצעת באופן הבא:

מחשבים את הפסד ה-L₁ באצווה.
מחלקים את אובדן L₁ במספר הדוגמאות באצווה.

אפשר ללחוץ על הסמל כדי לראות את החישוב הרשמי.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא הערך שהמודל חוזים בשביל $y$.

לדוגמה, נבחן את החישוב של הפסד L₁ על בסיס הקבוצה הבאה כוללת חמש דוגמאות:

הערך בפועל של דוגמה	הערך החזוי של המודל	הפסד (ההפרש בין המצב בפועל לבין החזוי)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = הפסד ₁ L

כלומר, הפסד ₁ הוא 8 ומספר הדוגמאות הוא 5. לכן, השגיאה המוחלטת הממוצעת היא:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

בצעו ניגודיות בין השגיאה המוחלטת הממוצעת עם שגיאה ממוצעת בריבוע וגם שגיאה בריבוע הממוצע של הרמה הבסיסית (root).

שגיאה בריבוע ממוצע (MSE)

אובדן ממוצע לדוגמה כאשר L₂ הפסד הוא בשימוש. חשבו את השגיאה הממוצעת בריבוע באופן הבא:

מחשבים את הפסד ה-L₂ באצווה.
מחלקים את הערך של הפסד _L2 במספר הדוגמאות באצווה.

אפשר ללחוץ על הסמל כדי לראות את החישוב הרשמי.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא החיזוי של המודל ל-$y$.

לדוגמה, נבחן את ההפסד באצווה הבאה של חמש דוגמאות:

ערך בפועל	החיזוי של המודל	הפסד	ריבוע עם הפסדים
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = הפסד ₂ L

לכן, השגיאה הממוצעת בריבוע היא:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Mean Squared Error הוא שימוש פופולרי באופטימיזציה להדרכה, במיוחד לרגרסיה ליניארית.

השוו בין השגיאה בריבוע הממוצע עם שגיאה אבסולוטית ממוצעת וגם שגיאה בריבוע הממוצע של הרמה הבסיסית (root).

TensorFlow Playground משתמש ב-Mean Squared Error כדי לחשב את ערכי אובדן הנתונים.

אפשר ללחוץ על הסמל כדי לראות פרטים נוספים על חריגים.

חריגים חשודי טעות משפיעים במידה רבה על שגיאת ריבוע ממוצעת. לדוגמה, הפסד של 1 בריבוע הוא הפסד של 1, אבל הפסד של 3 הוא בריבוע של 9. בטבלה הקודמת, הדוגמה עם הפסד של 3 אחראי לכ-56% מהשגיאה הממוצעת בריבוע, כאשר כל אחת מהדוגמאות עם אובדן של חשבון אחד בלבד, והוא מהווה רק 6% מהשגיאה הממוצעת בריבוע.

ערכים חריגים לא משפיעים על 'שגיאה אבסולוטית ממוצעת' באותה מידה שגיאה בריבוע הממוצע. לדוגמה, הפסד של 3 חשבונות רק ב-38% בערך שגיאה מוחלטת ממוצעת.

חיתוך היא אחת מהדרכים למנוע הקיצון חריגות מפגיעה ביכולת החיזוי של המודל שלכם.

רשת

#TensorFlow

#GoogleCloud

בתכנות מקביל של למידת מכונה, מונח שמשויך להקצאת הנתונים לשבבי TPU, ולהגדיר איך הערכים האלה יפוצלו או ישוכפלו.

Mesh הוא מונח של עומס יתר, שיכול להיות אחת מהאפשרויות הבאות:

פריסה פיזית של שבבי TPU.
מבנה לוגי מופשט למיפוי הנתונים והמודל ל-TPU צ'יפים.

בכל מקרה, רשת מצוינת כצורה.

מטא-למידה

#language

קבוצת משנה של למידת מכונה שחוקרת או משפרת אלגוריתם של למידה. מערכת מטא-למידה יכולה גם לכוון לאמן מודל כדי ללמוד במהירות כמות קטנה של נתונים או מניסיון שהצטבר במשימות קודמות. אלגוריתמים של מטא-למידה בדרך כלל מנסים להשיג את המטרות הבאות:

לשפר או ללמוד תכונות שפותחו ביד (כמו מאתחל או כלי אופטימיזציה).
ייעול הנתונים וייעול המחשוב.
שיפור ההכללה.

מטא-למידה קשורה ללמידה מסוימת (few-shot).

ערך

#TensorFlow

נתון סטטיסטי שחשוב לכם.

יעד הוא מדד שמערכת למידת מכונה מנסה לבצע אופטימיזציה.

Metrics API (tf.metrics)

ממשק API של TensorFlow להערכת מודלים. לדוגמה, tf.metrics.accuracy. קובע את התדירות שבה החיזויים של המודל תואמים לתוויות.

מיני-אצווה

#fundamentals

קבוצת משנה קטנה, שנבחרה באופן אקראי של אצווה שמעובדת איטרציה. גודל האצווה של קבוצת מיני-אצווה הוא בדרך כלל בין 10 ל-1,000 דוגמאות.

לדוגמה, נניח שכל קבוצת האימון (קבוצת האימון המלאה) כולל 1,000 דוגמאות. כמו כן, נניח שהגדרתם את גודל אצווה של כל מיני-אצווה עד 20. לכן, כל אחד היא קובעת את האובדן באקראי 20 מתוך 1,000 הדוגמאות, ואז משנה את המשקולות ואת ההטיות בהתאם.

הרבה יותר יעיל לחשב את האובדן בקבוצה קטנה מאשר את כל הדוגמאות בחבילה המלאה.

ירידה הדרגתית בסגנון מיני-אצווה

אלגוריתם של ירידה הדרגתית שמשתמש מיני-אצווה. ובמילים אחרות, מיני-אצווה אקראי במגמת ירידה הדרגתית מעריך את ההדרגתיות על סמך קבוצת משנה קטנה של נתוני אימון. ירידת הדרגתית סטוכסטית רגילה משתמשת ב- מיני אצווה בגודל 1.

הפסד של minimax

פונקציית הפסד עבור רשתות למידה חישובית גנרטיבית, על סמך הקרוס-אנטרופיה בין ההתפלגות של נתונים מופקים ונתונים אמיתיים.

נעשה שימוש באובדן מינימלי המאמר הראשון לתיאור גם רשתות למידה חישובית גנרטיבית (GAN).

סיווג מיעוט

#fundamentals

התווית פחות נפוצה מערך נתונים לא מאוזן class. לדוגמה, בהינתן מערך נתונים שמכיל 99% תוויות שליליות ו-1% תוויות חיוביות, תוויות חיוביות הן סיווג המיעוטים.

ניגודיות עם סיווג רוב.

לוחצים על הסמל כדי להציג הערות נוספות.

ערכת אימון עם מיליון צלילים של דוגמאות מרשים. עם זאת, אם קבוצת המיעוטים לא מיוצגת כראוי, אז גם מערך אימון גדול מאוד עשוי לא להספיק. פחות ריכוז על המספר הכולל של הדוגמאות במערך הנתונים ועוד על מספר לדוגמה בקבוצת המיעוטים.

אם מערך הנתונים לא מכיל מספיק דוגמאות לסיווגי מיעוט, באמצעות downsampling (ההגדרה בסעיף השני) כתוספת למחלקת המיעוט.

שילוב של מומחים

#language

#generativeAI

סכמה להגדלת היעילות של רשת נוירונים באמצעות באמצעות רק קבוצת משנה של הפרמטרים שלה (שנקראים מומחה) כדי לעבד אסימון או דוגמה נתון. א' רשת השער מנתבת כל אסימון קלט או דוגמה למומחים המתאימים.

לפרטים נוספים, קראו את המאמרים הבאים:

ML

קיצור של machine learning (למידת מכונה).

MMIT

#language

#image

#generativeAI

קיצור של multi-modal instructionsd,

MNIST

#image

מערך נתונים בדומיין ציבורי שנאסף על ידי LeCun, Cortes ו-Burges שמכיל 60,000 תמונות, כל תמונה מראה איך בן אדם כתב פריט ספציפי באופן ידני בין 0 ל-9. כל תמונה מאוחסנת כמערך מספרים שלמים בגודל 28x28, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.

MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעתים קרובות כדי לבדוק וגישות של למידת מכונה. פרטים נוספים זמינים במאמר מסד הנתונים MNIST של ספרות בכתב יד.

מודל עזר

#language

קטגוריית נתונים ברמה גבוהה. לדוגמה, מספרים, טקסט, תמונות, וידאו של אודיו יש חמש שיטות שונות.

מודל

#fundamentals

באופן כללי, כל מבנה מתמטי שמעבד נתוני קלט ומחזיר הפלט. מודל מנוסח באופן שונה. מודל הוא קבוצת הפרמטרים והמבנה שנדרשים למערכת כדי לבצע חיזויים. בלמידת מכונה בפיקוח, שמודל לוקח דוגמה כקלט ומסיק חיזוי כפלט. בלמידת מכונה בפיקוח, שונים במידה מסוימת. לדוגמה:

מודל רגרסיה לינארי מורכב מקבוצה של משקולות והטיה.
מודל של רשת נוירונים מורכב מ:
- קבוצה של שכבות מוסתרות, שכל אחת מהן מכילה ועוד נוירונים.
- המשקולות וההטיה שמשויכות לכל נוירון.
מודל של עץ החלטות מורכב מ:
- צורת העץ; כלומר, הדפוס שבו התנאים ועלים מחוברים.
- התנאים והעלים.

אפשר לשמור מודל, לשחזר אותו או ליצור עותקים שלו.

למידת מכונה לא בפיקוח יוצרת מודלים, בדרך כלל פונקציה שיכולה למפות דוגמה לקלט האשכול המתאים ביותר.

לוחצים על הסמל כדי להשוות בין פונקציות אלגבריות ופונקציות תכנות לבין מודלים של למידת מכונה.

פונקציה אלגברית כמו בדוגמה הבאה היא מודל:

  f(x, y) = 3x -5xy + y² + 17

הפונקציה הקודמת ממפה את ערכי הקלט (x ו-y) אל הפלט.

באופן דומה, גם פונקציית תכנות כמו בדוגמה הבאה היא מודל:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

מבצע הקריאה מעביר את הארגומנטים לפונקציה הקודמת של Python, פונקציית Python יוצרת פלט (באמצעות ההצהרה return).

למרות שיש רשת נוירונים עמוקה יש לו מבנה מתמטי שונה מאוד מזה של אלגבריה או רשת נוירונים עמוקה עדיין מקבלת קלט (דוגמה) ומחזירה הפלט (חיזוי).

מתכנת אנושי מקודד פונקציית תכנות באופן ידני. לעומת זאת, מודל למידת מכונה לומד בהדרגה את הפרמטרים האופטימליים במהלך אימון אוטומטי.

קיבולת המודל

המורכבות של הבעיות שהמודל יכול ללמוד. ככל שהמודל יכול ללמוד, כך הקיבולת שלו גבוהה יותר. כתובת ה-URL של מודל בדרך כלל, הקיבולת גדולה יותר ככל שמספר הפרמטרים של המודל גדל. עבור להגדרה הרשמית של יכולת הסיווג, מאפיין VC.

סדר מדורג

#generativeAI

מערכת שבוחרת את המודל האידיאלי להסקת מסקנות ספציפית שאילתה.

דמיינו קבוצה של מודלים גדולים מאוד פרמטרים) להרבה יותר קטן (הרבה פחות פרמטרים). מודלים גדולים מאוד צורכים יותר משאבי חישוב הסקת מסקנות לעומת מודלים קטנים יותר. אבל מאוד גדול בדרך כלל יכולים להסיק בקשות מורכבות יותר ממודלים קטנים יותר. הדירוג של מודל קובע את המורכבות של שאילתת ההסקה, ואז בוחר את המודל המתאים לביצוע ההסקה. המניע העיקרי של סידור המודל הוא הפחתת עלויות ההסקה על ידי בוחרים מודלים קטנים יותר, ובוחרים מודל גדול יותר ושאילתות מורכבות.

נניח שמודל קטן פועל בטלפון וגרסה גדולה יותר של אותו דגם פועל על שרת מרוחק. שדור טוב של מודלים מפחית את העלות ואת זמן האחזור ומאפשרת למודל הקטן לטפל בבקשות פשוטות ולבצע קריאה רק מרחוק לטיפול בבקשות מורכבות.

ראו גם דגם של נתב.

מקביליות של מודל

#language

דרך לאמן או הסקת מסקנות, שמשלבת חלקים שונים של תהליך את המודל במכשירים שונים. מקבילות של מודל מאפשר למודלים שגדולים מדי מכדי להתאים למכשיר יחיד.

כדי ליישם מקבילות של מודל, מערכת בדרך כלל מבצעת את הפעולות הבאות:

פיצול (חלקי) של המודל לחלקים קטנים יותר.
מחלק את האימון של החלקים הקטנים האלה בין מספר מעבדים. כל מעבד מאמן את החלק שלו במודל.
משלבת את התוצאות כדי ליצור מודל אחד.

המקבילות בין מודלים מאטה את האימון.

ניתן לראות גם מקבילות של נתונים.

נתב מודל

#generativeAI

האלגוריתם שקובע את המודל האידיאלי הסקה בדירוג של מודל. נתב מודל הוא בעצמו בדרך כלל מודל למידת מכונה לומד בהדרגה איך לבחור את המודל הטוב ביותר לקלט נתון. אבל נתב לדוגמה יכול להיות לפעמים פשוט יותר אלגוריתם שאינו למידת מכונה.

אימון מודלים

התהליך לבחירת המודל הטוב ביותר.

מומנטום

אלגוריתם מתוחכם של ירידה הדרגתית שבו שלב הלמידה תלוי לא רק על הנגזרת בשלב הנוכחי, אלא גם על הנגזרות של השלבים שקדמו לו. המומנטום כולל מחשוב ממוצע נע, משוקלל באופן אקספוננציאלי של ההדרגתיות לאורך זמן, אנלוגי לתנע בפיזיקה. המומנטום מונע לפעמים ללמוד בתוכנית המינימלית המקומית.

MOE

#language

#image

#generativeAI

קיצור של שילוב של מומחים.

סיווג לכמה כיתות

#fundamentals

בלמידה מונחית, קיימת בעיית סיווג שבהן מערך הנתונים מכיל יותר משתי מחלקות של תוויות. לדוגמה, התוויות במערך הנתונים של Iris חייבות להיות אחת מהאפשרויות הבאות שלושה סיווגים:

אירוס סטוסה
אירוס וירג'יניה
אירוס צבעוני

מילה נרדפת ל רגרסיה לוגיסטית רב-תחומית.

מולטיטסקינג

שיטה של למידת מכונה שבה מודל יחיד שאומן לבצע מספר משימות.

מודלים של ריבוי משימות נוצרים על ידי אימון על נתונים שמתאימים בכל אחת מהמשימות השונות. כך המודל ילמד לשתף מידע בכל המשימות, וכך מאפשר למודל ללמוד בצורה יעילה יותר.

מודל שאומן לבצע כמה משימות בדרך כלל משפר את יכולות ההכללה. ויכולה להיות חזקה יותר בטיפול בסוגים שונים של נתונים.

לא

מלכודת NaN

כשמספר אחד במודל הופך ל-NaN במהלך האימון, וגורמים רבים או כל המספרים האחרים במודל בסופו של דבר הופכים ל-NaN.

NaN הוא קיצור של Not a N (ב).

הבנת שפה טבעית (NLU)

#language

קביעת כוונת המשתמש על סמך מה שהוא הקליד או אמר. לדוגמה, מנוע חיפוש משתמש בהבנת שפה טבעית (NLP) לקבוע מה המשתמש מחפש על סמך מה שהוא הקליד או אמר.

סיווג שלילי

#fundamentals

בסיווג בינארי, מחלקה אחת מוגדר חיובי, והשני נקרא שלילי. הסיווג החיובי הוא הדבר או האירוע שעבורם המודל בודק, והסיווג השלילי הוא אפשרית אחרת. לדוגמה:

הסיווג השלילי בבדיקה רפואית עשוי להיות 'לא גידול'.
הסיווג השלילי במסווג אימייל עשוי להיות 'לא ספאם'.

השוו עם סיווג חיובי.

דגימה שלילית

דגימת מועמדים היא מילה נרדפת.

חיפוש ארכיטקטורה נוירונים (NAS)

שיטה לעיצוב אוטומטי של הארכיטקטורה של רשת נוירונים. אלגוריתמי NAS יכולים להפחית את הזמן והמשאבים הנדרשים לאימון רשת נוירונים.

בדרך כלל, פרוטוקול NAS מבוסס על:

מרחב חיפוש, שהוא קבוצה של ארכיטקטורות אפשריות.
פונקציית כושר, שהיא מדד של לביצוע משימה נתונה במשימה נתונה.

אלגוריתמים של NAS מתחילים לעיתים קרובות בקבוצה קטנה של ארכיטקטורות אפשריות להרחיב בהדרגה את שטח החיפוש ככל שהאלגוריתם לומד יותר על של הארכיטקטורה, פונקציית הכושר מבוססת בדרך כלל על של הארכיטקטורה בערכת אימון, והאלגוריתם מאומנים בדרך כלל באמצעות למידת חיזוק.

אלגוריתמים של NAS הוכיחו את היעילות שלהם במציאת לביצוע מגוון של משימות, כולל סיווג, סיווג טקסטים, ותרגום אוטומטי.

רשת הזרימה קדימה

#fundamentals

מודל שמכיל לפחות אחד שכבה מוסתרת. רשת נוירונים עמוקה היא סוג של רשת נוירונים שמכיל יותר משכבה נסתרת אחת. לדוגמה, התרשים הבא מציגה רשת נוירונים עמוקה שמכילה שתי שכבות נסתרות.

רשת נוירונים עם שכבת קלט, שתי שכבות נסתרות
בשכבת פלט.

כל נוירון ברשת נוירונים מתחבר לכל הצמתים בשכבה הבאה. לדוגמה, בתרשים הקודם, שימו לב שכל אחד משלושת הנוירונים בשכבה הסמויה הראשונה, מתחברים בנפרד לשני שני הנוירונים את השכבה השנייה מוסתרת.

לפעמים רשתות נוירונים שמוטמעות במחשבים נקראות רשתות נוירונים מלאכותיות כדי להבדיל ביניהן ברשתות נוירונים שנמצאות במוח ובמערכות עצבים אחרות.

רשתות נוירונים מסוימות יכולות לחקות קשרים לא ליניאריים מורכבים מאוד בין תכונות שונות לבין התווית.

ראו גם רשת עצבית מתקפלת וגם רשת נוירונים חוזרת.

נוירון

#fundamentals

בלמידת מכונה, יחידה נפרדת בתוך שכבה מוסתרת של רשת נוירונים. כל נוירון מבצע את הפעולות הבאות פעולה דו-שלבית:

מחשבת את הסכום המשוקלל של ערכי הקלט כפול לפי המשקולות שלהם.
מעביר את הסכום המשוקלל כקלט אל פונקציית ההפעלה.

נוירון בשכבה הסמויה הראשונה מקבל קלט מערכי המאפיינים בשכבת הקלט. נוירון בכל שכבה נסתרת שמעבר לו הראשון מקבל את הקלט מהנוירונים בשכבה הסמויה הקודמת. לדוגמה, נוירון בשכבה הסמויה השנייה מקבל קלט נוירונים בשכבה הנסתרת הראשונה.

באיור הבא מדגישים שני נוירונים ואת של קלטים.

רשת נוירונים עם שכבת קלט, שתי שכבות נסתרות
בשכבת פלט. שני נוירונים מודגשים: אחד
בשכבה השנייה והשנייה בשכבה השנייה. הרכיב המודגש
הנוירון בשכבה הסמויה הראשונה מקבל קלט משתי התכונות
בשכבת הקלט. הנוירון המודגש בשכבה הסמויה השנייה
מקבל קלט מכל אחד משלושת הנוירונים
בשכבת זרימת הנתונים.

נוירון ברשת נוירונים מחקה את ההתנהגות של נוירונים במוח בחלקים אחרים של מערכות העצבים.

N-gram

#seq

#language

רצף סדור של N מילים. לדוגמה, truly madly – 2 גרם. כי נראה רלוונטי, בזהירות! הוא שונה מ-2 גרם באמת בטירוף.

לא	שמות של N-gram מהסוג הזה	דוגמאות
2	Bigram או 2 גרם	לצאת, ללכת, לאכול ארוחת צהריים, לאכול ארוחת ערב
3	טריגרם או 3 גרם	אכלתם יותר מדי, שלושה עכברים עיוורים, האגרות בכביש
4	4 גרם	ללכת בפארק, אבק ברוח, הילד אכל עדשים

הרבה הבנת שפה טבעית מודלים מסתמכים על מילי-גרם כדי לחזות את המילה הבאה שהמשתמש יקליד או שאומרים. לדוגמה, נניח שמשתמש הקליד שלושת עיוורים. מודל NLU שמבוסס על טריגרמים יחזה ככל הנראה המשתמש יקיש את המילה עכברים.

בצעו השוואה בין גרם N עם שקיות מילים, שהן קבוצות של מילים לא מסודרות.

NLU

#language

קיצור של שפה טבעית ההבנה.

צומת (עץ החלטות)

#df

בעץ ההחלטות, כל מצב או עלה.

עץ החלטות עם שני תנאים ושלושה עלים.

צומת (רשת נוירונים)

#fundamentals

נוירון בשכבה מוסתרת.

צומת (תרשים TensorFlow)

#TensorFlow

פעולה בתרשים של TensorFlow.

רעש

באופן כללי, כל מה שמסתיר את האות במערך נתונים. רעש נוסף לנתונים במגוון דרכים. לדוגמה:

מדרגים אנושיים טועים בתוויות.
בני אדם ומכשירים מתעדים באופן שגוי או להשמיט את ערכי המאפיינים.

תנאי א-בינארי

#df

תנאי שמכיל יותר משתי תוצאות אפשריות. לדוגמה, התנאי הלא בינארי הבא מכיל שלושה מקרים אפשריים תוצאות:

תנאי (number_of_legs = ?) שמוביל לשלוש אפשרויות
ואת התוצאות שלו. תוצאה אחת (number_of_legs = 8) מובילה להעלאת עלה
שנקרא "ספיידר". תוצאה שנייה (number_of_legs = 4) מובילה
עלה שנקרא כלב. תוצאה שלישית (number_of_legs = 2) מובילה
עלה בשם פינגווין.

לא לינארי

#fundamentals

קשר בין שני משתנים או יותר שלא ניתן לייצג אך ורק באמצעות חיבור וכפל. קשר לינארי אפשר לייצג כקו, קשר לא ליניארי יכול להיות מיוצגים כקו. לדוגמה, נבחן שני מודלים שכל אחד מהם קשור ישות אחת בתווית אחת. המודל מצד שמאל הוא ליניארי והמודל מצד ימין הוא לא ליניארי:

שתי גרפים. תרשים אחד הוא קו, ולכן זהו קשר ליניארי.
התרשים השני הוא עקומה, כך שזהו קשר לא ליניארי.

הטייה של אי-תגובה

#fairness

מידע נוסף זמין בקטע הטיות בבחירות.

שאינו תחנה

#fundamentals

תכונה שהערכים שלה משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, שימו לב לדוגמאות הבאות של מיקום שאינו נייח:

מספר בגדי הים שנמכרים בחנות מסוימת משתנה בהתאם לעונה.
כמות של פירות מסוימים שקטפו באזור מסוים הוא אפס בחלק גדול מהשנה, אבל גדול לתקופה קצרה.
עקב שינויי האקלים, הטמפרטורות השנתיות הממוצעות משתנות.

ניגודיות עם תחנות.

נירמול

#fundamentals

באופן כללי, התהליך של המרת הטווח האמיתי של משתנה בטווח ערכים סטנדרטי, למשל:

-1 עד +1
0 עד 1
דירוגי Z (בערך, -3 עד +3)

לדוגמה, נניח שטווח הערכים בפועל של ישות מסוימת הוא 800 עד 2,400. כחלק מהנדסת תכונות, אפשר לנרמל את הערכים בפועל עד לטווח סטנדרטי, כ-1- ל-+1.

נירמול הוא משימה נפוצה הנדסת תכונות. אימון המודלים בדרך כלל מהיר יותר (ולהפיק חיזויים טובים יותר) כשכל תכונה מספרית לוקטור של המאפיין יש טווח דומה, פחות או יותר.

זיהוי חידושים

התהליך של הקביעה אם דוגמה חדשה (חדשה) מגיעה מאותו של הקהל כקבוצת האימון. במילים אחרות, אחרי באימון של ערכת האימון, זיהוי חדשנות קובע אם מודל חדש (במהלך ההסקה או במהלך אימון נוסף) חריג חשוד טעות.

השוו עם זיהוי חריג חשוד טעות.

נתונים מספריים

#fundamentals

תכונות שמיוצגות כמספרים שלמים או כמספרים בעלי ערך ממשי. לדוגמה, מודל הערכת הבית ייצג ככל הנראה את הגודל של בית (במטרים רבועים או במטרים רבועים) כנתונים מספריים. ייצוג מאפיין מסוים כנתונים מספריים מציין שהערכים של התכונה קשר מתמטי לתווית. כלומר, כנראה שמספר המטרים רבועים בבית יש קשר מתמטי לערך של הבית.

לא כל נתוני המספרים השלמים צריכים להיות מיוצגים כנתונים מספריים. לדוגמה, בחלקים מסוימים בעולם המיקודים הם מספרים שלמים. עם זאת, מיקוד של מספר שלם קודים לא צריכים להיות מיוצגים כנתונים מספריים במודלים. הסיבה לכך היא המיקוד של 20000 אינו גבוה פי שניים (או חצי) כמו מיקוד של 10000. בנוסף, למרות שמיקודי מיקוד שונים כן קשורים למיקומים שונים אנחנו לא יכולים להניח שערכי הנדל"ן במיקוד הערך של 20,000 יהיה כפול מערכי הנדל"ן במיקוד 10000. מספרי מיקוד צריכים להיות מיוצגים כנתונים קטגוריים במקום זאת.

לפעמים תכונות מספריות נקראות תכונות רציפות.

NumPy

ספריית קוד פתוח למתמטיקה שמספקת פעולות מערך יעילות ב-Python. המודל פנדות מבוסס על NumPy.

O

יעד

מדד שהאלגוריתם שלך מנסה לבצע אופטימיזציה שלו.

פונקציית יעד

הנוסחה המתמטית או המדד שהמודל נועד לבצע אופטימיזציה. לדוגמה, פונקציית היעד רגרסיה ליניארית היא בדרך כלל הפסד ממוצע בריבוע. לכן, כשאימון של במודל רגרסיה ליניארית, האימון נועד למזער את האובדן הממוצע בריבוע.

במקרים מסוימים, המטרה היא למקסם את פונקציית היעד. לדוגמה, אם פונקציית היעד היא דיוק, היעד כדי לשפר את הדיוק.

ראו גם הפסד.

מצב משופע

#df

בעץ ההחלטות, תנאי שכולל יותר מאפשרות אחת תכונה. לדוגמה, אם גובה ורוחב הם שתי הישויות, אז זהו תנאי אלכסוני:

  height > width

השוו בין תנאי יישור לציר.

לא מקוון

#fundamentals

מילה נרדפת לסטטי.

הסקת מסקנות אופליין

#fundamentals

התהליך שבו מודל יוצר קבוצה של חיזויים ואז לשמור במטמון (לשמור) את התחזיות האלה. לאחר מכן האפליקציות יכולות לגשת חיזוי מהמטמון ולא מהפעלה מחדש של המודל.

לדוגמה, נבחן מודל שיוצר תחזיות מזג אוויר מקומיות (חיזויים) פעם אחת בכל ארבע שעות. לאחר כל הרצה של מודל, המערכת שומר במטמון את כל תחזיות מזג האוויר המקומיות. אפליקציות מזג אוויר מאחזרות את התחזיות מהמטמון.

הסקת מסקנות אופליין נקראת גם הסקה סטטית.

השוו בין הסקת מסקנות אונליין.

קידוד חד-פעמי

#fundamentals

ייצוג של נתונים קטגוריים כווקטור שבו:

רכיב אחד מוגדר ל-1.
כל שאר הרכיבים מוגדרים כ-0.

קידוד חד-פעמי משמש בדרך כלל לייצוג מחרוזות או מזהים יש סט סופי של ערכים אפשריים. לדוגמה, נניח שתכונה מסוימת של קטגוריות בשם ל-Scandinavia יש חמישה ערכים אפשריים:

"דנמרק"
"שוודיה"
"נורווגיה"
"פינלנד"
"איסלנד"

קידוד חם אחד יכול לייצג כל אחד מחמשת הערכים באופן הבא:

country	וקטור
"דנמרק"	1	0	0	0	0
"שוודיה"	0	1	0	0	0
"נורווגיה"	0	0	1	0	0
"פינלנד"	0	0	0	1	0
"איסלנד"	0	0	0	0	1

בזכות קידוד חד-פעמי, המודל יכול ללמוד חיבורים שונים על סמך כל אחת מחמש המדינות.

הצגת תכונה כנתונים מספריים היא לקידוד חד-פעמי. למרבה הצער, אנחנו מייצגים האפשרות במדינות סקנדינבית היא לא טובה. לדוגמה, נבחן את הייצוג המספרי הבא:

"דנמרק" הוא 0
"שוודיה" הוא 1
"נורווגיה" הוא 2
"פינלנד" הוא 3
"איסלנד" הוא 4

בקידוד מספרי, המודל יפרש את המספרים הגולמיים מתמטית והם ננסה לאמן את המספרים האלה. עם זאת, איסלנד לא למעשה גדולה פי שניים (או חצי) משהו כמו נורווגיה, כך שהמודל יגיע לכמה מסקנות מוזרות.

למידה במצב אחד

גישה של למידת מכונה, שמשמשת בדרך כלל לסיווג אובייקטים, שנועד ללמוד מסווגים יעילים מדוגמה אחת לאימון.

אפשר לקרוא גם למידה בכמה דוגמאות למידה מאפס.

יצירת הנחיות מדוגמה אחת

#language

#generativeAI

הנחיה שמכילה דוגמה אחת שממחישה איך מודל שפה גדול (LLM) אמור להגיב. לדוגמה, בהנחיה הבאה יש דוגמה אחת שממחישה מודל שפה גדול הוא אמור לענות על שאילתה.

החלקים של הנחיה אחת	הערות
`מה המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה יצטרך לענות ה-LLM.
`צרפת: EUR`	דוגמה אחת.
`הודו:`	השאילתה עצמה.

אתם יכולים להשוות בין הנחיות מדוגמה אחת לבין המונחים הבאים:

יצירת הנחיות מאפס
יצירת הנחיות מכמה דוגמאות

אחד לעומת כולם

#fundamentals

בהינתן בעיית סיווג ב-N מחלקות, פתרון שמורכב מ-N מסווגים בינאריים – מסווג בינארי אחד עבור כל תוצאה אפשרית. לדוגמה, בהינתן מודל שמסווג דוגמאות כגון בעלי חיים, ירק או מינרל, פתרון אחד מול כולם יספק את בעזרת שלושה מסווגים בינאריים נפרדים:

בעל חיים לעומת לא בעל חיים
ירק לעומת ללא ירק
מינרל לעומת לא מינרלי

online

#fundamentals

דינמית היא מילה נרדפת.

הֶקֵּשׁ אונליין

#fundamentals

יצירת חיזויים על פי דרישה. לדוגמה, נניח שאפליקציה מעבירה קלט למודל ושולחת בקשה צפי. מערכת שמתבססת על מסקנות אונליין מגיבה לבקשה באמצעות הרצת את החיזוי הרצוי (ולהחזיר את החיזוי לאפליקציה).

השוו בין הסקת מסקנות אופליין.

פעולה (תפעול)

#TensorFlow

ב-TensorFlow, כל תהליך שיוצר מבצע מניפולציה או משמיד חיישן. עבור לדוגמה, הכפלה של מטריצה היא פעולה שלוקחת שני מעבדי Tensor ומפיק Tensor אחד כפלט.

Optax

ספריית עיבוד הדרגתי ואופטימיזציה עבור JAX. Optax מאפשר מחקר על ידי אספקת אבני בניין משולבות בדרכים מותאמות אישית לביצוע אופטימיזציה של מודלים פרמטרים, כמו נוירונים עמוקות. יעדים נוספים:

מתן הטמעות יעילות, לקריאה ונבדקות היטב של חלקי הליבה.
שיפור הפרודוקטיביות באמצעות שילוב של מרכיבים נמוכים בכלי אופטימיזציה מותאמים אישית (או ברכיבים אחרים של עיבוד הדרגתי).
האצת אימוץ רעיונות חדשים באמצעות מתן גישה קלה לכולם כדי לתרום.

כלי אופטימיזציה

הטמעה ספציפית של ירידה הדרגתית באלגוריתם כלשהו. מומחי אופטימיזציה פופולריים כוללים:

AdaGrad, שהוא ראשי התיבות ADAptive GRADient descent.
אדם, ראשי תיבות של ADAptive with Momentum.

הטיה הומוגנית כלפי חוץ

#fairness

הנטייה לראות חברים מחוץ לקבוצה דומים יותר לחברים בקבוצה כשמשווים בין גישות, ערכים, תכונות אישיות למאפיינים. בקבוצה: אנשים שאתם מקיימים איתם אינטראקציה באופן קבוע. המונח out-group מתייחס לאנשים שאתם לא יוצרים איתם אינטראקציה באופן קבוע. אם ליצור מערך נתונים ולבקש מאנשים לספק מאפיינים של קבוצות מחוץ לארגון, המאפיינים האלה עשויים להיות פחות ייחודיים וסטריאוטיפים יותר. מאשר מאפיינים שהמשתתפים מציגים לאנשים ששייכים לקבוצה.

לדוגמה, ליליפוטים עשויים לתאר את הבתים של ליליפוטים אחרים עם פירוט רב, תוך ציון הבדלים קטנים בסגנונות ארכיטקטוניים, חלונות, ובמידות גדולות. אבל אותם ליליפוטים יכולים פשוט להצהיר תושבי הברובדנגנאים חיים בבתים זהים.

הטיה הומוגנית כלפי חוץ היא סוג של הטיה בשיוך קבוצתי.

למידע נוסף, כדאי לעיין גם בהטיה בתוך הקבוצה.

זיהוי חריג חשוד טעות

תהליך הזיהוי של חריגים חשודי טעות הוגדר אימון.

השוו עם זיהוי חידושים.

חריגים חשודי טעות

ערכים רחוקים מרוב הערכים האחרים. בלמידת מכונה, כל אחד הערכים הבאים הם חריגים:

נתוני קלט שהערכים שלהם גדולים מ-3 סטיות תקן בערך מהממוצע.
משקל עם ערכים מוחלטים גבוהים.
הערכים החזויים רחוקים יחסית מהערכים בפועל.

לדוגמה, נניח ש-widget-price היא תכונה של מודל מסוים. מניחים שהממוצע widget-price הוא 7 אירו עם סטיית תקן של אירו אחד. דוגמאות לערך widget-price של 12 אירו או 2 אירו לכן ייחשבו כחריגים, כי כל אחד מהמחירים האלה חמש סטיות תקן מהממוצע.

ערכים חריגים נגרמים בדרך כלל משגיאות הקלדה או משגיאות קלט אחרות. במקרים אחרים, חריגים חשודי טעות הם לא טעויות. בסופו של דבר, נדרשים ערכים של חמש סטיות תקן מהממוצע הם נדירים אבל כמעט בלתי אפשריים.

חריגות חשודי טעות בדרך כלל גורמים לבעיות באימון המודלים. חיתוך היא אחת הדרכים לניהול חריגים.

הערכה מחוץ לתיק (הערכת OOB)

#df

מנגנון להערכת האיכות של יער החלטות על ידי בדיקת כל אחד מהם עץ החלטות שעומד מול דוגמאות לא בשימוש הדרכה של עץ ההחלטות הזה. לדוגמה, ב בתרשים הבא, שימו לב שהמערכת מאמנת כל עץ החלטות כשני שלישים מהדוגמאות, ואז מבצעת הערכה מול שליש מהדוגמאות שנותרו.

יער החלטה שמורכב משלושה עצי החלטה.
עץ החלטות אחד עובר אימון על שני שלישים מהדוגמאות
ואז משתמש בשליש הנותר להערכת OOB.
עץ החלטות שני עובר אימון על שני שלישים שונים
של הדוגמאות מעץ ההחלטות הקודם,
משתמש בשליש שונה להערכת OOB בהשוואה
עץ ההחלטות הקודם.

הערכה מחוץ לתיק היא שיטה יעילה מבחינה חישובית ושמרנית הערכה של מנגנון אימות צולב. באימות צולב, מודל אחד מאומן לכל סבב של אימות מוצלב (לדוגמה, 10 מודלים מאומנים בתהליך אימות צולב של 10 פעמים). בעזרת הערכת OOB, מתבצע אימון של מודל יחיד. כי כבודה מסתירה נתונים מסוימים מכל עץ במהלך האימון, הערכת OOB יכולה להשתמש את הנתונים כדי לבצע אימות צולב משוער.

שכבת פלט

#fundamentals

משחק הגמר של רשת נוירונים. שכבת הפלט מכילה את החיזוי.

באיור הבא מוצגת רשת נוירונים עמוקה קטנה עם קלט שתי שכבות נסתרות, ושכבת פלט:

התאמת יתר (overfitting)

#fundamentals

ליצור מודל שתואם נתוני אימון עד כדי כך שהמודל לא מצליח להפיק חיזויים נכונים לגבי נתונים חדשים.

הסתגלות יכולה לצמצם את התאמת יתר. גם אימונים על מערך אימונים גדול ומגוון יכול לצמצם את ההתאמה יתר.

לוחצים על הסמל כדי להציג הערות נוספות.

בגדי יתר הם כמו ציות לעצות של משתמשים שאהובים עליך בלבד למורה. בטח תצליחו בכיתה של המורה הזה, אבל יכול להיות 'התאמת יתר' לרעיונות של אותו מורה, ולא להצליח הסוגים. אם תיישמו עצות משילוב של מורים, תוכלו להסתגל טוב יותר למצבים חדשים.

oversampling

שימוש חוזר בדוגמאות של כיתת מיעוט במערך נתונים לא מאוזנתי כדי ליצור קבוצת אימון מאוזנת יותר.

לדוגמה, שימו לב לסיווג בינארי שבה היחס בין סיווג רוב סיווג מיעוט הוא 5,000:1. אם מערך הנתונים מכיל מיליון דוגמאות, אז שמערך הנתונים מכיל רק כ-200 דוגמאות של סיווג מיעוט, להיות מעט מדי דוגמאות לאימון יעיל. כדי להתגבר על מכשול זה, עלול לדגום (להשתמש שוב) ב-200 הדוגמאות האלה כמה פעמים, ולהניב תוצאות מספיק דוגמאות לאימון שימושי.

חשוב להפעיל שיקול דעת לגבי התאמת יתר במקרים הבאים: דגימת יתר.

השוו בין שימוש בדגימה חסרת.

P

דחיסת נתונים

גישה לאחסון נתונים בצורה יעילה יותר.

נתונים ארוזים מאוחסנים באמצעות פורמט דחוס או בדרך אחרת שתאפשר לגשת אליו בצורה יעילה יותר. דחיסת נתונים מפחיתה את כמות הזיכרון והחישוב הנדרשים כדי גישה אליה, וכך לאימון מהיר יותר ולהסקת מודל יעיל יותר.

בדרך כלל משתמשים בנתונים ארוזים בשיטות אחרות, כמו הרחבת נתונים, סידור מחדש, לשיפור הביצועים של מודלים.

פנדות

#fundamentals

ממשק API לניתוח נתונים שמתמקד בעמודות ומבוסס על numpy. הרבה מסגרות של למידת מכונה, כולל TensorFlow, תומך במבני נתונים של פנדות בתור קלט. לצפייה מסמכי תיעוד של פנדות לקבלת פרטים.

פרמטר

#fundamentals

המשקולות וההטיות שהמודל לומד במהלך הדרכה. לדוגמה, במודל רגרסיה ליניארית, הפרמטרים מכילים ההטיה (ב) וכל המשקולות (w₁, w₂, וכן הלאה) בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לעומת זאת, היפר-פרמטר הם הערכים אתם (או שירות כוונון של היפר-פרמטרים) מספקים למודל. לדוגמה, קצב למידה הוא היפר-פרמטר.

כוונון יעיל בפרמטרים

#language

#generativeAI

סדרת שיטות לכוונון של תמונה מודל שפה שעבר אימון מראש (PLM) בצורה יעילה יותר מאשר כוונון עדין מלא. יעיל בפרמטרים כוונון עדין בדרך כלל מצמצם הרבה יותר פרמטרים מאשר כמות מלאה של כוונון עדין, אבל באופן כללי מוביל מודל שפה גדול (LLM) שמבצע וגם (או כמעט באותה מידה) כמו מודל שפה גדול (LLM) שמבוסס על בכוונון עדין.

השוו והבדילו בין כוונון יעיל בפרמטרים לבין:

כוונון הוראות
כוונון הנחיות

כוונון יעיל בפרמטרים נקרא גם כוונון יעיל בפרמטרים.

שרת פרמטרים (PS)

#TensorFlow

משימה שעוקבת אחרי הפרמטרים של מודל בהגדרה מבוזרת.

עדכון פרמטרים

פעולת שינוי הפרמטרים של מודל במהלך של אימון, בדרך כלל תוך איטרציה אחת ירידה הדרגתית.

נגזרת חלקית

נגזרת שבה כל המשתנים למעט אחד נחשבים קבועים. לדוגמה, הנגזרת החלקית של f(x, y) ביחס ל-x היא נגזרת של f נחשבת כפונקציה של x בלבד (כלומר, שמירה על y קבוע). הנגזרת החלקית של f ביחס ל-x מתמקדת רק איך x משתנה ומתעלם מכל המשתנים האחרים במשוואה.

הטיה בהשתתפות

#fairness

מילה נרדפת להטיות שלא מבוססות על תגובה. מידע נוסף זמין בקטע הטיות בבחירות.

אסטרטגיית חלוקה למחיצות (partitioning)

האלגוריתם שבאמצעותו ניתן לחלק את המשתנים שרתי פרמטרים.

Pax

מסגרת תכנות שמיועדת לאימון בקנה מידה גדול מודלים של רשת נוירונים כל כך גדולים שהם מתפרשים על פני כמה TPU צ'יפ מהירות פרוסות או Pods.

אפליקציית Pax מבוססת על Flax, שמבוסס על JAX.

תרשים שמראה את המיקום של פקס בסטאק התוכנות.
Pax מבוסס על JAX. פקס עצמו מורכב משלושת
ארבע שכבות שונות. השכבה התחתונה מכילה את TensorStore ו-Flatx.
השכבה האמצעית מכילה Optax ו-Flexformer. הכי טובות
מכילה את Praxis Modeling Library. הכיור מוכן
מעל פקס.

פרצפטרון

מערכת (חומרה או תוכנה) שמקבלת ערך קלט אחד או יותר, מפעיל פונקציה על הסכום המשוקלל של הקלט, ומחשב בערך הפלט. בלמידת מכונה, הפונקציה בדרך כלל היא לא ליניארית, ReLU, sigmoid או טאן. לדוגמה, הפרספקטרום הבא מסתמך על פונקציית הסיגמואיד כדי לעבד שלושה ערכי קלט:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

באיור הבא, הפרספקטיבה מקבלת שלושה קלטים, משתנה בעצמו באמצעות משקולת לפני הכניסה לקפרסון:

תופסן שמקבל ב-3 קלטים, מוכפל כל אחד
ומשקולות. הפלט של המקודד הוא ערך יחיד.

פרספקטיבים הם הנוירונים רשתות נוירונים.

ביצועים

מונח עמוס מדי עם המשמעויות הבאות:

המשמעות הסטנדרטית בהנדסת תוכנה. כלומר: כמה מהיר (או ביעילות) האם התוכנה הזו פועלת?
המשמעות בלמידת מכונה. כאן, הביצועים עונים השאלה הבאה: עד כמה המודל הזה נכון? כלומר, עד כמה החיזויים של המודל טובים?

חשיבות של משתנה תמורה

#df

סוג של חשיבות משתנה לצורך הערכה לגידול בשגיאת החיזוי של מודל אחרי החלפה של של התכונה הזו. חשיבות משתנה הפרמוטציה היא בלתי תלויה במודל מדד.

מבוכה

אחד המדדים שבהם אפשר לראות באיזו מידה מודל יכול לבצע את המשימה שלו. לדוגמה, נניח שהמשימה שלך היא לקרוא את האותיות הראשונות של מילה משתמש מקליד במקלדת טלפון, ולהציע רשימה של אפשרויות של מילות המפתח להשלמת משפטים. רמת המורכבות, P, במשימה זו היא בערך המספר של הניחושים שאתם צריכים להציע כדי שהרשימה שלכם תכיל את המילה שהמשתמש מנסה להקליד.

רמת המורכבות קשורה לאנטרופיה אחרת באופן הבא:

$$P= 2^{-\text{cross entropy}}$$

צינור עיבוד נתונים

התשתית שמקיפה אלגוריתם של למידת מכונה. צינור עיבוד נתונים כולל איסוף הנתונים, הכנסת הנתונים לקובצי נתוני אימון, אימון מודל אחד או יותר, וייצוא המודלים לסביבת ייצור.

צינור עיבוד נתונים

#language

צורה של מקבילות של מודל שבה מודל העיבוד מחולק לשלבים רצופים, וכל שלב מתבצע במכשיר אחר. בזמן ששלב אחד מעבד אצווה אחת, בשלב הבא יכול לפעול באצווה הבאה.

למידע נוסף, ראו הדרכה מדורגת.

pjit

פונקציית JAX שמפצלת קוד שרץ בכמה רמות צ'יפים של מאיץ. המשתמש מעביר פונקציה ל-pjit, מחזירה פונקציה שיש לה סמנטיקה מקבילה אבל עברה הידור בחישוב של XLA שפועל בכמה מכשירים (כמו מעבדי GPU או ליבות TPU).

הפיצ'ר pjit מאפשר למשתמשים לפצל את החישובים מבלי לשכתב אותם באמצעות המחיצה של SPMD.

במרץ 2023, הדומיין pjit מוזג עם jit. פרטים נוספים מערכים מבוזרים ומערכים אוטומטיים טעינה במקביל אפשר לקבל פרטים נוספים.

PLM

#language

#generativeAI

קיצור של מודל שפה שעבר אימון מראש.

Pmap

פונקציית JAX שמבצעת עותקים של פונקציית קלט בכמה מכשירי חומרה בסיסיים (מעבדים, מעבדי GPU או מעבדי TPU), עם ערכי קלט שונים. Pmap נעשה על סמך SPMD.

policy

#rl

בלמידת חיזוק, מיפוי הסתברותי של סוכן ממצבים לפעולות.

יצירת מאגרים

#image

הקטנת מטריצה (או מטריצה) שנוצרה על ידי קיפולים (קונבולציות) למטריצה קטנה יותר. בדרך כלל, חלוקה למאגרים כרוכה בשקלול של הערך המקסימלי או הממוצע בכל השטח של המאגר. לדוגמה, נניח שיש לנו מטריצת 3x3 הבאה:

מטריצת 3x3 [[5,3,1], [8,2,5], [9,4,3]].

פעולת קיבוץ, בדיוק כמו פעולה קונבולציה, מחלקת של מטריצה לפרוסות, ואז מחליקה את הפעולה המתקפלת באמצעות צעדים. לדוגמה, נניח שפעולת המאגר מחלקת את המטריצה המתפתלת לפרוסות בגודל 2x2 צעדים בקצב של 1x1. כפי שמוצג בתרשים הבא, מתבצעות ארבע פעולות קיבוץ. דמיינו שכל פעולת מאגר בוחרת את הערך המקסימלי בפרוסה הזו:

יצירת מאגרים עוזרים לאכוף שונות מתורגמת במטריצת הקלט.

יצירת מאגר לאפליקציות חזותיות ידועה יותר כמאגר מרחבי. אפליקציות של סדרת זמנים מתייחסות בדרך כלל לקיבוץ כמאגר זמני. באופן פחות רשמי, קיבוץ הנתונים נקרא דגימה משנית או הקטנה.

קידוד תלוי מיקום

#language

שיטה להוספת מידע על המיקום של אסימון ברצף כדי של האסימון. מודלים של טרנספורמרים משתמשים לפי מיקום כדי להבין טוב יותר את הקשר בין חלקים שונים של המודל ברצף.

הטמעה נפוצה של קידוד מבוסס-מיקום משתמשת בפונקציה סינוסאידלית. (באופן ספציפי, התדר והמשרעת של הפונקציה הסינוסאידלית נקבע לפי המיקום של האסימון ברצף.) השיטה הזו שמאפשר למודל טרנספורמר ללמוד לחקור חלקים שונים על סמך המיקום שלהם.

כיתה חיובית

#fundamentals

הכיתה שעבורה מתבצעת הבדיקה.

לדוגמה, הסיווג החיובי במודל סרטן עשוי להיות 'גידול'. הסיווג החיובי במסווג אימיילים עשוי להיות 'ספאם'.

השוו בין סיווג שלילי.

לוחצים על הסמל כדי להציג הערות נוספות.

המונח סיווג חיובי עלול לבלבל כי הוא תוצאה אחת בהרבה בדיקות היא בדרך כלל תוצאה לא רצויה. לדוגמה, הסיווג החיובי הרבה בדיקות רפואיות תואמות לגידולים או למחלות. באופן כללי, רצוי שאמר לך, "מזל טוב! תוצאות הבדיקה שלך היו שליליות." לא משנה, המחלקה החיובית היא האירוע שהבדיקה מחפשת.

אומנם אתם בודקים בו זמנית גם את החיוב החיובי וגם את הערך השלילי הסוגים.

לאחר עיבוד

#fairness

#fundamentals

התאמת הפלט של המודל אחרי הפעלת המודל. ניתן להשתמש בעיבוד לאחר עיבוד כדי לאכוף מגבלות הוגנות, שמשנים את המודלים עצמם.

לדוגמה, ניתן להחיל לאחר עיבוד על מסווג בינארי באמצעות הגדרה של סף סיווג, נשמר שוויון ההזדמנויות לגבי מאפיין מסוים, על ידי בדיקה שהשיעור החיובי האמיתי זהה לכל הערכים של המאפיין.

PR AUC (אזור מתחת לעקומת ה-PR)

שטח במסגרת האינטרפולציה עקומת precision-recall, שמתקבלת בתרשים (אחזור, דיוק) לערכים שונים של סף הסיווג. בהתאם לאופן שבו מחושב, PR AUC עשוי להיות שווה ערך הדיוק הממוצע של המודל.

Praxis

ספריית ליבה של Pax עם ביצועים גבוהים של למידת מכונה. פרקיס הוא לעיתים קרובות שנקרא 'ספריית השכבות'.

פרוטוקול Praxis מכיל לא רק את ההגדרות של המחלקה Layer, אלא את רוב גם הרכיבים שתומכים בו, כולל:

קלט של נתונים
ספריות תצורה (HParam ו-Fiddle)
כלי אופטימיזציה

Praxis מספק את ההגדרות למחלקה Model.

דיוק

מדד למודלים של סיווג שנותן תשובה השאלה הבאה:

כשהמודל חזה את הסיווג החיובי, איזה אחוז מהחיזויים היו נכונים?

זאת הנוסחה:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

איפה:

המשמעות היא שהמודל חזה נכון את המחלקה החיובית.
המשמעות היא שהמודל חזה בטעות את הסיווג החיובי.

לדוגמה, נניח שמודל ביצע 200 חיזויים חיוביים. מתוך 200 החיזויים החיוביים האלה:

150 היו תוצאות חיוביות אמיתיות.
50 היו תוצאות חיוביות מוטעות

במקרה זה:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

השוו עם דיוק ואחזור.

עקומת זיכרון-דיוק

עקומה של דיוק לעומת אחזור ברמות שונות ספי סיווג.

חיזוי (prediction)

#fundamentals

הפלט של המודל. לדוגמה:

החיזוי של מודל סיווג בינארי הוא הערך החיובי או את המחלקה השלילית.
החיזוי של מודל סיווג מרובה מחלקות הוא מחלקה אחת.
החיזוי של מודל רגרסיה ליניארית הוא מספר.

#generativeAI

אימון ראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שאומנו מראש הם ענקיים מגושמים, ובדרך כלל צריך לטפח אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה עשויים לאמן מראש מודל שפה גדול (LLM) במערך נתונים גדול של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. לאחר אימון מראש, של המודל שנוצר, ניתן לחדד עוד יותר באמצעות שיטות:

זיקוק
כוונון עדין
כוונון הוראות
כוונון יעיל בפרמטרים
כוונון הנחיות

אמונה קודמת

מה דעתכם על הנתונים לפני שאתם מתחילים להתאמן עליהם. לדוגמה, הרגולריזציה L₂ מסתמכת על אמונה קודמת שמשקולות צריכות להיות קטנות ונורמליות ומפוזרות סביב אפס.

מודל רגרסיה הסתברותית

מודל רגרסיה שמשתמש לא רק משקולות לכל תכונה, אבל גם ואי-הוודאות של המשקולות האלה. מודל רגרסיה הסתברותי יוצר חיזוי מסוים ואי-הוודאות של החיזוי הזה. לדוגמה, מודל רגרסיה הסתברותי יכול להניב חיזוי של 325 סטיית תקן של 12. למידע נוסף על רגרסיה הסתברותית ראו את המאמר Colab tensorflow.org.

פונקציית צפיפות ההסתברות

פונקציה שמזהה את התדירות של דגימות נתונים שיש להן ערך בדיוק בערך מסוים. כשהערכים של מערך נתונים הם נקודה צפה (floating-point) רציפה מספרים, התאמות מדויקות מתרחשות לעתים רחוקות. אבל, שילוב הסתברות פונקציית הצפיפות מהערך x לערך y מניבה את התדירות הצפויה של דגימות נתונים בין x ל-y.

לדוגמה, נניח שהתפלגות נורמלית עם ממוצע של 200. סטיית תקן של 30. כדי לקבוע את התדירות הצפויה של דגימות נתונים בטווח של 211.4 עד 218.7, אפשר לשלב את ההסתברות פונקציית צפיפות להתפלגות נורמלית מ-211.4 עד 218.7.

הצעה לפעולה

#language

#generativeAI

כל טקסט שהוזן כקלט למודל שפה גדול (LLM) כדי להתנות את המודל כך שיתנהג באופן מסוים. ההנחיות יכולות להיות קצרות כמו לביטוי או ארוך באופן שרירותי (לדוגמה, כל הטקסט של רומן). הנחיות נכללות במספר קטגוריות, כולל אלו שמוצגות בטבלה הבאה:

קטגוריית ההנחיות	דוגמה	הערות
שאלה	`באיזו מהירות יונה יכולה לעוף?`
הוראות	`כתיבת שיר מצחיק על ארביטראז'.`	הנחיה שמבקשת ממודל השפה הגדול (LLM) לבצע פעולה.
דוגמה	`תרגום של קוד Markdown ל-HTML. מוצרים לדוגמה: Markdown: * פריט ברשימה HTML: <ul> <li>פריט ברשימה</li> </ul>`	המשפט הראשון בהנחיה הזו לדוגמה הוא הוראה. שאר ההנחיה היא דוגמה.
התפקיד	`להסביר למה ירידה הדרגתית משמשת באימון של למידת מכונה כדי דוקטור בפיזיקה.`	החלק הראשון של המשפט הוא הוראה. את הביטוי "לתואר דוקטור בפיזיקה" הוא החלק של התפקיד.
קלט חלקי שיש למודל כדי להשלים	`ראש ממשלת בריטניה גר ב-`	הנחיה עם קלט חלקי יכולה להסתיים בפתאומיות (כפי שמתרחש בדוגמה הזו) או מסתיימת בקו תחתון.

מודל בינה מלאכותית גנרטיבית יכול לתת תשובות להנחיה באמצעות טקסט, קוד, תמונות, הטמעות, סרטונים... כמעט הכול.

למידה מבוססת-הנחיות

#language

#generativeAI

יכולת של מודלים מסוימים שמאפשרים להם להתאים את עצמם ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הנחיות). בפרדיגמה טיפוסית של למידה המבוססת על הנחיות, מודל שפה גדול (LLM) משיב להנחיה באמצעות יצירת טקסט. לדוגמה, נניח שמשתמש מזין את ההנחיה הבאה:

סכם את חוק התנועה השלישי של ניוטון.

מודל שמסוגל ללמידה מבוססת-הנחיות לא אומן באופן ספציפי לענות על להנחיה הקודמת. במקום זאת, המודל "יודע" הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים, והרבה על מה שמכונה באופן כללי לתשובות שימושיות. הידע הזה מספיק כדי לספק תשובה. משוב אנושי נוסף ("התשובה הזו הייתה מורכבת מדי". או "מהי תגובה?") מאפשר למערכות למידה מסוימות שמבוססות על הנחיות לשפר את התועלת של התשובות שלהם.

עיצוב הנחיות

#language

#generativeAI

מילה נרדפת להנדסת הנחיות.

הנדסת הנחיות

#language

#generativeAI

אומנות יצירת הנחיות שגורמות לתשובות הרצויות ממודל שפה גדול (LLM). בני אדם מבצעים הנחיות של בינה מלאכותית גנרטיבית. כדי לוודא שכתיבת הנחיות מנוסחות היטב היא לקבל תשובות מועילות ממודל שפה גדול. הנדסת פרומפטים תלויה גורמים רבים, כולל:

מערך הנתונים שמשמש לאימון מקדים ואולי גם משמש לחדד את מודל השפה הגדול (LLM).
את הטמפרטורה ופרמטרים אחרים של פענוח ליצירת תשובות.

צפייה מבוא לעיצוב הנחיות אפשר לקבל פרטים נוספים על כתיבת הנחיות מועילות.

עיצוב פרומפטים הוא שם נרדף להנדסת פרומפטים.

כוונון של הנחיות

#language

#generativeAI

מנגנון כוונון יעיל בפרמטרים שלומדת 'קידומת' שהמערכת מוסיפה הנחיה בפועל.

וריאציה אחת של כוונון של הנחיות – שלפעמים נקראת כוונון תחילית – להוסיף את התחילית בכל שכבה. לעומת זאת, רוב ההנחיות (כוונון) מוסיף קידומת לשכבת הקלט.

יש ללחוץ על הסמל כדי לקבל מידע נוסף על תחיליות.

לכוונון של הנחיות, מציינים את הקידומת (נקרא גם "פרומפט ישיר") היא מספר וקטורים ספציפיים למשימה שנלמדו ונוספו לפני אסימון הטקסט מההנחיה עצמה. המערכת לומדת את ההנחיה הרכה הקפאת כל הפרמטרים האחרים של המודל וכוונון עדין של משימה ספציפית.

תוויות לשרת proxy

#fundamentals

נתונים שמשמשים לחישוב משוער של תוויות שלא זמינים ישירות במערך נתונים.

לדוגמה, נניח שצריך לאמן מודל כדי לחזות עובד רמת הלחץ. מערך הנתונים מכיל הרבה תכונות חיזוי, לא מכיל תווית בשם רמת מתח. בוחרים באפשרות 'תאונות במקום העבודה' ללא חשש כתווית לשרת proxy עבור רמת הלחץ. אחרי הכול, עובדים שסובלים ממתח גבוה מסתנכרנים יותר תאונות מאשר עובדים רגועים. או שאולי נכון? אולי תאונות במקום העבודה עולה ונופלות מסיבות שונות.

דוגמה שנייה: נניח שאתם רוצים שהתווית האם יורד גשם? תהיה תווית בוליאנית. של מערך הנתונים, אבל מערך הנתונים לא מכיל נתוני גשם. אם המיקום תמונות זמינות, אפשר ליצור תמונות של אנשים לשאת מטריות בתור תווית של שרת proxy עבור האם יורד גשם? האם זה קורה? תווית טובה של שרת proxy? ייתכן, אבל אנשים מתרבויות מסוימות יותר סביר לשאת מטריות כדי להגן מפני שמש מאשר גשם.

תוויות proxy הן לעיתים קרובות שגויות. כשאפשר, כדאי לבחור בתוויות בפועל במקום תוויות לשרת proxy. עם זאת, אם אין תווית בפועל, צריך לבחור את שרת ה-proxy ובחרת את התווית הכי פחות גרועה של שרת proxy.

שרת proxy (מאפיינים רגישים)

#fairness

מאפיין שמשמש כמעמד של מאפיין רגיש. לדוגמה, המיקוד של אדם פרטי עשוי לשמש כביטוי להכנסות שלו, גזע או מוצא אתני.

פונקציה טהורה

פונקציה שהפלט שלה מבוסס רק על הקלט שלה, ואין לה צד באפקטים מיוחדים. וספציפית, פונקציה טהורה לא משתמשת ולא משנה מצב גלובלי כלשהו, כמו התוכן של קובץ או הערך של משתנה מחוץ לפונקציה.

אפשר להשתמש בפונקציות טומות כדי ליצור קוד שלא בטוח לשרשורים, וזה שימושי במהלך פיצול של קוד המודל צ'יפים של מאיץ.

השיטות של JAX לטרנספורמציה של פונקציות שפונקציות הקלט הן פונקציות טהורים.

Q

פונקציית Q

#rl

בלמידת חיזוק, הפונקציה החיזוי של ההחזר הצפוי פעולה בתוך מצב ואז לפעול בהתאם למדיניות מסוימת.

הפונקציה Q נקראת גם פונקציית ערך מצב פעולה.

למידת Q

#rl

בלמידת חיזוק, אלגוריתם מאפשר סוכן כדי ללמוד מהי פונקציית ה-Q האופטימלית תהליך ההחלטה של מרקוב באמצעות יישום של משוואת בלמן. המודלים של תהליך קבלת ההחלטות של מרקוב סביבה.

האחוזון

כל קטגוריה בקטגוריות כמותיות.

חלוקת כמות גדולה

הפצת הערכים של תכונה בקטגוריות כך שכל אחד מהם הקטגוריה מכילה אותו מספר (או כמעט זהה) של דוגמאות. לדוגמה, הצורה הבאה מחלקת 44 נקודות ל-4 קטגוריות, שכל אחת מהן מכיל 11 נקודות. כדי שכל קטגוריה באיור תכיל את אותו מספר נקודות, חלק מהקטגוריות מתפרסות על רוחב שונה של ערכי x.

44 נקודות על הגרף מחולק ל-4 קטגוריות של 11 נקודות כל אחת.
למרות שכל קטגוריה מכילה אותו מספר של נקודות נתונים,
חלק מהקטגוריות מכילות טווח רחב יותר של ערכי מאפיינים מאשר בקטגוריות אחרות
קטגוריות.

כימות

מונח בעומס יתר שניתן להשתמש בו בכל אחת מהדרכים הבאות:

הטמעה של חלוקה של קטגוריות כמותיות לגבי תכונה מסוימת.
ממירים נתונים לאפסים ולהפך, לאחסון, לאימון מהירים יותר, והסקת מסקנות. מאחר שנתונים בוליאניים חזקים יותר לרעש ולשגיאות מאשר בפורמטים אחרים, הקונטיזציה יכולה לשפר את נכונות המודל. שיטות קונטיינר כוללות עיגול, חיתוך ו binning
הפחתת מספר הביטים שמשמשים לאחסון של המודל parameters. לדוגמה, נניח שהפרמטרים של מודל מאוחסנים בתור מספרים עם נקודה צפה (floating-point) של 32 ביט. תכונת הקונטיינרים ממירה אותם מ-32 סיביות עד 4, 8 או 16 סיביות. קונטיינרים מפחיתים את הבאים:
- שימוש במחשוב, בזיכרון, בדיסק וברשת
- זמן להסיק פרדיקציה
- צריכת חשמל
אבל לפעמים, כימות מפחית את הנכונות של מודל ויצירת חיזויים.

רשימת סרטונים

#TensorFlow

פעולה של TensorFlow שמטמיעה נתוני תור שלנו. בדרך כלל נמצא בשימוש בקלט/פלט (I/O).

R

RAG

#fundamentals

קיצור של יצירה משופרת של אחזור.

יער אקראי

#df

שילוב של עצי החלטה בתוך שכל עץ החלטות אומן לפי רעש אקראי ספציפי, כמו כבודה.

יערות אקראיים הם סוג של יער החלטות.

מדיניות אקראית

#rl

בלמידת חיזוק, מדיניות שבוחרת פעולה באופן אקראי.

דירוג

סוג של למידה מונחית היא לסדר רשימה של פריטים.

דירוג (רגיל)

המיקום הסידורי של כיתה בבעיית למידת מכונה שמסווגת מהגבוה לנמוך. לדוגמה, דירוג התנהגות המערכת יכולה לדרג את הפרסים של הכלב מהדירוג הגבוה ביותר (סטייק) הכי נמוך (קייל קמל).

דירוג (Tensor)

#TensorFlow

מספר המאפיינים בחיישן. לדוגמה, לסקלר יש דירוג 0, לווקטור יש דירוג 1 ולמטריצה יש דירוג 2.

חשוב להבדיל ביניהן עם דירוג (רגיל).

דירוג

#fundamentals

אדם שמספק תוויות לדוגמאות. 'משתמש שמורשה להוסיף הערות' הוא שם נוסף של מדרג.

recall

מדד למודלים של סיווג שנותן תשובה השאלה הבאה:

כש-ground truth היה סיווג חיובי, כמה אחוזים מהחיזויים הניבו שהמודל הזדהה בצורה נכונה כמחלקה החיובית?

זאת הנוסחה:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

איפה:

המשמעות היא שהמודל חזה נכון את המחלקה החיובית.
פירושו שהמודל חזה בטעות סיווג שלילי.

לדוגמה, נניח שהמודל שלך ביצע 200 חיזויים לגבי דוגמאות האמת הייתה המחלקה החיובית. מתוך 200 החיזויים האלה:

180 היו תוצאות חיוביות אמיתיות.
20 היו שליליות כוזבות.

במקרה זה:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

לוחצים על הסמל של הערות לגבי מערכי נתונים ללא איזון בין הכיתה.

תזכורת היא שימושית במיוחד לקביעת כוח החיזוי של מודלים של סיווג שבהם המחלקה החיובית היא נדירה. לדוגמה, כדאי לחשוב על מערך נתונים לא מאוזנתי שבה הסיווג החיובי של מחלה מסוימת מופיע ב-10 מטופלים בלבד מתוך מיליון. נניח שהמודל שלך מספק חמישה מיליון חיזויים שמניבים התוצאות הבאות:

30 ערכים חיוביים
20 מילות מפתח שליליות כוזבות
4,999,000 מילות מפתח שליליות אמיתיות
950 False Positives (חיוביים כוזבים)

לכן, הריקול של המודל הזה הוא:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

לעומת זאת, הדיוק של המודל הזה הוא:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

ערך הדיוק הגבוה נראה מרשים, אבל למעשה הוא חסר משמעות. זכירת הנתונים היא מדד שימושי הרבה יותר למערכי נתונים עם איזון בין מחלקות, מאשר לדיוק.

מערכת המלצות

#recsystems

מערכת שבוחרת עבור כל משתמש קבוצה קטנה יחסית של items מתוך אוסף גדול. לדוגמה, מערכת המלצות על סרטונים עשויה להמליץ על שני סרטונים מתוך קורפוס של 100,000 סרטונים, בחירה בקזבלנקה הסיפור של פילדלפיה למשתמש אחד, ול-Wonder Woman פנתר שחור לצד אחר. מערכת המלצות על סרטונים עשויה מבססת את ההמלצות שלו על גורמים כמו:

סרטים שמשתמשים דומים דירגו או צפו בהם.
ז'אנר, במאים, שחקנים, טירגוט דמוגרפי...

יחידה לינארית מתוקנת (ReLU)

#fundamentals

פונקציית הפעלה עם ההתנהגות הבאה:

אם הקלט הוא שלילי או אפס, הפלט הוא 0.
אם הקלט הוא חיובי, הפלט שווה לקלט.

לדוגמה:

אם הקלט הוא -3, הפלט הוא 0.
אם הקלט הוא +3, הפלט הוא 3.0.

הנה עלילה של ReLU:

ReLU היא פונקציית הפעלה פופולרית מאוד. למרות ההתנהגות הפשוטה שלו, תקן ReLU עדיין מאפשר לרשת נוירונים ללמוד לא לינארי בין התכונות לבין התווית.

רשת נוירונים חוזרת

#seq

רשת נוירונים שמפעילה במכוון מספר שבהם חלקים מכל פיד של הפעלה יפעילו את ההפעלה הבאה. ובאופן ספציפי, או שכבות מוסתרות מההרצה הקודמת, מספקות חלק לאותה שכבה מוסתרת בהפעלה הבאה. רשתות נוירונים חוזרות הם שימושיים במיוחד להערכת רצפים, כך שהשכבות הסמויות ללמוד מהפעלות קודמות של רשת הנוירונים בחלקים מוקדמים יותר את הרצף.

לדוגמה, האיור הבא מציג רשת נוירונים חוזרת פועל ארבע פעמים. שימו לב שהערכים שנלמדו בשכבות המוסתרות ההרצה הראשונה הופכת לחלק מהקלט לאותן שכבות מוסתרות בהפעלה השנייה. באופן דומה, הערכים שנלמדו בשכבה הסמויה הופכת לחלק מהקלט לאותה שכבה נסתרת בהפעלה השלישית. בצורה הזאת, רשת הנוירונים החוזרת מאמנים בהדרגה חוזה את המשמעות של כל הרצף ולא רק את המשמעות של מילים בודדות.

רשת נוירונים חוזרת (RNN) שרצה ארבע פעמים כדי לעבד ארבע מילות קלט.

מודל רגרסיה

#fundamentals

באופן לא רשמי, מודל שיוצר חיזוי מספרי. (לעומת זאת, מודל סיווג יוצר מחלקה prediction.) לדוגמה, המודלים הבאים הם מודלים של רגרסיה:

מודל שחוזה את הערך של בית מסוים, למשל 423,000 אירו.
מודל שחוזה את תוחלת החיים של עץ מסוים, למשל 23.2 שנים.
מודל שחוזה את כמות הגשם שיירד בעיר מסוימת במהלך שש השעות הבאות, למשל 0.18 אינץ'.

שני סוגים נפוצים של מודלים של רגרסיה הם:

רגרסיה לינארית, שמוצאת את הקו המתאים ביותר מתאימה ערכי תוויות לתכונות.
רגרסיה לוגיסטית, שיוצרת בין 0.0 ל-1.0 שהמערכת בדרך כלל ממפה לאחר מכן לכיתה צפי.

לא כל מודל שמפיק חיזויים מספריים הוא מודל רגרסיה. במקרים מסוימים, חיזוי מספרי הוא רק מודל סיווג במקרה שיש שמות מחלקות מספריים. לדוגמה, מודל שחוזה מיקוד מספרי הוא מודל סיווג, ולא מודל רגרסיה.

רגולריזציה (regularization)

#fundamentals

כל מנגנון שמפחית התאמה יתר. סוגים פופולריים של הרגולריזציה:

רגולריזציה של L₁
רגולריזציה של L₂
רגולריזציה של נטישה
עצירה מוקדמת (לא מדובר ב שיטת הרגולריזציה מחדש, אבל יכולה להגביל ביעילות התאמת יתר)

אפשר להגדיר רגילה גם כקנס על מורכבות המודל.

לוחצים על הסמל כדי להציג הערות נוספות.

הסדירוּת היא פעולה מנוגדת להיגיון. הגדלת הרגולריות בדרך כלל מגדיל את אובדן האימון, וזה מבלבל כי מטרה למזער את אובדן האימון?

למעשה, לא. המטרה לא היא למזער את אובדן האימון. המטרה היא חיזויים מצוינים לגבי דוגמאות מהעולם האמיתי. באופן יוצא מן הכלל, למרות הגברת הרגולריזציה מגדילה את אובדן האימון, היא בדרך כלל עוזרת למודלים תחזיות טובות יותר על דוגמאות מהעולם האמיתי.

שיעור הרגולריזציה

#fundamentals

מספר שמציין את החשיבות היחסית של ארגון במהלך האימון. העלאת שיעור הרגולריזציה מפחית התאמת יתר, אבל עשוי הפחתת כוח החיזוי של המודל. לעומת זאת, צמצום או השמטה שיעור הרגולריזציה מגדיל את התאמת יתר.

צריך ללחוץ על הסמל כדי לראות את החשבון.

שיעור הרגולריזציה מיוצג בדרך כלל בתור האות היוונית lambda. במשוואה הפשוטה הבאה של הפסד אפשר לראות ההשפעה של למבדה:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

כאשר הסתגלות היא כל מנגנון הרגולריזציה, כולל;

רגולריזציה של L₁
רגולריזציה של L₂

למידת חיזוק (RL)

#rl

קבוצת אלגוריתמים שלומדים מדיניות אופטימלית, שהיעד שלה הוא הוא למקסם את ההחזר כאשר מתבצעת אינטראקציה עם סביבה. לדוגמה: הפרס האולטימטיבי ברוב המשחקים הוא ניצחון. מערכות הלמידה של החיזוק יכולות להפוך למומחיות במשחק באמצעות הערכה של רצפים של מהלכי משחק קודמים, שבסופו של דבר הוביל לנצחונות ולרצפים שבסופו של דבר הובילו להפסדים.

למידה של חיזוק ממשוב אנושי (RLHF)

#generativeAI

#rl

להשתמש במשוב ממדרגים אנושיים כדי לשפר את איכות התשובות של המודל. לדוגמה, מנגנון RLHF יכול לבקש ממשתמשים לדרג את האיכות של מודל תגובה עם 👍 או 👎 אמוג'י. לאחר מכן המערכת יכולה לשנות את התשובות העתידיות על סמך המשוב הזה.

ReLU

#fundamentals

קיצור של Rectified Linear Unit

הפעלה מחדש של מאגר נתונים זמני

#rl

באלגוריתמים דמויי DQN, הזיכרון שבו משתמש הסוכן לאחסן מעברים בין מצבים, לשימוש הפעלה מחדש של החוויה.

רפליקה

עותק של קבוצת האימון או המודל, בדרך כלל במכונה אחרת. לדוגמה, מערכת יכולה להשתמש בישויות הבאות: אסטרטגיה להטמעה של מקבילות נתונים:

הציבו רפליקות של מודל קיים במספר מכונות.
לשלוח קבוצות משנה שונות של האימון לכל רפליקה.
צבירת העדכונים של הפרמטר.

הטיה בדיווח

#fairness

העובדה שהתדירות שבה אנשים כותבים על פעולות, תוצאות או מאפיינים אינם משקפים את העולם האמיתי שלהם תדרים או מידת המאפיין של נכס של קבוצה של אנשים פרטיים. ההטיה בדיווח עלולה להשפיע על ההרכב של נתונים שמערכות למידת מכונה לומדות מהם.

לדוגמה, בספרים המילה צחוק נפוצה יותר מאשר נשיפה. מודל למידת מכונה שמעריך את התדירות היחסית צחוק ונשימה מתוך קורפוס של ספר כנראה יקבעו שצחוק יותר נפוץ מנשימה.

בווקטור יהיה זהה,

התהליך של מיפוי נתונים לתכונות שימושיות.

דירוג מחדש

#recsystems

השלב האחרון של מערכת המלצות, במהלך התקופה הזו, פריטים שקיבלו ציון עשויים לקבל ציון מחדש בהתאם אלגוריתם (בדרך כלל לא למידת מכונה). בדירוג מחדש מתבצעת הערכה של רשימת הפריטים שנוצר על ידי שלב הניקוד, תוך ביצוע פעולות כמו:

הסרת פריטים שהמשתמש כבר קנה.
העלאת הדירוג של פריטים חדשים יותר.

Retrieval-augmented Gen (RAG)

#fundamentals

שיטה לשיפור האיכות של פלט של מודל שפה גדול (LLM) על ידי הבססת מקורות מידע שאוחזרו אחרי אימון המודל. RAG משפר את רמת הדיוק של תשובות LLM, כי הוא מספק ל-LLM המאומן גישה למידע שאוחזר ממאגרי ידע או ממסמכים מהימנים.

בין המניעים הנפוצים לשימוש בהפקה משופרת של אחזור:

שיפור הדיוק העובדתי בתשובות שנוצרות למודל.
לתת למודל גישה לידע שהוא לא אומן לפיו.
שינוי הידע שבו המודל משתמש.
מתן אפשרות למודל לצטט מקורות.

לדוגמה, נניח שאפליקציה לכימיה משתמשת ב-PaLM API ליצירת סיכומים שקשורות לשאילתות של משתמשים. כשהקצה העורפי של האפליקציה מקבל שאילתה, הקצה העורפי:

חיפוש נתונים ('מאחזרים') שרלוונטיים לשאילתת המשתמש.
מצרף ('שיפורים') את הנתונים הכימיים הרלוונטיים לשאילתת המשתמש.
מורה ל-LLM ליצור סיכום על סמך הנתונים שצורפו.

שורה חדשה

#rl

בלמידת חיזוק, בהינתן מדיניות מסוימת ומצב מסוים, Return הוא הסכום של כל התגמולים שהסוכן צפויה לקבל לאחר ציות למדיניות המצב עד סוף הפרק. הנציג מביא בחשבון את האופי העיכוב של הפרסים הצפויים על ידי הנחת פרסים בהתאם למעברים בין המדינות שנדרשים כדי לקבל את הפרס.

לכן, אם גורם ההנחה הוא $\gamma$, וגם $r_0, \ldots, r_{N}$ מציינים את הפרסים עד סוף הפרק, ואז את חישוב ההחזרה הוא:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

הטבה

#rl

בלמידה חיזוק, התוצאה המספרית של שימוש פעולה במצב, כפי שמוגדר על ידי הסביבה.

התבססות על רכסים

מילה נרדפת לרגולריזציה של L₂. המונח רגולריזציה של רידג' משמשת לעיתים קרובות יותר בנתונים סטטיסטיים מובהקים בהקשרים שונים, ואילו שימוש תדיר יותר ב-L₂regularization בלמידת מכונה.

RNN

#seq

קיצור של רשתות נוירונים חוזרות.

עקומת ROC (מאפיין הפעלת מקלט)

#fundamentals

תרשים של שיעור חיובי אמיתי לעומת שיעור חיובי שווא למאפיינים שונים ערכי סף לסיווג בבינארי. של משפטים יחידים,

הצורה של עקומת ROC מרמזת על היכולת של מודל סיווג בינארי כדי להפריד בין סיווגים חיוביים לסיווגים שליליים. נניח, למשל, שמודל סיווג בינארי מפריד לחלוטין בין כל הערכים מכל הכיתות החיוביות:

ציר מספרים עם 8 דוגמאות חיוביות בצד ימין
7 דוגמאות שליליות משמאל.

עקומת ה-ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-X הוא שיעור חיובי שגוי וציר ה-Y
הוא השיעור החיובי האמיתי. העקומה היא בצורת L הפוכה. העקומה
מתחיל ב- (0.0,0.0) ונמשך ישירות עד (0.0,1.0). ואז את העקומה
מ-(0.0,1.0) ל-(1.0,1.0).

לעומת זאת, באיור הבא מוצגת הרגרסיה הלוגיסטית הגולמית. עבור מודל גרוע שאינו יכול להפריד בין סיווגים שליליים דירוגים חיוביים בכלל:

ציר מספרים עם דוגמאות חיוביות וסיווגים שליליים
מתערבבים לגמרי.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
עד (1.0,1.0).

בינתיים, בעולם האמיתי, רוב המודלים הבינאריים של סיווג בינאריים מפרידים בין דירוגים חיוביים ושליליים במידה מסוימת, אבל בדרך כלל לא בצורה מושלמת. אז, עקומה טיפוסית של ROC נופלת בין שתי הקצוות הקיצוניים:

עקומת ROC. ציר ה-X הוא שיעור חיובי שגוי וציר ה-Y
הוא השיעור החיובי האמיתי. עקומת ה-ROC מתקרבת לקשת רועשת
לחצות את נקודות המצפן ממערב לצפון.

הנקודה בעקומת ROC הקרובה ביותר ל-(0.0,1.0) מזהה תיאורטית סף הסיווג האידיאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי להשפיע על הבחירה של סף הסיווג האידיאלי. לדוגמה, אולי תוצאות שליליות כוזבות גורמות הרבה יותר כאב מאשר תוצאות חיוביות מוטעות.

מדד מספרי שנקרא AUC מסכם את עקומת ה-ROC ערך יחיד של נקודה צפה (floating-point).

הנחיות ליצירת תפקידים

#language

#generativeAI

חלק אופציונלי בהנחיה שמזהה קהל יעד לתשובה מהמודל בינה מלאכותית גנרטיבית. בלי תפקיד מודל שפה גדול (LLM) מספק תשובה שיכולה להיות מועילה לאדם ששואל את השאלות. עם הנחיה לתפקיד, יכול לענות באופן מתאים ומועיל יותר קהל יעד ספציפי. לדוגמה, החלק של הנחיית התפקיד ההנחיות מופיעות בגופן מודגש:

לסכם את המאמר הזה לדוקטורט בכלכלה.
לתאר את האופן שבו גאות ושפל פועלות לגיל עשר.
הסבירו את המשבר הפיננסי ב-2008. דברו אל ילד קטן, או גולדן רטריבר.

הרמה הבסיסית (root)

#df

הצומת שמתחיל (הראשון) תנאי) בעץ החלטות. לפי המוסכמה, תרשימים מציבים את השורש בחלק העליון של עץ ההחלטות. לדוגמה:

עץ החלטות עם שני תנאים ושלושה עלים.
תנאי ההתחלה (x > 2) הוא השורש.

תיקיית שורש

#TensorFlow

הספרייה שציינתם לאירוח ספריות המשנה של TensorFlow קובצי אירועים ונקודות ביקורת בכמה מודלים.

שגיאה בריבוע הממוצע של Root (RMSE)

#fundamentals

השורש הריבועי של השגיאה הממוצעת בריבוע.

שונות סיבובית

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם אם כיוון התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס אם הוא מצביע, שמאלה או למטה. חשוב לשים לב ששונות סיבובית לא תמיד רצויה. לדוגמה, אסור לסווג 9 הפוך כ-9.

אפשר לעיין גם בשונות תרגום וגם הבדלים בגודל.

R בריבוע

מדד של רגרסיה שמציין את רמת השינוי תווית קשורה לתכונה מסוימת או לקבוצת תכונות. R בריבוע הוא ערך בין 0 ל-1, ואותו אפשר לפרש כך:

המשמעות של R בריבוע 0 היא שאף אחת מהווריאציות של תווית מסוימת לא קשורה קבוצת התכונות.
המשמעות של R בריבוע של 1 היא שכל הווריאציות של תווית מסוימת נובעות קבוצת התכונות.
R בריבוע בין 0 ל-1 מציין את המידה שבה התווית צפויה להיות וריאציה של תכונה מסוימת או של קבוצת תכונות מסוימת. לדוגמה, R בריבוע של 0.10 פירושו ש-10 אחוז מהשונות בתווית בגלל ערכת התכונות, R בריבוע של 0.20 פירושו 20 אחוז נובעים מקבוצת התכונות, וכן הלאה.

R בריבוע הוא הריבוע של מתאם פירסון מקדם בין הערכים שמודל חזה לבין אמת קרקע.

S

הטיית דגימה

#fairness

מידע נוסף זמין בקטע הטיות בבחירות.

דגימה עם החלפה

#df

שיטה של בחירת פריטים מתוך קבוצת פריטים מועמדים שבהם אותם פריטים ניתן לבחור את הפריט מספר פעמים. הביטוי "עם החלפה" זה שאחרי כל בחירה, הפריט שנבחר מוחזר למאגר של פריטים מועמדים. השיטה ההפוכה, דגימה ללא החלפה, המשמעות היא שאפשר לבחור פריט מועמד רק פעם אחת.

לדוגמה, נבחן את קבוצת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת באקראי את fig בתור הפריט הראשון. אם משתמשים בדגימה עם החלפה, המערכת תבחר הפריט השני מתוך הקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, הקבוצה זהה לזו הקודמת, כך שהמערכת עשויה צריך לבחור שוב את fig.

אם משתמשים בדגימה ללא החלפה, לא ניתן לבחור דגימה לאחר בחירתה היא בחרה שוב. לדוגמה, אם המערכת בוחרת באקראי את fig בתור הדוגמה הראשונה, ואז אי אפשר לבחור שוב את fig. לכן המערכת בוחר את הדוגמה השנייה מתוך הקבוצה (המצומצמת) הבאה:

fruit = {kiwi, apple, pear, cherry, lime, mango}

לוחצים על הסמל כדי להציג הערות נוספות.

המילה replacement בדגימה עם החלפה מבלבלת הרבה אנשים. באנגלית, המשמעות של replacement היא "החלפה". עם זאת, דגימה עם החלפה למעשה משתמשת בהגדרה בצרפתית להחלפה, שפירושה "להחזיר משהו".

המילה replacement מתורגמת לצרפתית remplacement.

SavedModel

#TensorFlow

הפורמט המומלץ לשמירה ושחזור של מודלים של TensorFlow. SavedModel הוא פורמט נייטרלי של שפה שניתן לשחזר אותו, המאפשר מערכות וכלים ברמה גבוהה יותר לייצור, לצריכה ולטרנספורמציה של TensorFlow למשימות ספציפיות.

שמירה ושחזור של הפרק במדריך למתכנת TensorFlow לקבלת פרטים מלאים.

חסכוני

#TensorFlow

אובייקט TensorFlow האחראית על שמירת נקודות ביקורת של מודלים.

סקלר

מספר בודד או מחרוזת יחידה שאפשר לייצג כמספר tensor של rank 0. לדוגמה, שורות קוד שכל אחת מהן יוצרת סקלר אחד ב-TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

התאמה לעומס (scaling)

כל טרנספורמציה מתמטית או שיטה שמשתנות את הטווח של תווית ו/או ערך התכונה. צורות מסוימות של התאמה לעומס הן שימושיות מאוד לטרנספורמציות כמו נירמול.

צורות נפוצות של התאמה לעומס (scaling) שמועילות בלמידת מכונה כוללות:

קנה מידה לינארי, המשתמש בדרך כלל בשילוב של החיסור הפונקציה להחליף את הערך המקורי במספר בין 1- ל-+1, או בין 0 ל-1.
קנה מידה לוגריתמי, שמחליף את הערך המקורי בערך לוגריתם.
נירמול של ציון ה-Z, שמחליף את עם ערך נקודה צפה (floating-point) שמייצג את מספר סטיות תקן מהממוצע של התכונה הזו.

ללמוד מד"ב

פלטפורמה פופולרית של למידת מכונה בקוד פתוח. צפייה scikit-learn.org.

ניקוד

#recsystems

החלק במערכת המלצות מספקת ערך או דירוג לכל פריט שמופק יצירת מועמדים.

הטיית בחירה

#fairness

שגיאות במסקנות שנלקחו מנתונים שנדגמו עקב תהליך בחירה שיוצרת הבדלים שיטתיים בין דגימות שנמדדו בנתונים ואת אלה שלא תועדו. קיימות הצורות הבאות של הטיית בחירה:

הטיית כיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא להתאים לאוכלוסייה שהמודל של למידת המכונה מייצר ויצירת חיזויים לגבי.
הטיות של דגימה: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
הטיות ללא תגובה (נקראת גם הטיות להשתתפות): משתמשים מ- קבוצות מסוימות ביטלו את הסכמתם לסקרים, בשיעורים שונים מאלו של משתמשים קבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שחוזה ליהנות מסרט. כדי לאסוף נתוני אימון, אתם מחלקים סקר לכל מי שנמצא בשורה הראשונה באולם הקולנוע שמציג את הסרט. לא כדאי לדעת, אולי זה נשמע כדרך הגיונית כדי לאסוף מערך נתונים, עם זאת, אופן איסוף הנתונים הזה עשוי להציג את הצורות הבאות של הטיית בחירה:

הטיית כיסוי: על ידי דגימה מאוכלוסייה שבחרה לראות את הסרט, ייתכן שהחיזויים של המודל לא יחולו על אנשים שעדיין לא הביעו את רמת העניין הזו בסרט.
הטיות של דגימה: במקום לדגום באופן אקראי אוכלוסיית היעד (כל האנשים בסרט), נדגמת רק את האנשים בשורה הראשונה. ייתכן שאנשים שיושבים בשורה הראשונה היו יותר עניין בסרט מאשר אלה שורות אחרות.
הטיות של אי-תגובה: באופן כללי, אנשים עם דעות אמינות נוטים לענות על סקרים אופציונליים בתדירות גבוהה יותר מאשר אנשים עם תגובות מתונות דעות. מכיוון שהסקר על הסרט הוא אופציונלי, התשובות הם בעלי סבירות גבוהה יותר ליצור התפלגות דו-אופנית מהתפלגות נורמלית (צורת פעמון).

קשב עצמי (שכבת הקשב העצמי)

#language

שכבת רשת נוירונים שמשנה רצף הטמעות (לדוגמה, הטמעות של אסימון) לרצף נוסף של הטמעות. כל הטמעה ברצף הפלט שנוצר על ידי שילוב מידע מהאלמנטים של רצף הקלט באמצעות מנגנון הפניית תשומת הלב.

החלק עצמי בהקשב העצמי מתייחס לרצף עצמו, ולא בהקשר אחר. אחד מעיקרי הקשב העצמי אבני בניין של טרנספורמרים ומשתמשת בחיפוש מילונים מונחים כמו "query", "key" ו-"value".

שכבת הקשב העצמי מתחילה ברצף של ייצוגי קלט, לכל מילה. ייצוג הקלט של מילה יכול להיות הטמעה אוטומטית. לכל מילה ברצף קלט, הרשת מציין את הרלוונטיות של המילה לכל רכיב ברצף של ולא של מילים בודדות, ציוני הרלוונטיות קובעים את מידת הייצוג הסופי של המילה שמבוסס על הייצוגים של מילים אחרות.

למשל, נבחן את המשפט הבא:

בעל החיים לא חצה את הכביש כי הוא היה עייף מדי.

האיור הבא (מתוך טרנספורמר: ארכיטקטורת רשת נוירונים חדשה לשפה הבנה) שמציג את דפוס תשומת הלב של שכבת הקשב העצמי ללשון הפנייה ה, הכהה של כל שורה, שמציין כמה כל מילה תורמת ייצוג ויזואלי:

המשפט הבא מופיע פעמיים: בעל החיים לא חצה את
כי הוא היה עייף מדי. קווים מחברים את לשון הפנייה אליהם
במשפט אחד עד חמישה אסימונים (The, animal, Street, it
את הנקודה) במשפט השני. הקו שבין לשון הפנייה
והמילה חיה היא החזקה ביותר.

שכבת הקשב העצמי מדגישה מילים שרלוונטיות למילה 'it'. כאן נוסף לכך, שכבת תשומת הלב למדה להדגיש מילים שהיא עשויה התייחסות, הקצאת המשקל הגבוה ביותר לבעל חיים.

לרצף של n אסימונים, הקשב העצמי משנה רצף של הטמעות n פעמים נפרדות, פעם אחת בכל מיקום ברצף.

עיינו גם בקטעי שימו לב קשב עצמי עם מספר ראשים.

למידה מונחית

משפחה של שיטות להמרה הבעיה למידת מכונה לא בפיקוח לבעיה של למידת מכונה בפיקוח על ידי יצירת תוויות חלופי דוגמאות ללא תווית.

חלק מהמודלים מבוססי טרנספורמר, כמו BERT, למידה מונחית.

אימון בהדרכה עצמית למידה מונחית למחצה.

אימון עצמי

וריאציה של למידה בפיקוח עצמי שימושי במיוחד כאשר כל התנאים הבאים מתקיימים:

היחס בין דוגמאות ללא תוויות לבין במערך הנתונים יש דוגמאות מסומנות.
זוהי בעיית סיווג.

אימון עצמי עובד על ידי חזרה על שני השלבים הבאים עד שהמודל יפסיק להשתפר:

להשתמש בלמידת מכונה בפיקוח כדי לאמן את המודל לפי הדוגמאות המסומנות בתוויות.
השתמשו במודל שנוצר בשלב 1 כדי ליצור חיזויים (תוויות) ללא תוויות, להעביר את אלו שבהם יש סבירות גבוהה את הדוגמאות המסומנות עם התווית החזויה.

שימו לב שכל איטרציה של שלב 2 מוסיפה עוד דוגמאות עם תוויות לשלב 1 כדי להמשיך ברכבת.

למידה מונחית למחצה

אימון מודל על נתונים שבהם לחלק מהדוגמאות לאימון יש תוויות אחרים לא. אחת השיטות בלמידה מונחית למחצה היא להסיק תוויות את הדוגמאות ללא תוויות, ואז להתאמן על התוויות שהוסקו כדי ליצור מודל טרנספורמר. למידה מונחית למחצה יכולה להיות שימושית אם משיגים תוויות יקרות אבל יש דוגמאות רבות ללא תוויות.

אימון עצמי היא שיטה אחת ללמידה מונחית למחצה למידת מכונה.

מאפיין רגיש

#fairness

מאפיין אנושי שעשוי להיחשב כמאפיין משפטי, מסיבות אתיות, חברתיות או אישיות.

ניתוח סנטימנט

#language

שימוש באלגוריתמים סטטיסטיים או של למידת מכונה כדי לקבוע גישה כוללת - חיובית או שלילית - כלפי שירות, מוצר, ארגון או נושא. לדוגמה, שימוש ב- הבנת שפה טבעית (NLP), אלגוריתם יכול לבצע ניתוח סנטימנטים במשוב הטקסטואלי מקורס באוניברסיטה כדי לקבוע את המידה שבה בדרך כלל אהבו או לא אהבו את הקורס.

מודל רצף

#seq

מודל שהקלט שלו מבוסס על תלות רציפה. לדוגמה, חיזוי הסרטון הבא שבו נצפה מתוך רצף של סרטונים שנצפו בעבר.

משימת רצף לרצף

#language

משימה שממירה רצף קלט של אסימונים לפלט רצף של אסימונים. לדוגמה, שני סוגים פופולריים של רצף לרצף המשימות הן:

מתרגמים:
- רצף קלט לדוגמה: "אני אוהב אותך".
- רצף פלט לדוגמה: "Je t'aime"
מענה לשאלות:
- רצף קלט לדוגמה: "Do I need my car in Tel Aviv? "
- רצף פלט לדוגמה: "No. יש להשאיר את הרכב בבית."

מנה

התהליך של הפיכת מודל מאומן לזמין ולספק תחזיות באמצעות מסקנות אונליין או מסקנות אופליין.

צורה (חיישן)

מספר הרכיבים בכל מאפיין של נכס את Tensor. הצורה מיוצגת כרשימה של מספרים שלמים. לדוגמה, המפריד הדו-ממדי הבא הוא בצורה של [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow משתמש בפורמט של שורה-ראשי (בסגנון C) כדי לייצג את הסדר של ולכן הצורה ב-TensorFlow היא [3,4] ולא [4,3]. במילים אחרות, ב-TensorFlow Tensor דו-ממדי, הצורה הוא [מספר השורות, מספר העמודות].

צורה סטטית היא צורה של טנזור ידועה בזמן הידור (compile).

צורה דינמית לא ידועה בזמן הידור, ולכן תלויות בנתוני זמן הריצה. יכול להיות שהטנזור הזה מיוצג באמצעות מימד placeholder ב-TensorFlow, כמו ב-[3, ?].

פיצול

#TensorFlow

#GoogleCloud

חלוקה לוגית של קבוצת האימון או של מודל. בדרך כלל, תהליך מסוים יוצר פיצולים על ידי חילוק את הדוגמאות או את הפרמטרים לתוך (בדרך כלל) מקטעים בגודל שווה. לאחר מכן כל פיצול מוקצה למכונה אחרת.

פיצול של מודל נקרא מקבילות של מודל. פיצול נתונים נקרא מקבילות נתונים.

כיווץ

#df

היפר-פרמטר ב- שיפור הדרגתי ששולט התאמת יתר. כיווץ בהגדלה הדרגתית מקבילה לקצב למידה ירידה הדרגתית. הכיווץ הוא מספר עשרוני בין 0.0 ל-1.0. ערך כיווץ נמוך יותר מפחית התאמת יתר גדול יותר מערך כיווץ גדול יותר.

פונקציית סיגמואיד

#fundamentals

פונקציה מתמטית ש"מעיכה" ערך קלט לטווח מוגבל, בדרך כלל 0 עד 1 או 1- עד 1. כלומר, אפשר להעביר כל מספר (שני, מיליון, ל-sigmoid, והפלט עדיין יהיה טווח מוגבל. שרטוט של פונקציית ההפעלה sigmoid נראה כך:

לפונקציית sigmoid יש כמה שימושים בלמידת מכונה, כולל:

ממירים את הפלט הגולמי רגרסיה לוגיסטית או את המודל רגרסיה רב-נומית היא הסתברות.
משמשת כפונקציית הפעלה במקרים מסוימים נוירונים מלאכותיות.

צריך ללחוץ על הסמל כדי לראות את החשבון.

פונקציית sigmoid מעל מספר קלט x מכילה את הנוסחה הבאה:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

בלמידת מכונה, x הוא בדרך כלל סכום משוקלל.

מידת הדמיון

#clustering

באלגוריתמים של אשכולות, המדד שמשמש כדי לקבוע עד כמה כל שתי דוגמאות דומות (עד כמה הן דומות).

תוכנית יחידה / נתונים מרובים (SPMD)

שיטת מקבילה שבה אותו חישוב מתבצע על סמך מקורות קלט שונים של נתונים במקביל במכשירים שונים. המטרה של SPMD היא להשיג תוצאות מהר יותר. זה הסגנון הנפוץ ביותר של תכנות מקביל.

שונות בגודל

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות בין אם הוא צורך 2 מיליון פיקסלים או 200,000 פיקסלים. שימו לב שגם הכי טוב לאלגוריתמים לסיווג תמונות עדיין יש מגבלות מעשיות על שונות הגודל. לדוגמה, סביר להניח שאלגוריתם (או אנוש) לא יסווג נכון תמונות של חתולים צורכות רק 20 פיקסלים.

אפשר לעיין גם בשונות תרגום וגם שונות סיבובית.

רישום

#clustering

בלמידת מכונה לא בפיקוח, קטגוריה של אלגוריתמים שמבצעים ניתוח דמיון ראשוני לדוגמה. האלגוריתמים לשרטטים משתמשים פונקציית גיבוב (hash) רגישה למיקום כדי לזהות נקודות שצפויות להיות דומות, ואז לקבץ לקטגוריות.

שרטוט מפחית את החישוב הנדרש לחישובי דמיון לפי מערכי נתונים גדולים. במקום לחשב את הדמיון בין כמה דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק זוג נקודות בכל קטגוריה.

דילוג על גרם

#language

n-gram שעשוי להשמיט (או "לדלג") מילים מהמקור כלומר, ייתכן ש-N המילים לא היו סמוכות במקור. סמל האפשרויות הנוספות בדיוק, "k-skip-n-gram" הוא n-gram שבו עד k מילים יכולות להיות בוצע דילוג.

לדוגמה, "השועל החום המהיר" הוא יכול להיות 2 גרם:

"המהיר"
"חום מהיר"
"שועל חום"

A "1-skip-2-gram" הוא שתי מילים שבין מילה אחת לכל היותר. לכן, "השועל החום המהיר" כולל 2 גרם 1-דילוג:

"חום"
"שועל מהיר"

בנוסף, כל ה-2 גרם שווה גם 1 גרם ל-2 גרם, כי פחות ניתן לדלג על מילה אחת.

סימני דילוג יכולים לעזור לכם להבין טוב יותר את ההקשר של המילה בסביבה. בדוגמה, "פוקס" היה משויך ישירות למחרוזת בקבוצה של 1-2 גרם, אבל לא בסט של 2 גרם.

אימון עזרה בנושא דילוג על גרם של הטמעת מילים.

softmax

#fundamentals

פונקציה שקובעת הסתברויות לכל מחלקה אפשרית מודל סיווג מרובה-מחלקות. סכום ההסתברויות ל-1.0 בדיוק. לדוגמה, הטבלה הבאה מציגה את אופן החלוקה של ה-softmax הסתברויות שונות:

התמונה היא...	Probability
כלב	85.
cat	13.
סוס	0.02

הכלי Softmax נקרא גם full softmax.

השוו לדגימת מועמדים.

צריך ללחוץ על הסמל כדי לראות את החשבון.

משוואת ה-softmax היא:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

איפה:

$\sigma_i$ הוא וקטור הפלט. כל רכיב בווקטור הפלט מציין את ההסתברות של הרכיב הזה. סכום כל הרכיבים בווקטור הפלט, הוא 1.0. הווקטור של הפלט מכיל את אותו מספר של רכיבים בתור וקטור הקלט, $z$.
$z$ הוא וקטור הקלט. כל רכיב בווקטור הקלט מכיל ערך של נקודה צפה (floating-point).
$K$ הוא מספר הרכיבים בווקטור הקלט (והפלט) ).

לדוגמה, נניח שווקטור הקלט הוא:

[1.2, 2.5, 1.8]

לכן, softmax מחשבת את המכנה באופן הבא:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

לכן, ההסתברות ה-softmax של כל רכיב היא:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

לכן, הווקטור של הפלט הוא:

$$\sigma = [0.154, 0.565, 0.281]$$

הסכום של שלושת הרכיבים ב-$\sigma$ הוא 1.0. סוף סוף!

כוונון של הנחיות רכות

#language

#generativeAI

שיטה לכוונון של מודל שפה גדול (LLM) לביצוע משימה מסוימת, בלי לגזול הרבה משאבים כוונון עדין. במקום לאמן מחדש את כל משקולות במודל, כוונון עדין של הנחיות משנה באופן אוטומטי הנחיה כדי להשיג את אותו יעד.

בתגובה להנחיה טקסטואלית, כוונון עדין של הנחיות בדרך כלל מצרף הטמעות נוספות של אסימונים להנחיה, הפצה לאחור כדי לבצע אופטימיזציה של הקלט.

A "קשה" מכילה אסימונים בפועל במקום הטמעות אסימונים.

פיצ'ר נדיר

#language

#fundamentals

תכונה שהערכים שלה הם בעיקר אפס או ריקים. לדוגמה, תכונה שמכילה ערך בודד ומיליון ערכים של 0 מצומצמת. לעומת זאת, לתכונה צפופה יש ערכים הם בעיקר לא אפס או ריקים.

בלמידת מכונה, למספר מפתיע של תכונות יש מעט תכונות. תכונות קטגוריות הן בדרך כלל תכונות מעטות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת יכול לזהות רק עץ אֶדֶר. או מתוך מיליונים של סרטונים אפשריים בספריית הסרטונים, דוגמה אחת עשויה לזהות רק "קזבלנקה".

במודל, בדרך כלל מייצגים תכונות מועטות עם קידוד חם אחד. אם הקידוד החד-פעמי הוא גדול, אפשר להוסיף שכבת הטמעה מעל בקידוד חם אחד ליעילות גבוהה יותר.

ייצוג דל

#language

#fundamentals

אחסון רק של המיקומים של אלמנטים שאינם אפס בתכונה מצומצמת.

לדוגמה, נניח שתכונה קטגורית בשם species מזהה את 36 מיני עצים ביער מסוים. בנוסף, מניחים שכל אחד example מזהה רק מין אחד.

אפשר להשתמש בווקטור לוהט אחד כדי לייצג את מין העצים בכל אחת מהדוגמאות. וקטור חם אחד יכיל 1 יחיד (לייצוג את מין העצים הספציפי בדוגמה הזו) ו-35 0s (כדי לייצג 35 זני עצים לא בדוגמה הזו). אז הייצוג החם של maple עשויים להיראות כך:

וקטור שבו מיקומים 0 עד 23 שומרים על הערך 0, מיקום
24 שומר את הערך 1, ומיקומים 25 עד 35 שומרים את הערך 0.

לחלופין, ייצוג דליל פשוט יזהה את המיקום של מינים מסוימים. אם maple נמצא במיקום 24, אז הייצוג הדל של maple יהיו פשוט:

שימו לב שהייצוג הדל הוא הרבה יותר קומפקטי מהייצוג בווקטור יהיה זהה,

אפשר ללחוץ על הסמל כדי לראות דוגמה קצת יותר מורכבת.

נניח שכל דוגמה במודל שלכם חייבת לייצג את המילים, אבל לא לפי הסדר של המילים האלה, במשפט באנגלית. אנגלית מורכבת כ-170,000 מילים, כך שאנגלית היא קטגורית שמכילה כ-170,000 רכיבים. רוב המשפטים באנגלית משתמשים חלק זעיר מתוך 170,000 המילים האלו, כך שסדר המילים דוגמה אחת היא כמעט ודאי נתונים מעטים.

למשל, נבחן את המשפט הבא:

My dog is a great dog

אפשר להשתמש בווריאנט של וקטור חם אחד כדי לייצג את המילים משפט. בווריאנט הזה, כמה תאים בווקטור יכולים להכיל הוא ערך שאינו אפס. בנוסף, בווריאנט הזה תא יכול להכיל מספר שלם שאינו אחד. למרות שהמילים "my", "is", "a" ו-"great" להופיע רק פעם אחת במשפט, המילה "כלב" מופיעה פעמיים. שימוש בווריאנט הזה של בווקטור אחד חם לייצוג המילים במשפט הזה, מניבים את התוצאה הבאה וקטור של 170,000 רכיבים:

ייצוג מועט של אותו משפט יהיה:

יש ללחוץ על הסמל אם משהו לא ברור.

את המונח "ייצוג מועט" מבלבל הרבה אנשים כי הוא עצמו לא וקטור קטן. במקום זאת, מועטה הוא למעשה ייצוג צפוף של וקטור דל. ייצוג האינדקס של המילה הנרדפת קצת יותר ברור מ 'ייצוג דל'.

וקטור דליל

#fundamentals

וקטור שהערכים שלו הם בעיקר אפסים. ראה גם ו-sparsity.

sparsity

מספר הרכיבים שמוגדרים כאפס (או null) בווקטור או במטריצה מחולקת במספר הכולל של הערכים בווקטור או במטריצה הזו. לדוגמה, נבחן מטריצה של 100 רכיבים שבה 98 תאים מכילים אפס. חישוב של מאפיין זה הוא:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

מאפיין החסרונות של התכונות מתייחס למידת השחיקה של וקטור מאפיין. מידת הבולטוּת של המודל מתייחסת לחלק היחסי של המשקולות של המודל.

מאגר מרחבי

#image

למידע נוסף, כדאי לקרוא את המאמר מאגר נתונים.

פיצול

#df

בעץ ההחלטות, שם אחר של מצב.

פיצול

#df

בזמן אימון של עץ החלטות, התרחיש (והאלגוריתם) האחראי למציאת מצב בכל צומת.

SPMD

קיצור של Single Program / Multiple data

אובדן צירים מרובעים

הריבוע של הפסד הציר. השלכות של אובדן ציר מרובע חריגים כבדים יותר מאשר אובדן צירים רגילים.

הפסד בריבוע

#fundamentals

מילה נרדפת לאובדן L₂.

אימון מדורג

#language

טקטיקה של אימון מודל ברצף של שלבים נפרדים. היעד יכול להיות כדי לזרז את תהליך האימון או לשפר את איכות המודל.

איור של גישת הסידור בערימה בדרגה מחמירה:

שלב 1 מכיל 3 שכבות מוסתרות, שלב 2 מכיל 6 שכבות מוסתרות שלב 3 מכיל 12 שכבות מוסתרות.
שלב 2 מתחיל להתאמן עם המשקולות שנלמדו ב-3 השכבות הנסתרות בשלב 1. שלב 3 מתחיל להתאמן עם המשקולות שנלמדו בשלב השישי של שלב 2.

שלושה שלבים שקיבלו את התוויות 'שלב 1', 'שלב 2' ו'שלב 3'.
כל שלב מכיל מספר שונה של שכבות: שלב 1 מכיל
3 שכבות, שלב 2 מכיל 6 שכבות, ושלב 3 מכיל 12 שכבות.
3 השכבות משלב 1 הופכות ל-3 השכבות הראשונות של שלב 2.
באופן דומה, 6 השכבות משלב 2 הופכות ל-6 השכבות הראשונות
שלב 3.

כדאי לעיין גם בצינור עיבוד נתונים.

הסמוי הסופי

#fundamentals

אלגוריתם של ירידה הדרגתית שבו גודל אצווה הוא אחד. במילים אחרות, מתבצע אימון של SGD דוגמה אחת שנבחרה בצורה אחידה אקראיות מתוך קבוצת אימון.

צעדים

#image

בפעולה קונבולציה או צבירה, הדלתא בכל מימד לסדרה הבאה של פרוסות הקלט. לדוגמה, האנימציה הבאה משקף צעדים (1,1) במהלך פעולה קונבולוציה. לכן, פרוסת הקלט הבאה מתחילה מיקום אחד מימין לקלט הקודם . כשהפעולה מגיעה לקצה הימני, החלק הבא מלא את הדרך לשמאל אבל מיקום אחד למטה.

הדוגמה שלמעלה ממחישה את הצעדים הדו-ממדיים. אם הקלט היא תלת ממדית, הפסיעה תהיה גם תלת ממדית.

צמצום סיכונים מבני (SRM)

אלגוריתם שמאזן בין שני יעדים:

צורך לבנות את המודל החזוי ביותר (לדוגמה, אובדן הכי נמוך).
הצורך שהמודל יהיה פשוט ככל האפשר (לדוגמה, תקינה).

לדוגמה, פונקציה שממזערת הפסד+הסתברויות קבוצת האימון היא אלגוריתם לצמצום סיכונים מבני.

השוואה בין צמצום סיכונים אמפירי.

תת-דגימה

#image

למידע נוסף, כדאי לקרוא את המאמר מאגר נתונים.

אסימון למילת המפתח

#language

ב-language models, אסימון מחרוזת משנה של מילה, שיכולה להיות המילה כולה.

לדוגמה, מילה כמו "itemize" יכול להתפצל לחלקים ש'פריט' (מילת שורש) ו-"ize" (סיומת), כשכל אחת מהן מיוצגת על-ידי ב-Assistant. פיצול של מילים לא נפוצות לקטעים כאלו, שנקראים מילות משנה, מאפשר של המילה לפעול על החלקים שמרכיבים את המילה, כמו תחיליות וסיומות.

לעומת זאת, מילים נפוצות כמו " השינוי הזה" יכולה להתפצל, שמיוצג על ידי אסימון יחיד.

סיכום

#TensorFlow

ב-TensorFlow, ערך או קבוצת ערכים שמחושבים לפי step, שמשמש בדרך כלל למעקב אחר מדדים של מודל במהלך אימון.

למידת מכונה בפיקוח

#fundamentals

אימון מודל של תכונות התוויות התואמות. למידת מכונה מבוקרת מקבילה ללמוד נושא מסוים באמצעות סדרה של שאלות את התשובות המתאימות. אחרי הבנת המיפוי בין השאלות של התשובות, התלמידים יכולים לספק תשובות לשאלות חדשות (שלא נראו בעבר) באותו נושא.

השוואה עם למידת מכונה לא בפיקוח.

תכונה סינתטית

#fundamentals

תכונה שלא קיימת בתכונות הקלט, אבל שהורכב מאחד או יותר מהם. שיטות ליצירת תכונות סינתטיות כוללים את הפרטים הבאים:

חלוקה לקטגוריות של מאפיין מתמשך לתוך סלי טווח.
יצירת תכונות שונות.
הכפלה (או חלוקה) של ערך מאפיין אחד בערכים של תכונות אחרות או כשלעצמו. לדוגמה, אם a ו-b הן תכונות קלט, אז המאפיין דוגמאות לתכונות סינתטיות:
- ab
- a²
החלת פונקציה טרנסצנדנטלית על ערך של מאפיין. לדוגמה, אם c הוא תכונת קלט, אז הדוגמאות הבאות הן תכונות סינתטיות:
- sin(c)
- ln(c)

תכונות שנוצרות על ידי נירמול או התאמה לעומס לא נחשבים לתכונות סינתטיות.

T

T5

#language

מודל של למידה מטקסט לטקסט נוצר על ידי AI מבית Google ב-2020. T5 הוא מודל מקודד-מפענח, שמבוסס על הארכיטקטורה של טרנספורמר, מאומנות על בסיס של הכיתובים. הוא יעיל במגוון משימות של עיבוד שפה טבעית (NLP), כמו יצירת טקסט, תרגום שפות ומענה על שאלות אופן דיבורי.

השם T5 קיבל את שמו מחמש האותיות T של "Text-to-Text Transfer Transformer".

T5X

#language

מסגרת של למידת מכונה בקוד פתוח, שתוכננה כדי ליצור ולאמן עיבוד רחב של שפה טבעית (NLP) (NLP). T5 מוטמע ב-codebase של T5X (כלומר מבוסס על JAX ו-Flax).

טבלת Q

#rl

בלמידת חיזוק, הטמעה למידת מכונה באמצעות טבלה לאחסון פונקציות Q לכל שילוב של מצב ופעולה.

יעד

תווית היא מילה נרדפת.

רשת היעד

#rl

ב-Deep Q-learning, רשת נוירונים יציבה הערכה של רשת הנוירונים הראשית, שבה רשת הנוירונים הראשית כוללת פונקציית Q או מדיניות. לאחר מכן, תוכלו לאמן את הרשת הראשית לפי ערכי ה-Q שצפויים על פי היעד עמוקה מאוד, לכן אפשר למנוע את לולאת המשוב שמופיעה רשת לאימון לפי ערכי Q שנחזות בעצמם. אם נמנעים מהמשוב הזה, יציבות האימון עולה.

משימה

בעיה שניתן לפתור באמצעות טכניקות של למידת מכונה, כמו:

סיווג
רגרסיה
קיבוץ לאשכולות
זיהוי אנומליות

טמפרטורה

#language

#image

#generativeAI

היפר-פרמטר ששולט במידת הרנדומיזציה בפלט של המודל. ככל שהטמפרטורות גבוהות יותר, התוצאה תהיה אקראית יותר, וטמפרטורות נמוכות יותר גורמות לפלט אקראי פחות.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית את המאפיינים המועדפים של הפלט של המודל. לדוגמה, אפשר להעלות את הטמפרטורה ככל הנראה כשיוצרים אפליקציה יוצרת פלט קריאייטיב. לעומת זאת, סביר להניח שהטמפרטורה תהיה נמוכה יותר במהלך הבנייה של מודל שמסווג תמונות או טקסט כדי לשפר את הדיוק והעקביות של המודל.

#TensorFlow

המספר הכולל של הסקלרים שTensor מכיל. לדוגמה, [5, 10] הגודל של Tensor הוא 50.

TensorStore

ספרייה לקריאה יעילה כתיבת מערכים רב-ממדיים גדולים.

תנאי סיום

#rl

בלמידת חיזוק, התנאים לקבוע מתי פרק מסתיים, למשל כשהנציג מגיע מדינה מסוימת או חורג ממספר הסף של מעברים בין מדינות. לדוגמה, באיקס עיגול (גם שנקראות "בקשות" והצלבות), פרק מסתיים כששחקן סימן שלושה רווחים ברצף או כאשר כל הרווחים מסומנים.

test

#df

בעץ ההחלטות, שם אחר של מצב.

אובדן בדיקה

#fundamentals

מדד שמייצג את ההפסד של מודל קבוצת הבדיקה. כשיוצרים מודל, בדרך כלל מנסים לצמצם את אובדן הבדיקות. הסיבה לכך היא שהפסד נמוך של בדיקות אות באיכות גבוהה יותר מאשר הפסד אימון נמוך, או הפסד אימות נמוך.

לפעמים יש פער גדול בין אובדן בדיקות לבין אובדן האימון או איבוד האימות מציע שצריך להגדיל regularization rate.

ערכת בדיקה

קבוצת משנה של מערך הנתונים ששמורה לבדיקה מודל שעבר אימון.

בדרך כלל, מחלקים את הדוגמאות במערך הנתונים לשלושת הדוגמאות הבאות קבוצות משנה נפרדות:

קבוצת אימון
קבוצת אימות
ערכת בדיקה

כל דוגמה במערך נתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. למשל, דוגמה אחת לא צריכה להשתייך גם למערך האימון וגם את קבוצת הבדיקה.

גם ערכת האימון וגם ערכת האימות קשורות בקשר הדוק לאימון של מודל. מכיוון שקבוצת הבחינה קשורה באופן עקיף לאימון, המדד אובדן בדיקה הוא מדד מוטה יותר באיכות גבוהה יותר מאשר הפסד באימון או הפסד אימות.

טווח הטקסט

#language

טווח האינדקס של המערך המשויך לקטע משנה ספציפי של מחרוזת טקסט. לדוגמה, המילה good במחרוזת Python s="Be good now" כוללת הטווח של הטקסט הוא 3 עד 6.

tf.Example

#TensorFlow

תקן מאגר נתונים זמני לפרוטוקולים לתיאור נתוני קלט לאימון או להסקת מודלים של למידת מכונה.

tf.keras

#TensorFlow

הטמעה של Keras שמשולבת TensorFlow.

סף (עבור עצי החלטות)

#df

בתנאי יישור לציר, הערך של המערכת משווה בין התכונה. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

ניתוח סדרת זמנים

#clustering

תת-תחום של למידת מכונה ונתונים סטטיסטיים לניתוח נתוני זמן: סוגים רבים של למידת מכונה דורשות ניתוח של סדרת זמנים, כולל סיווג, קיבוץ לאשכולות יצירת תחזיות וזיהוי אנומליות. לדוגמה, אפשר להשתמש ניתוח סדרת זמנים כדי לחזות את המכירות העתידיות של מעילי חורף לפי חודש על סמך נתוני מכירות היסטוריים.

חותמת זמן

#seq

פריט אחד 'unrolled' תא בתוך תא רשת נוירונים חוזרת. לדוגמה, האיור הבא מציג שלושה שלבי זמן (מסומנים בתווית כתבי המשנה t-1, t ו-t+1):

שלושה שלבי זמן ברשת נוירונים חוזרת. הפלט של המודל
ה-timestep הראשון הופך לקלט בפעימה השנייה. הפלט
של השלב השני הופך לקלט של השלב השלישי.

token

#language

במודל שפה, היחידה האטומית שהמודל את האימון ולעשות תחזיות'. בדרך כלל אסימון הוא אחד הבאים:

מילה אחת – לדוגמה, הביטוי "כלבים כמו חתולים" מורכב משלוש מילים אסימונים: 'כלבים', 'לייק' ו'חתולים'.
דמות מסוימת, לדוגמה, הביטוי "דג אופניים" מורכב מתשע אסימוני תווים. (חשוב לזכור שהשטח הריק נספר כאחד מהאסימונים).
מילות משנה – שבהן מילה יחידה יכולה להיות אסימון יחיד או מספר אסימונים. מילת משנה מורכבת ממילה בסיסית, קידומת או סיומת. לדוגמה, שמודל שפה שמשתמש במילות משנה בתור אסימונים עשוי לראות את המילה "כלבים" כשני אסימונים (מילת השורש "כלב" וסיומת הרבים "s"). את אותה יכול לראות את המילה היחידה "גבוהה יותר" כשתי מילות משנה מילת השורש 'גבוה' והסיומת 'er').

#fundamentals

תהליך קביעת הפרמטרים האידיאליים (משקולות הטיות) שכוללות מודל. במהלך האימון, המערכת קוראת examples ומשנה את הפרמטרים בהדרגה. באימון נעשה שימוש בכל כמה פעמים עד מיליארדי פעמים.

אובדן אימון

#fundamentals

מדד שמייצג את הפסד של מודל במהלך ספציפית איטרציה של אימון. לדוגמה, נניח שהפונקציה אובדן הוא שגיאה בריבוע הממוצע. אולי הפסד האימון ריבוע השגיאה) עבור האיטרציה העשירית הוא 2.2, וההפסד של האימון עבור האיטרציה ה-100 היא 1.9.

עקומת הפסד מייצגת את אובדן האימון לעומת מספר כמה חזרות. עקומת הפסד מספקת את הרמזים הבאים לגבי אימון:

שיפוע יורד מעיד שהמודל משתפר.
שיפוע כלפי מעלה מעיד שהמודל הולך ומחמיר.
שיפוע ישר מרמז על כך שהמודל הגיע איחוד.

לדוגמה, עקומת ההפסד הבאה היא אידיאלית במידה מסוימת מציג:

שיפוע תלול במהלך האיטרציות הראשוניות, שמרמז על כך ולשפר את המודל במהירות.
שיפוע שמתרחב בהדרגה (אבל עדיין למטה) עד שקרוב לסוף של אימון, שמרמז על שיפור מתמשך של המודל איטי יותר מאשר במהלך האיטרציות הראשוניות.
שיפוע ישר לקראת סוף האימון, שמרמז על התכנסות.

התרשים של אובדן אימון לעומת איטרציות. עקומת האובדן הזו מתחילה
עם שיפוע תלול. השיפוע מתפזר בהדרגה עד
השיפוע הופך לאפס.

למרות שחשוב לזכור שהפסד האימון חשוב, הכללה כללית.

training-serving skew

#fundamentals

ההבדל בין ביצועי המודל במהלך אימון והביצועים של אותו מודל במהלך הצגת מודעות.

ערכת אימון

#fundamentals

קבוצת המשנה של מערך הנתונים שמשמשת לאימון מודל.

בדרך כלל, הדוגמאות במערך הנתונים מחולקות לשלוש קבוצות משנה נפרדות:

ערכת אימון
קבוצת אימות
קבוצת בדיקה

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחד ואת קבוצות המשנה שקדמו לו. לדוגמה, דוגמה אחת לא צריכה להיות שייכת גם ערכת האימון וגם קבוצת האימות.

מסלול

#rl

בלמידת חיזוק, רצף של צמדים שמייצגים רצף של מעברי מצב של הסוכן, כאשר כל tuple תואם למצב, פעולה, תגמול והמצב הבא של מעבר למצב מסוים.

למידה בהעברה

העברת מידע ממשימה אחת של למידת מכונה למשימה אחרת. לדוגמה, בלמידה בריבוי משימות, מודל יחיד פותר מספר משימות, כמו מודל עומק עם צומתי פלט שונים משימות שונות. העברת המידע עשויה להיות כרוכה בהעברת ידע מפתרון של משימה פשוטה יותר למשימה מורכבת יותר, או לכלול להעביר ידע ממשימה שבה יש יותר נתונים, יש פחות נתונים.

רוב המערכות של למידת המכונה יכולות לפתור משימה יחידה. תהליך הלמידה בזמן ההעברה לקראת בינה מלאכותית (AI), שתוכנית אחת יכולה לפתור מספר משימות.

רובוטריק

#language

ארכיטקטורת רשת נוירונים שפותחה ב-Google, מסתמכת על מנגנוני קשב עצמי כדי לשנות רצף של הטמעות קלט לרצף של פלט בלי להסתמך על התאמות או רשתות נוירונים חוזרות. טרנספורמר יכול להיות כערימה של שכבות קשב עצמי.

טרנספורמר יכול לכלול כל אחת מהאפשרויות הבאות:

מקודד.
מפענח
גם מקודד וגם מפענח,

מקודד הופך רצף של הטמעות לרצף חדש של באורך זהה. מקודד כולל N שכבות זהות, שכל אחת מהן מכילה שתי בשכבות המשנה. שתי שכבות המשנה האלה מוחלות בכל מיקום של הקלט של רצף הטמעה, שממירה כל רכיב ברצף הטמעה אוטומטית. שכבת המשנה הראשונה של המקודד צוברת מידע של רצף הקלט. שכבת המשנה השנייה ממירה את את המידע להטמעה של פלט.

מפענח הופך רצף של הטמעות קלט לרצף של הטמעות פלט, שאולי יהיו באורך שונה. מפענח כולל גם N שכבות זהות עם שלוש שכבות משנה, שתיהן דומות ושכבות המשנה של המקודד. שכבת המשנה השלישית של המפענח לוקחת את הפלט והפעילו את מנגנון הקשב העצמי לאסוף ממנו מידע.

בפוסט בבלוג Transformer: A Novel Neural Network Architecture for Language הבנה שהוא מבוא טוב לטרנספורמרים.

שונות מתורגמת

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם כשהמיקום של אובייקטים בתמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות כלב, בין שהוא במרכז המסגרת או בקצה השמאלי של המסגרת.

אפשר לעיין גם בקטע הבדלים בגודל וגם שונות סיבובית.

טריגר

#seq

#fundamentals

יצירת מודל עם יכולת חיזוי נמוכה, כי המודל לא תיעד באופן מלא את המורכבות של נתוני האימון. בעיות רבות עלול לגרום לחוסר התאמה, כולל:

הדרכה על קבוצה שגויה של תכונות.
אימון למשך תקופות מעטות מדי או נמוך מדי קצב למידה.
אימון עם שיעור סדירות גבוהה מדי.
הוספת מעט מדי שכבות מוסתרות בטווח רשת עצבית עמוקה.

דגימה נמוכה

אנחנו מסירים דוגמאות מ מחלקה ראשית מערך נתונים לא מאוזן בכיתה כדי: ליצור קבוצת אימון מאוזנת יותר.

לדוגמה, נבחן מערך נתונים שבו היחס בין קבוצת הרוב סיווג מיעוט הוא 20:1. כדי להתגבר על הכיתה הזו חוסר איזון, אפשר ליצור מערכת אימון שכוללת את כל המיעוט אבל רק עשירית מהדוגמאות מכיתות הרוב, ליצור יחס גובה-רוחב של 2:1 בין השיעורים. הודות לדגימה נמוכה, מערכת אימון מאוזנת עשויה ליצור מודל טוב יותר. לחלופין, ייתכן שקבוצת אימון מאוזנת יותר לא תכיל מספיק דוגמאות כדי לאמן יעיל יותר.

השוו בין oversampling.

חד-כיווני

#language

מערכת שמעריכה רק את הטקסט שמקדים קטע יעד בטקסט. לעומת זאת, מערכת דו-כיוונית מעריכה טקסט שקודם ועוקב אחרי קטע יעד בטקסט. לקבלת פרטים נוספים, אפשר לעיין בקטע דו-כיווני.

מודל שפה חד-כיווני

#language

מודל שפה שמבסס את ההסתברויות שלו רק על אסימונים שמופיעים לפני, לא אחרי אסימוני היעד. ניגוד למודל שפה דו-כיווני.

דוגמה ללא תווית

#fundamentals

דוגמה שכוללת תכונות אבל בלי תווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות של בית ללא תווית מודל הערכה, שלכל אחד יש שלוש תכונות אך ללא ערך בית:

מספר חדרי שינה	מספר חדרי הרחצה	גיל הבית
3	2	15
2	1	72
4	2	34

בלמידת מכונה בפיקוח, מודלים מאומנים לפי דוגמאות מתויגות, ומפיקים תחזיות לגבי דוגמאות ללא תווית.

במודל בפיקוח חלקי, למידה ללא פיקוח, אנחנו משתמשים בדוגמאות ללא תוויות במהלך האימון.

יש להשוות בין דוגמה ללא תווית לבין דוגמה עם תווית.

למידת מכונה בלתי מונחית

#clustering

#fundamentals

אימון של מודל כדי למצוא דפוסים במערך נתונים, בדרך כלל של מערך נתונים ללא תווית.

השימוש הנפוץ ביותר בלמידת מכונה בלתי מונחית הוא נתוני אשכול לקבוצות של דוגמאות דומות. לדוגמה, מכשיר לא מפוקח של למידת מכונה יכול לקבץ שירים על סמך מאפיינים שונים של המוזיקה. האשכולות שמתקבלים יכולים להפוך לקלט למכונה אחרת אלגוריתמים של למידת מכונה (לדוגמה, לשירות המלצות על מוזיקה). יצירת אשכולות יכולה לעזור כשיש מעט תוויות שימושיות או חסרות תוויות. לדוגמה, בתחומים כמו מניעת ניצול לרעה והונאה, אשכולות יכולים לעזור שבני אדם מבינים טוב יותר את הנתונים.

השוואה בין למידת מכונה בפיקוח.

לוחצים על הסמל כדי להציג הערות נוספות.

דוגמה נוספת ללמידת מכונה בלתי מונחית היא ניתוח רכיבים עיקריים (PCA). לדוגמה, החלת PCA על מערך נתונים שמכיל את התוכן של מיליוני עגלות קניות עשוי לגלות שעגלות קניות שמכילים לימונים מכילות לעיתים קרובות גם חומצות חומצה.

בניית מודלים לשיפור הביצועים

שיטת בניית מודלים, שנמצאת בשימוש נפוץ בשיווק, 'אפקט סיבתי' (נקרא גם "השפעה מצטברת") של 'treatment' ל"אדם פרטי". להלן שתי דוגמאות:

רופאים עשויים להשתמש במודלים של עלייה בתמותה כדי לחזות את שיעור התמותה (השפעה סיבתית) של הליך רפואי (טיפול) בהתאם הגיל וההיסטוריה הרפואית של המטופל.
המשווקים עשויים להשתמש בבניית מודלים לשיפור הביצועים כדי לחזות את העלייה הסתברות לרכישה (השפעה סיבתית) כתוצאה מפרסומת (טיפול) באדם (אדם פרטי).

המודל למדידת השיפור בביצועים שונה מסיווג או רגרסיה בכך שתוויות מסוימות (לדוגמה, חצי מהתוויות בטיפולים בינאריים) תמיד חסרות במודלים של השיפור בביצועים. לדוגמה, מטופלים יכולים לקבל טיפול או לא לקבל טיפול. לכן אנחנו יכולים רק לראות אם המטופל הולך להחלים או לא להחלים רק באחד משני המצבים האלה (אבל אף פעם לא לשניהם). היתרון העיקרי של מודל השיפור הוא שהוא יכול ליצור תחזיות לגבי המצב הלא ניתן לחיזוי (הטענה הנגדית) ולהשתמש בו כדי לחשב את ההשפעה הסיבתית.

שקלול

החלת משקל על המחלקה downsampled שווה לגורם שבו בוצעה הדגימה.

מטריצת משתמשים

#recsystems

במערכות ההמלצות, וקטור הטמעה שנוצר על ידי פירוק לגורמים של מטריצות שכולל אותות נסתרים לגבי העדפות המשתמשים. כל שורה במטריצת המשתמשים מכילה מידע על העוצמה של אותות לטנטיים שונים של משתמש יחיד. לדוגמה, נבחן מערכת המלצות על סרטים. במערכת הזאת, האותות הלטנטיים במטריצת המשתמשים עשויים לייצג את העניין של כל משתמש ז'אנרים מסוימים, או אותות שקשה יותר להבין אותם באינטראקציות מורכבות שונות עם גורמים שונים.

מטריצת המשתמשים כוללת עמודה לכל תכונה חבויה ושורה לכל משתמש. כלומר, במטריצת המשתמשים יש אותו מספר שורות כמו ביעד שמפירים לגורמים את המטריצה. לדוגמה, כשמזינים סרט למערכת המלצות עבור 1,000,000 משתמשים, מטריצת המשתמשים תכלול 1,000,000 שורות.

V

אימות

#fundamentals

ההערכה הראשונית של איכות המודל. האימות בודק את איכות החיזויים של המודל ביחס קבוצת אימות.

מכיוון שמערכת האימות שונה מקבוצת האימון, האימות עוזר להגן מפני התאמה יתר.

אפשר להעריך את המודל ביחס לקבוצת האימות בסבב הראשון של בדיקה והערכה של המודל ביחס קבוצת בדיקה היא הסבב השני של הבדיקות.

אובדן אימות

#fundamentals

מדד שמייצג את הפסד של מודל ב- האימות שהוגדר במהלך תקופה ספציפית איטרציה של אימון.

ראו גם עקומת הכללה.

קבוצת אימות

#fundamentals

קבוצת המשנה של מערך הנתונים שמבצע את הפעולות הראשוניות לבצע הערכה בהשוואה למודל מאומן. בדרך כלל, את המודל שאומן בהתאם לקבוצת האימות לפני שמבצעים הערכה של המודל ביחס לקבוצת הבדיקה.

בדרך כלל, מחלקים את הדוגמאות במערך הנתונים לשלושת הדוגמאות הבאות קבוצות משנה נפרדות:

קבוצת אימון
קבוצת אימות
קבוצת בדיקה

הקצאת ערך

תהליך ההחלפה של ערך חסר בתחליף קביל. אם חסר ערך, תוכלו למחוק את הדוגמה כולה או יכול להשתמש בהקצאת ערך כדי להשמיט את הדוגמה.

לדוגמה, נבחן מערך נתונים שמכיל את התכונה temperature אמורים להיות מתועדים בכל שעה. עם זאת, ערך הטמפרטורה היה לא זמין במשך שעה מסוימת. לפניכם קטע מתוך מערך הנתונים:

חותמת זמן	טמפרטורה
1680561000	10
1680564600	12
1680568200	חסר
1680571800	20
1680575400	21
1680579000	21

מערכת יכולה למחוק את הדוגמה החסרה או להטמיע את החסר 12, 16, 18 או 20, בהתאם לאלגוריתם החישובים.

בעיה הדרגתית נעלמת

#seq

הנטייה ההדרגתית של שכבות מוסתרות בשלב מוקדם חלק מרשתות הנוירונים העמוקות שיהפכו שטוחה באופן מפתיע (נמוך). ככל שההדרגתיות נמוכה יותר ויותר שינויים קטנים במשקולות בצמתים ברשת נוירונים עמוקה, מה שמוביל הם לא לומדים, או לא לומדים בהם. מודלים שסובלים מבעיית ההדרגתיות הנעלמת הופכים לקשה או בלתי אפשרי לאימון. תאים עם זיכרון ארוך לטווח קצר מטפלים בבעיה הזו.

השוו לבעיה עם הדרגתיות מתפוצצת.

חשיבות משתנה

#df

קבוצת ציונים שמציינת את החשיבות היחסית של כל אחד מהם. feature למודל.

לדוגמה, נבחן עץ החלטות אומדנים של מחירי הבית. נניח שעץ ההחלטות הזה משתמש בשלושת תכונות: גודל, גיל וסגנון. אם קבוצה של חשיבות משתנה לגבי שלוש התכונות {size=5.8, Age=2.5, style=4.7}, אז הגודל חשוב יותר עץ החלטות מאשר גיל או סגנון.

קיימים מדדים שונים של חשיבות של משתנים, שיכולים לתת מידע מומחים ללמידת מכונה על היבטים שונים של מודלים.

מקודד אוטומטי וריאציות (VAE)

#language

סוג של מקודד אוטומטי שמנצל את אי-ההתאמה בין קלט לפלט כדי ליצור גרסאות ששונו של הקלט. מקודדים אוטומטיים וריאציוניים (VAE) הם שימושיים לשימוש ב-AI גנרטיבי.

אירועי VEE מבוססים על מסקנות משתנות: שיטה להערכת בפרמטרים של מודל ההסתברות.

וקטור

מונח עמוס מאוד שהמשמעות שלו משתנה מבחינות מתמטיות שונות ובתחומים מדעיים. בתוך למידת מכונה, לווקטור יש שתי תכונות:

סוג הנתונים: וקטורים בלמידת מכונה בדרך כלל מכילים מספרי נקודה צפה (floating-point).
מספר הרכיבים: זהו אורך הווקטור או המאפיין שלו.

לדוגמה, נבחן וקטור של תכונה שמחזיק בו שמונה מספרי נקודה צפה (floating-point). לווקטור המאפיין הזה יש אורך או ממד של שמונה. שימו לב שלוקטורים של למידת מכונה יש בדרך כלל מספר עצום של מימדים.

אפשר לייצג סוגים רבים ושונים של מידע בתור וקטור. לדוגמה:

כל מיקום על פני כדור הארץ יכול להיות מיוצג בדו-ממדי שבו מימד אחד הוא קו הרוחב, והאחר הוא קו האורך.
אפשר לייצג את המחירים הנוכחיים של כל אחת מ-500 מניות וקטור 500 ממדי.
אפשר לייצג התפלגות של הסתברות על מספר סופי של מחלקות בווקטור. לדוגמה, במערכת סיווג רב-קטגוריות, חוזה אחד מתוך שלושה צבעי פלט (אדום, ירוק או צהוב) שהפלט הוא את הווקטור (0.3, 0.2, 0.5) ומשמעותו P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

אפשר לשרשר וקטורים; ולכן אפשר להשתמש במגוון של סוגי מדיה שמיוצג בווקטור יחיד. חלק מהמודלים פועלים ישירות שרשור של הרבה קידודים חד-פעמיים.

מעבדים מיוחדים, כמו מעבדי TPU, עוברים אופטימיזציה לביצועים פעולות מתמטיות על וקטורים.

וקטור הוא טווח של דירוג 1.

W

הפסד וסרשטיין

אחת מפונקציות האובדן הנפוצות רשתות למידה חישובית גנרטיבית, על סמך המרחק של תנועת כדור הארץ את ההתפלגות של נתונים שנוצרו על ידי AI ונתונים אמיתיים.

משקל

#fundamentals

ערך שמודל מכפיל בערך אחר. אימון הוא התהליך לקביעת המשקולות האידיאליות של מודל; הסקת מסקנות הוא התהליך של שימוש במשקולות שנלמדו כדי להפיק חיזויים.

לוחצים על הסמל כדי לראות דוגמה למשקולות במודל ליניארי.

נניח שיש לכם מודל לינארי עם שתי תכונות. נניח שהאימון קובע את המשקולות הבאות (ו הטיה):

להטיה, b, יש ערך של 2.2
המשקל, w₁ המשויך לתכונה אחת הוא 1.5.
המשקל, w₂ המשויך לתכונה השנייה הוא 0.4.

עכשיו נבחן דוגמה עם התכונה הבאה ערכים:

הערך של תכונה אחת, x₁, הוא 6.
הערך של התכונה השנייה, x₂, הוא 10.

המודל הלינארי הזה משתמש בנוסחה הבאה כדי ליצור חיזוי, y':

$$y' = b + w_1x_1 + w_2x_2$$

לכן החיזוי הוא:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

אם המשקל הוא 0, התכונה המתאימה לא משפיעה על את המודל. לדוגמה, אם w₁ הוא 0, אז הערך של x₁ לא רלוונטית.

ריבועים נמוכים יותר משוקללים (WALS)

#recsystems

אלגוריתם לצמצום פונקציית היעד במהלך פירוק לגורמים של מטריצות ב- מערכות המלצות, שמאפשרות הפחתת שקלול של הדוגמאות החסרות. WALS ממזער את בריבוע בין המטריצה המקורית לבין השחזור לפי ביצוע לסירוגין בין תיקון הפירוק לגורמים של שורות לבין פירוק לגורמים של עמודות. אפשר לפתור כל אחת מהאופטימיזציות האלה באמצעות ריבועים לפחות אופטימיזציה של המרות קמורות. פרטים נוספים זמינים במאמר הקורס Recommendation Systems.

סכום משוקלל

#fundamentals

הסכום של כל ערכי הקלט הרלוונטיים כפול ומשקולות. לדוגמה, נניח שהקלט הרלוונטי מכיל את הנתונים הבאים:

ערך הקלט	משקל הקלט
2	1.3-
-1	0.6
3	0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

סכום משוקלל הוא ארגומנט הקלט פונקציית ההפעלה.

מודל רחב

מודל ליניארי שיש לו בדרך כלל תכונות קלט מעטות. אנחנו מתייחסים לכך כ'רחבה' מאז מודל כזה הוא סוג מיוחד של רשת נוירונים עם מספר גדול של מקורות קלט שמתחברים ישירות לצומת הפלט. דגמים רחבים לעיתים קרובות קל יותר לנפות באגים ולבדוק נתונים מאשר מודלים עמוקים. למרות שמודלים רחבים לא יכול לבטא חוסר ליניאריות באמצעות שכבות מוסתרות, מודלים רחבים יכולים להשתמש בטרנספורמציות כמו מעבר בין פיצ'רים וגם חלוקה לקטגוריות כדי ליצור מודלים של לא ליניאריות בדרכים שונות.

השוו בין שימושים במודל עומק.

רוחב

מספר הנוירונים בשכבה מסוימת של רשת נוירונים.

חוכמת ההמונים

#df

הרעיון שלפיו חישוב הממוצע של דעות או אומדנים לגבי קבוצה גדולה של אנשים ('הקהל') מניב בדרך כלל תוצאות טובות ומפתיעות. לדוגמה, נניח שיש משחק שבו אנשים מנחשים את מספר סוכריות ג'לי ארוזות בצנצנת גדולה. למרות שרוב האנשים לא יהיו מדויקות, וממוצע כל הניחושים באופן מפתיע, קרובים למספר בפועל סוכריות ג'לי בצנצנת.

Ensembles הם תוכנה שמקבילה לחוכמה של הקהל. גם אם מודלים ספציפיים מספקים תחזיות מאוד לא מדויקות, חישוב הממוצע של תחזיות של מודלים רבים מייצר באופן מפתיע חיזויים טובים. לדוגמה, למרות שהאדם הפרטי עץ ההחלטות עלול ליצור תחזיות גרועות, ביער ההחלטות מוצגות בדרך כלל חיזויים טובים מאוד.

הטמעת מילים

#language

לייצג כל מילה בקבוצת מילים בתוך embedding vector; כלומר, שמייצג כל מילה בתור וקטור של ערכי נקודה צפה (floating-point) בין 0.0 ל-1.0. מילים עם מילים דומות משמעויות שונות יותר מאשר למילים עם משמעויות שונות. לדוגמה, גזרים, סלרי ומלפפונים נחשבים באופן יחסי של ייצוגים דומים, שיהיו שונים מאוד מהייצוגים של מטוס, משקפי שמש ומשחת שיניים.

X

XLA (אלגברה לינארית מואצת)

כלי מהדר בקוד פתוח ללמידת מכונה למעבדי GPU, למעבדים (CPU) ולמאיצים של למידת מכונה.

המהדר של XLA משתמש במודלים ממסגרות פופולריות של למידת מכונה כמו PyTorch, TensorFlow ו-JAX, שמבצע אופטימיזציה שלהם. לביצוע בעל ביצועים גבוהים בפלטפורמות חומרה שונות, מעבדי GPU, מעבדים (CPU) ומאיצים של למידת מכונה.

Z

למידה מאפס

סוג של אימון של למידת מכונה, שבו מודל מסיק חיזוי למשימה שהוא לא אומן באופן ספציפי עליו. במילים אחרות, המודל לא נותנים לו אפס דוגמאות לאימון ספציפי למשימה כדי לבצע הסקת מסקנות לגבי המשימה הזו.

יצירת הנחיות מאפס

#language

#generativeAI

הנחיה שלא מספקת דוגמה לאופן שבו אתם רוצים מודל השפה הגדול כדי להשיב. לדוגמה:

החלקים של הנחיה אחת	הערות
`מה המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה יצטרך לענות ה-LLM.
`הודו:`	השאילתה עצמה.

מודל השפה הגדול (LLM) עשוי לתת תשובה באמצעות אחת מהאפשרויות הבאות:

רופיות
INR
₹
רופי הודי
הרופי
הרופי ההודי

כל התשובות נכונות, אבל יכול להיות שתעדיפו פורמט מסוים.

אתם יכולים להשוות בין הנחיות מאפס לבין המונחים הבאים:

יצירת הנחיות מדוגמה אחת
יצירת הנחיות מכמה דוגמאות

נירמול של ציון ה-Z

#fundamentals

שיטת התאמה לעומס (scaling) שמחליפה נתונים גולמיים הערך של feature עם ערך נקודה צפה (floating-point) מספר סטיות התקן מהממוצע של אותה תכונה. לדוגמה, נבחן ישות שהממוצע שלה הוא 800 ושהתקן שלה הוא 100. הטבלה הבאה מציגה איך נירמול ציון ה-Z ימפה את הערך הגולמי לציון ה-Z שלו:

ערך גולמי	נקודות Z
800	0
950	1.5+
575	2.25-

לאחר מכן, מודל למידת המכונה מאמן לפי ציון ה-Z של התכונה הזו במקום בערכים הגולמיים.