למידה עמוקה

יש לערוך ערך זה. הסיבה היא: תיקון שגיאות תרגום, הרחבה ואיחוד קטעים מקבילים עם רשת עצבית מלאכותית.
אתם מוזמנים לסייע ולערוך את הערך. אם לדעתכם אין צורך בעריכת הערך, ניתן להסיר את התבנית. ייתכן שתמצאו פירוט בדף השיחה.

למידה עמוקהאנגלית: Deep Learning ולפעמים Deep Structured Learning) היא אוסף שיטות למידת מכונה מבוססות על רשתות עצביות מלאכותיות. שם התואר "עמוקה" בשם מתייחס ללמידה במבנה של שכבות, המאפשר לרשת ללמוד תכונות בהדרגה, תהליך המתבצע על ידי חילוץ דפוסים או תכונות מנתונים גולמיים כדי לשפר את ביצועי המודל. הלמידה יכולה להיות מונחית, מונחית למחצה או בלתי מונחית.[1][2]

ארכיטקטורות למידה עמוקה כגון רשתות עצביות עמוקות (deep neural networks), למידת חיזוק עמוקה (deep reinforcement learning), רשתות עצביות חוזרות (recurrent neural networks), ורשתות קונבולוציה יושמו בתחומים מגוונים ביניהם: ראייה ממוחשבת, זיהוי דיבור, עיבוד שפה טבעית, תרגום מכונה, ביואינפורמטיקה, תכנון תרופות, ניתוח תמונות רפואיות, בדיקות חומרים ומשחקי לוח, בהן הניבו תוצאות דומות לאלו שהניבו מומחים אנושיים ובמקרים מסוימים אף עלו עליהן.[3][4]

מודל הרשת העצבית המלאכותית נוצר בהשראת עיבוד מידע וצמתי תקשורת מבוזרים המצויים במערכות ביולוגיות. רשתות אלו שונות ממוח ביולוגי, היות שהמבנה של רשתות עצביות מלאכותיות נוטה להיות סטטי, בעוד שהמוח הביולוגי של רוב האורגניזמים החיים הוא דינמי. הבדל נוסף הוא, שמחשבים פועלים בעיקר בעיבוד טורי, או עם כמות קטנה של עיבוד מקבילי[דרוש מקור], ואילו מוחות של יצורים פועלים בעיבוד מקבילי[דרוש מקור].

חוקרי הבינה המלאכותית, מרווין מינסקי וסימור פפרט, הראו שפרספטרון (אלגוריתם הלומד תוך כדי ריצה) יחיד אינו יכול ליצור את השער הלוגי XOR,[5] אולם משפט הקירוב האוניברסלי הראה שרשת בעלת שכבה נסתרת אחת ברוחב לא מוגבל עם פונקציית הפעלה לא ליניארית יכולה להיות מסַוֶג אוניברסלי.[6] למידה עמוקה בדרך כלל עוסקת במספר גדול של שכבות בגודל מוגבל.

הגדרה

עריכה
 
ייצוג תמונות על ריבוי שכבות של הפשטה בלמידה עמוקה[7]

למידה עמוקה היא מחלקה של אלגוריתמים בתחום למידת המכונה[8] המשתמש במספר שכבות כדי לחלץ בהדרגה תכונות ברמה גבוהה יותר מהקלט הגולמי. לדוגמה, בעיבוד תמונה דיגיטלי, שכבות נמוכות עשויות לזהות קצוות, בעוד שכבות גבוהות יותר עשויות לזהות את המושגים הרלוונטיים לאדם כגון ספַרוֹת, אותיות או פרצופים.

סקירה כללית

עריכה

רוב המודלים המודרניים של למידה עמוקה מבוססים על רשתות עצביות מלאכותיות, במיוחד רשתות עצביות קונבולוציוניות (CNN), אם כי הם יכולים לכלול גם נוסחאות הצעה (פרופוזיציוניות) או משתנים סמויים המאורגנים בשכבה במודלים מחוּללים עמוקים (generative models) כמו הצמתים ברשת אמונה עמוקה ומכונת בולצמן עמוקה.[9]

בלמידה עמוקה, כל שכבה לומדת להפוך את נתוני הקלט שלה לייצוג מופשט ומרוכב יותר. ביישום של זיהוי תמונה, הקלט הגולמי עשוי להיות מטריצה של פיקסלים; שכבת הייצוג הראשונה עשויה להפשיט את הפיקסלים ולקודד את הקצוות, השכבה השנייה עשויה להרכיב ולקודד סידורים של קצוות; השכבה השלישית עשויה לקודד אף ועיניים; והשכבה הרביעית עשויה לזהות שהתמונה מכילה פנים. נקודה חשובה היא שתהליך למידה עמוק יכול ללמוד אילו תכונות למקם בצורה אופטימלית באיזו רמה בעצמו. אמנם, זה לא בהכרח מבטל את הצורך בהנחיה ידנית. לדוגמה, מספר משתנה של שכבות וגודלי שכבות יכולים לספק רמות שונות של הפשטה.[10][11]

המילה "עמוקה" ב"למידה עמוקה" מתייחסת למספר השכבות שבאמצעותן הנתונים עוברים עיבוד או שינוי. ליתר דיוק, למערכות למידה עמוקה יש עומק CAP (או credit assignment path) משמעותי. ה-CAP הוא שרשרת הטרנספורמציות מקלט לפלט. CAPs מתארים קשרים סיבתיים פוטנציאליים בין קלט ופלט. עבור רשת זרימה קדימה, העומק של ה-CAPs הוא זה של הרשת והוא מספר השכבות הנסתרות פלוס אחת (כיוון שגם שכבת הפלט מותאמת לפרמטרים). עבור רשתות עצביות חוזרות, שבהן אות עשוי להתפשט בשכבה יותר מפעם אחת, עומק ה-CAP עשוי להיות בלתי מוגבל. אין סף מוסכם אוניברסלי של עומק שמבדיל בין למידה "רדודה" ללמידה עמוקה, אבל רוב החוקרים מסכימים שלמידה עמוקה כוללת עומק CAP גבוה מ-2. CAP של עומק 2 הוכח כקירוב אוניברסלי במובן זה שהוא יכול לחקות כל פונקציה.[12] יתרה מכך, שכבות נוספות אינן מוסיפות ליכולת קירוב הפונקציות של הרשת. מודלים עמוקים (CAP > 2) מסוגלים לחלץ תכונות טובות יותר ממודלים רדודים ומכאן, שכבות נוספות עוזרות ללמוד את התכונות בצורה יעילה.

ניתן לבנות ארכיטקטורות למידה עמוקה בשיטה חמדנית שכבה אחר שכבה. למידה עמוקה עוזרת להפריד את ההפשטות הללו ולבחור אילו תכונות משפרות את הביצועים.[10][11]

עבור משימות למידה מפוקחות, שיטות למידה עמוקה מבטלות את הנדסת המאפיינים, על ידי תרגום הנתונים לייצוגי ביניים קומפקטיים הדומים לגורמים הראשיים, ומפיקות מבנים שכבתיים המסירים יתירות בייצוג.

ניתן ליישם אלגוריתמים של למידה עמוקה על משימות למידה-ללא-פיקוח. זהו יתרון חשוב מכיוון שהנתונים שאינם מתויגים נמצאים בשפע רב יותר מהנתונים המסומנים. דוגמאות למבנים עמוקים שניתן לאמן באופן לא מפוקח הם מדחסי היסטוריה עצבית[13] ורשתות אמונה עמוקות.[10][11]

פרשנויות

עריכה

רשתות עצביות עמוקות מתפרשות בדרך כלל במונחים של משפט הקירוב האוניברסלי[19] או היסק הסתברותי או בייסיאני.

משפט הקירוב האוניברסלי הקלאסי נוגע ליכולתן של רשתות זרימה קדימה עם שכבה נסתרת יחידה בגודל סופי לקירוב פונקציות רציפות. בשנת 1989 פורסמה ההוכחה הראשונה על ידי ג'ורג' סיבנקו עבור פונקציות הפעלה סיגמואידיות והוכללה לארכיטקטורות זרימה קדימה רב-שכבתיות.[20]

משפט הקירוב האוניברסלי עבור רשתות עצביות עמוקות נוגע לקיבולת של רשתות עם רוחב מוגבל אך עם עומק שעשוי לגדול. לוּ הוכיח שאם הרוחב של רשת עצבית עמוקה עם הפעלת ReLU גדול בהחלט מממד הקלט, אזי הרשת יכולה להעריך כל פונקציה הניתנת לשילוב של אינטגרל לבג, אם הרוחב קטן או שווה לממד הקלט, אז רשת עצבים עמוקה אינה קירוב אוניברסלי.

הפרשנות ההסתברותית נובעת מתחום למידת המכונה. הוא כולל מסקנות, וכן את מושגי האופטימיזצה של אימון ובדיקה, הקשורים להתאוה והכללה, בהתאמה. ליתר דיוק, הפרשנות ההסתברותית מחשיבה את אי-ליניאריות ההפעלה כפונקציית התפלגות מצטר. הפרשנות ההסתברותית הובילה להכנסת הנשירה (dropout) כמסדרת (regulazier) ברשתות עצביות. הפרשנות ההסתברותית הוצגה על ידי חוקרים כולל הופפילד.[21]

היסטוריה

עריכה

מהפכת הלמידה העמוקה

עריכה
 
כיצד למידה עמוקה היא תת-קבוצה של למידת מכונה וכיצד למידת מכונה היא תת-קבוצה של בינה מלאכותית (AI).

בשנת 2012, צוות בראשות ג'ורג' א'דאהל זכה ב"אתגר הפעילות המולקולרית של מרק" באמצעות רשתות עצביות עמוקות רב-משימתיות כדי לחזות את היעד הביו-מולקולרי של תרופה אחת.[22][23] בשנת 2014, הקבוצה של הוכריטר השתמשה בלמידה עמוקה כדי לזהות השפעות מחוץ למטרה ורעילויות של כימיקלים סביבתיים ברכיבים תזונתיים, במוצרים ביתיים ובתרופות וזכתה ב"אתגר הנתונים של Tox21" של המכונים NIH, FDA ו-NCATS.[24][25][26]

השפעות נוספות משמעותיות בזיהוי תמונה או אובייקט הורגשו מ-2011 עד 2012. אף על פי שרשתות CNN שאומנו על-ידי back propagation היו בנמצא כבר עשרות שנים, והטמעות GPU של רשתות נוירונים היו בנמצא במשך שנים, כולל CNNs, היה צורך בהטמעות מהירות משמעותית של CNNs על GPUs כדי להתקדם בראייה ממוחשבת.[27][28][29][30] בשנת 2011, גישה זו השיגה לראשונה ביצועים על אנושיים בתחרות זיהוי דפוסים חזותיים. כמו כן, ב-2011 היא זכתה בתחרות כתב היד הסיני של ICDAR, ובמאי 2012 היא זכתה בתחרות פילוח התמונות של ISBI.[31] עד 2011, רשתות CNN לא מילאו תפקיד מרכזי בכנסים של ראייה ממוחשבת, אבל ביוני 2012, מאמר של סיקסאן בכנס המוביל CVPR[32] הראה כיצד איגום מקסימלי של CNN ב-GPU יכול לשפר באופן דרמטי רשומות בנצ'מרק רבים של ראייה. באוקטובר 2012, מערכת דומה מאת קריזבסקי[33] זכתה בתחרות ImageNet בקנה מידה גדול בהפרש משמעותי על פני שיטות למידת מכונה רדודות. בנובמבר 2012, המערכת של Ciresan זכתה גם בתחרות ה-ICPR בנושא ניתוח תמונות רפואיות גדולות לגילוי סרטן, ובשנה שלאחר מכן גם ב-MICCAI Grand Challenge באותו נושא.[34] בשנים 2013 ו-2014, שיעור השגיאות במשימת ImageNet באמצעות למידה עמוקה הופחת עוד יותר, בעקבות מגמה דומה בזיהוי דיבור בקנה מידה גדול.

לאחר מכן הורחב סיווג התמונות למשימה המאתגרת יותר של יצירת תיאורים (כתוביות) לתמונות, לעיתים קרובות כשילוב של CNNs ו-LSTMs.[35]

כמה חוקרים קובעים שהניצחון ב-ImageNet באוקטובר 2012 עיגן את תחילתה של "מהפכת הלמידה העמוקה" ששינתה את תעשיית הבינה המלאכותית.[36]

במרץ 2019, יהושע בנג'יו, ג'פרי הינטון ויאן לקון זכו בפרס טיורינג על פריצות דרך מושגיות והנדסיות שהפכו רשתות עצביות עמוקות למרכיב קריטי במחשוב.

רשתות עצביות

עריכה

רשתות עצבים מלאכותיות

עריכה

רשתות עצביות מלאכותיות (ANNs) או מערכות מקושרות הן מערכות מחשוב בהשראת הרשתות העצביות הביולוגיות המהוות מוח חי. מערכות כאלה לומדות (משפרות בהדרגה את יכולתן) לבצע משימות על ידי בחינת דוגמאות, בדרך כלל ללא תכנות ספציפי למשימה. לדוגמה, בזיהוי תמונות, הם עשויים ללמוד לזהות תמונות המכילות חתולים על ידי ניתוח תמונות לדוגמה שסומנו באופן ידני כ"חתול" או "ללא חתול" ושימוש בתוצאות האנליטיות כדי לזהות חתולים בתמונות אחרות. הם מצאו את רוב השימוש ביישומים שקשה לבטא עם אלגוריתם מחשב מסורתי באמצעות תכנות לוגי "מסורתי".

ANN מבוסס על אוסף של יחידות מחוברות הנקראות נוירונים מלאכותיים, (בדומה לנוירונים ביולוגיים במוח). כל חיבור (סינפסה) בין נוירונים יכול להעביר אות לנוירון אחר. הנוירון הקולט (הפוסט-סינפטי) יכול לעבד את האות ואז לאותת לנוירונים במורד הזרם המחוברים אליו. לנוירונים יכול להיות מצב, המיוצג בדרך כלל על ידי מספרים ממשיים, בדרך כלל בין 0 ל-1. לנוירונים ולסינפסות עשוי להיות גם משקל שמשתנה ככל שהלמידה מתקדמת, מה שיכול להגביר או להקטין את עוצמת האות שהוא שולח במורד הזרם.

בדרך כלל, נוירונים מאורגנים בשכבות. שכבות שונות עשויות לבצע סוגים שונים של טרנספורמציות על הקלט שלהן. האותות עוברים מהשכבה הראשונה (הקלט עצמו), לשכבה האחרונה (הפלט), לפעמים לאחר חציית השכבות מספר פעמים.

המטרה המקורית של גישת הרשת העצבית הייתה לפתור בעיות באותו אופן שבו יעשה מוח אנושי. עם הזמן, תשומת הלב התמקדה בהתאמת יכולות מנטליות ספציפיות, מה שהוביל לסטיות מביולוגיה כגון התפשטות לאחור, או העברת מידע בכיוון ההפוך והתאמת הרשת לשקף מידע זה.

רשתות עצביות שימשו במגוון משימות, כולל ראייה ממוחשבת, זיהוי דיבור, תרגום מכונה, סינון רשתות חברתיות, משחקי לוח ווידאו ואבחון רפואי.

נכון לשנת 2017, לרשתות עצביות יש בדרך כלל כמה אלפים עד כמה מיליוני יחידות ומיליוני חיבורים. אף על פי שמספר זה הוא בכמה סדרי גודל פחות ממספר הנוירונים במוח אנושי, רשתות אלו יכולות לבצע משימות רבות ברמה גבוהה מעבר לזו של בני אדם (למשל, זיהוי פנים, משחק "Go"[37]).

רשתות עצביות עמוקות

עריכה

רשת עצבית עמוקה (DNN) היא רשת עצבית מלאכותית (ANN) עם שכבות מרובות בין שכבות הקלט והפלט.[9] ישנם סוגים שונים של רשתות עצביות אך הן תמיד מורכבות מאותם מרכיבים: נוירונים, סינפסות, משקלים, הטיות ותפקודים.[38] רכיבים אלו פועלים באופן יחסית דומה למוח האנושי וניתן לאמן אותם כמו כל אלגוריתם ML אחר.

לדוגמה, DNN שמאומן לזהות גזעי כלבים יעבור על התמונה הנתונה ויחשב את ההסתברות שהכלב בתמונה הוא גזע מסוים. המשתמש יכול לעיין בתוצאות ולבחור אילו הסתברויות הרשת צריכה להציג (מעל סף מסוים וכו') ולהחזיר את התווית המוצעת. כל מניפולציה מתמטית כשלעצמה נחשבת לשכבה, ול-DNN מורכב יש רבדים רבים, ומכאן השם רשתות "עמוקות".

DNNs יכולים למדל קשרים לא ליניאריים מורכבים. ארכיטקטורות DNN מייצרות מודלים מורכבים שבהם האובייקט מתבטא כקומפוזיציה מרובדת של פרימיטיבים.[39] השכבות הנוספות מאפשרות הרכבה של תכונות משכבות נמוכות יותר, ועשויות ליצור מודלים של נתונים מורכבים עם פחות יחידות מאשר רשת רדודה בעלת ביצועים דומים.[9] לדוגמה, הוכח כי קל יותר באופן אקספוננציאלי, לבצע קירוב לפולינומים דלילים רבי-משתנים עם DNNs מאשר עם רשתות רדודות.

ארכיטקטורות עמוקות כוללות גרסאות רבות של כמה גישות בסיסיות. כל ארכיטקטורה מצאה הצלחה בתחומים ספציפיים. לא תמיד ניתן להשוות את הביצועים של ארכיטקטורות מרובות, אלא אם כן הם הוערכו על אותם מערכי נתונים.

DNNs הם בדרך כלל רשתות הזנה קדימה שבהן נתונים זורמים משכבת הקלט לשכבת הפלט מבלי לחזור אחורה. בתחילה, ה-DNN יוצר מפה של נוירונים וירטואליים ומקצה ערכים מספריים אקראיים, או "משקלות", לקשרים ביניהם. המשקולות והכניסות מוכפלות ומחזירות פלט בין 0 ל-1. אם הרשת לא זיהתה במדויק דפוס מסוים, אלגוריתם יתאים את המשקולות.[40] כך האלגוריתם יכול להפוך פרמטרים מסוימים למשפיעים יותר, עד שהוא יקבע את המניפולציה המתמטית הנכונה לעיבוד מלא של הנתונים.

רשתות עצביות חוזרות (RNNs), שבהן נתונים יכולים לזרום לכל כיוון, משמשות ליישומים כמו מודלים של שפות.[41][42][43] זיכרון גדול לטווח-קצר יעיל במיוחד לשימוש זה.[44][45]

רשתות קונבולוציה (CNN) משמשות בראייה ממוחשבת.[46] CNNs יושמו גם למידול אקוסטי לזיהוי דיבור אוטומטי (ASR).[47]

אתגרים

עריכה

כמו ב-ANN, בעיות רבות יכולות להתעורר עם DNNs עם הכשרה "נאיבית". שתי בעיות נפוצות הן התאמת יתר וזמן חישוב.

DNNs נוטים להתאים יתר על המידה משום שכבות ההפשטה הנוספות, המאפשרות להם למדל תלויות נדירות בנתוני האימון. הסדרת (רגולריזציה) שיטות כגון "הגיזום היחיד" של איבננקו[48] או דעיכת משקל (  רגוליזציה) או דלילות (   - רגוליזציה) ניתן ליישם במהלך האימון כדי לטפל בחלק משמעותי מהתאמת היתר.[49] לחלופין, הסדרת נשירה משמיטה באופן אקראי יחידות מהשכבות הנסתרות במהלך האימון. זה עוזר לשלול תלות נדירה.[50] לבסוף, ניתן להגדיל את הנתונים באמצעות שיטות כגון חיתוך וסיבוב, כך שניתן להגדיל מערכי אימונים קטנים יותר כדי להקטין את הסיכוי להתאמת יתר.[51]

DNNs חייבים לקחת בחשבון פרמטרים רבים של אימון, כגון הגודל (מספר השכבות ומספר היחידות לשכבה), קצב הלמידה והמשקלים הראשוניים. סריקה של מרחב הפרמטרים בחיפוש עבור פרמטרים אופטימליים ייתכן שלא יהיה אפשרי בשל עלות הזמן ומשאבי החישוב. טריקים שונים, כגון batching (חישוב גרדיאנט על מספר דוגמאות אימון בו-זמנית ולא דוגמאות בודדות)[52] מאיצים את החישוב. יכולות עיבוד גדולות של ארכיטקטורות ליבות רבות (כגון GPUs או Intel Xeon Phi) הביאו להאצות משמעותיות באימון, בגלל ההתאמה של ארכיטקטורות עיבוד כאלה למטריצה ולחישובי וקטור.[53][54]

לחלופין, מהנדסים עשויים לחפש סוגים אחרים של רשתות עצביות עם אלגוריתמי אימון פשוטים ומתכנסים יותר. CMAC (בקר דגם articulation cerebellar) הוא סוג כזה של רשת עצבית. זה לא דורש שיעורי למידה או משקלים ראשוניים אקראיים עבור CMAC. ניתן להבטיח שתהליך האימון יתכנס בשלב אחד עם אצווה חדשה של נתונים, והמורכבות החישובית של אלגוריתם האימון היא ליניארית ביחס למספר הנוירונים המעורבים.[55]

חומרה

עריכה

מאז שנות ה-2010, התקדמות הן באלגוריתמי למידת מכונה והן בחומרת המחשבים הובילה לשיטות יעילות יותר לאימון רשתות עצביות עמוקות, המכילות שכבות רבות של יחידות נסתרות לא ליניאריות ושכבת פלט גדולה מאוד באופן יחסי.[56] עד שנת 2019, יחידות עיבוד גרפי (GPUs), לעיתים קרובות עם שיפורים ספציפיים ל-AI, החליפו את המעבדים כשיטה הדומיננטית לאימון AI ענן מסחרי בקנה מידה גדול.[57] בשנת 2015 החלה גוגל להשתמש ביחידות (TPU) שפיתחה להאצת למידת מכונה של רשתות עצביות עמוקות, באמצעות תוכנת TensorFlow.[58]

OpenAI העריכה את חישוב החומרה המשמש בפרויקטים הגדולים ביותר של למידה עמוקה מ-AlexNet (2012) ועד AlphaZero (2017), ומצאה עלייה של פי 300,000 בכמות החישוב הנדרשת, עם קו מגמה של זמן הכפל של 3.4 חודשים.[59][60]

לקריאה נוספת

עריכה

קישורים חיצוניים

עריכה
  מדיה וקבצים בנושא למידה עמוקה בוויקישיתוף


הערות שוליים

עריכה
  1. ^ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). "Deep Learning". Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442.
  2. ^ Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016
  3. ^ Silver, D., Schrittwieser, J., Simonyan, K. et al., Mastering the game of Go without human knowledge, Nature 550, 2017, עמ' 354–359
  4. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry, ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada, 2012
  5. ^ Papert, Seymour; Minsky, Marvin Lee, Perceptrons: an introduction to computational geometry, Cambridge, Massachusetts: MIT Press, 1988, ISBN 978-0-262-63111-2
  6. ^ Hornik, Kurt; Tinchcombe, Maxwell; White, Halbert, Multilayer Feedforward Networks are Universal Approximators, Neural Networks 2, Pergamon Press, 1989, עמ' 359–366
  7. ^ Schulz, Hannes; Behnke, Sven (1 בנובמבר 2012). "Deep Learning". KI - Künstliche Intelligenz (באנגלית). 26 (4): 357–363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987. {{cite journal}}: (עזרה)
  8. ^ Deng, L.; Yu, D. (2014). "Deep Learning: Methods and Applications" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1–199. doi:10.1561/2000000039. אורכב מ-המקור (PDF) ב-2016-03-14. נבדק ב-2014-10-18.
  9. ^ 1 2 3 Bengio, Yoshua (2009). "Learning Deep Architectures for AI" (PDF). Foundations and Trends in Machine Learning. 2 (1): 1–127. doi:10.1561/2200000006. אורכב מ-המקור (PDF) ב-4 במרץ 2016. נבדק ב-3 בספטמבר 2015. {{cite journal}}: (עזרה)
  10. ^ 1 2 3 Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338.
  11. ^ 1 2 3 LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (28 במאי 2015). "Deep learning". Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. {{cite journal}}: (עזרה)
  12. ^ Shigeki, Sugiyama (12 באפריל 2019). Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (באנגלית). IGI Global. ISBN 978-1-5225-8218-2. {{cite book}}: (עזרה)
  13. ^ Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832. אורכב מ-המקור ב-2016-04-19. נבדק ב-2016-04-09free{{cite journal}}: תחזוקה - ציטוט: postscript (link)
  14. ^ Cybenko (1989). "Approximations by superpositions of sigmoidal functions" (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303–314. doi:10.1007/bf02551274. S2CID 3958369. אורכב מ-המקור (PDF) ב-10 באוקטובר 2015. {{cite journal}}: (עזרה)
  15. ^ Hornik, Kurt (1991). "Approximation Capabilities of Multilayer Feedforward Networks". Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-t.
  16. ^ Haykin, Simon S. (1999). [‏למידה עמוקה, באתר גוגל ספרים Neural Networks: A Comprehensive Foundation]. Prentice Hall. ISBN 978-0-13-273350-2. {{cite book}}: Check |url= value (עזרה)
  17. ^ Hassoun, Mohamad H. (1995). [‏למידה עמוקה, עמ' 48, באתר גוגל ספרים Fundamentals of Artificial Neural Networks]. MIT Press. p. 48. ISBN 978-0-262-08239-6. {{cite book}}: Check |url= value (עזרה)
  18. ^ Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width (אורכב 13.02.2019 בארכיון Wayback Machine). Neural Information Processing Systems, 6231-6239.
  19. ^ [14][15][16][17][18]
  20. ^ Sonoda, Sho; Murata, Noboru (2017). "Neural network with unbounded activation functions is universal approximator". Applied and Computational Harmonic Analysis. 43 (2): 233–268. arXiv:1505.03654. doi:10.1016/j.acha.2015.12.005.
  21. ^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). Springer. ISBN 978-0-387-31073-2. אורכב מ-המקור (PDF) ב-2017-01-11. נבדק ב-2017-08-06.
  22. ^ "Merck Molecular Activity Challenge". kaggle.com. אורכב מ-המקור ב-2020-07-16. נבדק ב-2020-07-16.
  23. ^ "Multi-task Neural Networks for QSAR Predictions | Data Science Association". www.datascienceassn.org. אורכב מ-המקור ב-30 באפריל 2017. נבדק ב-14 ביוני 2017. {{cite web}}: (עזרה)
  24. ^ "Toxicology in the 21st century Data Challenge"
  25. ^ "NCATS Announces Tox21 Data Challenge Winners". אורכב מ-המקור ב-2015-09-08. נבדק ב-2015-03-05.
  26. ^ "Archived copy". אורכב מ-המקור ב-28 בפברואר 2015. נבדק ב-5 במרץ 2015. {{cite web}}: (עזרה); (עזרה)
  27. ^ Oh, K.-S.; Jung, K. (2004). "GPU implementation of neural networks". Pattern Recognition. 37 (6): 1311–1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013.
  28. ^ Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), High performance convolutional neural networks for document processing, אורכב מ-המקור ב-2020-05-18, נבדק ב-2021-02-14
  29. ^ LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.
  30. ^ Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L. M.; Schmidhuber, J. (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210. אורכב מ-המקור (PDF) ב-2014-09-29. נבדק ב-2017-06-13.
  31. ^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q. (eds.). Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. pp. 2843–2851. אורכב מ-המקור (PDF) ב-2017-08-09. נבדק ב-2017-06-13.
  32. ^ Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 3642–3649. arXiv:1202.2745. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8.
  33. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. אורכב מ-המקור (PDF) ב-2017-01-10. נבדק ב-2017-05-24.
  34. ^ Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). "Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks". Proceedings MICCAI. Lecture Notes in Computer Science. 7908 (Pt 2): 411–418. doi:10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. PMID 24579167.
  35. ^ Zhong, Sheng-hua; Liu, Yan; Liu, Yang (2011). "Bilinear Deep Learning for Image Classification". Proceedings of the 19th ACM International Conference on Multimedia. MM '11. New York, NY, USA: ACM: 343–352. doi:10.1145/2072298.2072344. ISBN 9781450306164.
  36. ^ "Why Deep Learning Is Suddenly Changing Your Life". Fortune. 2016. אורכב מ-המקור ב-14 באפריל 2018. נבדק ב-13 באפריל 2018. {{cite news}}: (עזרה)
  37. ^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (בינואר 2016). "Mastering the game of Go with deep neural networks and tree search". Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 1476-4687. PMID 26819042. {{cite journal}}: (עזרה)
  38. ^ A Guide to Deep Learning and Neural Networks, אורכב מ-המקור ב-2020-11-02, נבדק ב-2020-11-16
  39. ^ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). "Deep neural networks for object detection". Advances in Neural Information Processing Systems: 2553–2561. אורכב מ-המקור ב-2017-06-29. נבדק ב-2017-06-13.
  40. ^ Hof, Robert D. "Is Artificial Intelligence Finally Coming into Its Own?". MIT Technology Review. אורכב מ-המקור ב-31 במרץ 2019. נבדק ב-10 ביולי 2018. {{cite news}}: (עזרה)
  41. ^ Gers, Felix A.; Schmidhuber, Jürgen (2001). "LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages". IEEE Transactions on Neural Networks. 12 (6): 1333–1340. doi:10.1109/72.963769. PMID 18249962. אורכב מ-המקור ב-2020-01-26. נבדק ב-2020-02-25.
  42. ^ Sutskever, L.; Vinyals, O.; Le, Q. (2014). "Sequence to Sequence Learning with Neural Networks" (PDF). Proc. NIPS. arXiv:1409.3215. Bibcode:2014arXiv1409.3215S. אורכב מ-המקור (PDF) ב-2021-05-09. נבדק ב-2017-06-13.
  43. ^ Mikolov, T.; et al. (2010). "Recurrent neural network based language model" (PDF). Interspeech: 1045–1048. doi:10.21437/Interspeech.2010-343. אורכב מ-המקור (PDF) ב-2017-05-16. נבדק ב-2017-06-13.
  44. ^ Hochreiter, Sepp; Schmidhuber, Jürgen (1 בנובמבר 1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. {{cite journal}}: (עזרה)
  45. ^ "Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)". ResearchGate. אורכב מ-המקור ב-9 במאי 2021. נבדק ב-13 ביוני 2017. {{cite web}}: (עזרה)
  46. ^ LeCun, Y.; et al. (1998). "Gradient-based learning applied to document recognition". Proceedings of the IEEE. 86 (11): 2278–2324. doi:10.1109/5.726791.
  47. ^ Sainath, Tara N.; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). "Deep convolutional neural networks for LVCSR". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 8614–8618. doi:10.1109/icassp.2013.6639347. ISBN 978-1-4799-0356-6.
  48. ^ Ivakhnenko, Alexey (1971). "Polynomial theory of complex systems" (PDF). IEEE Transactions on Systems, Man and Cybernetics. SMC-1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. אורכב מ-המקור (PDF) ב-2017-08-29. נבדק ב-2019-11-05.
  49. ^ Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). "Advances in optimizing recurrent networks". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 8624–8628. arXiv:1212.0901. CiteSeerX 10.1.1.752.9151. doi:10.1109/icassp.2013.6639349. ISBN 978-1-4799-0356-6.
  50. ^ Dahl, G.; et al. (2013). "Improving DNNs for LVCSR using rectified linear units and dropout" (PDF). ICASSP. אורכב מ-המקור (PDF) ב-2017-08-12. נבדק ב-2017-06-13.
  51. ^ "Data Augmentation - deeplearning.ai | Coursera". Coursera. אורכב מ-המקור ב-1 בדצמבר 2017. נבדק ב-30 בנובמבר 2017. {{cite web}}: (עזרה)
  52. ^ Hinton, G. E. (2010). "A Practical Guide to Training Restricted Boltzmann Machines". Tech. Rep. UTML TR 2010-003. אורכב מ-המקור ב-2021-05-09. נבדק ב-2017-06-13.
  53. ^ You, Yang; Buluç, Aydın; Demmel, James (בנובמבר 2017). "Scaling deep learning on GPU and knights landing clusters". Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17. SC '17, ACM. pp. 1–12. doi:10.1145/3126908.3126912. ISBN 9781450351140. אורכב מ-המקור ב-29 ביולי 2020. נבדק ב-5 במרץ 2018. {{cite book}}: (עזרה)
  54. ^ Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). "CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi". The Journal of Supercomputing. 75: 197–227. arXiv:1702.07908. Bibcode:2017arXiv170207908V. doi:10.1007/s11227-017-1994-x.
  55. ^ Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49-61.
  56. ^ Research, AI (23 באוקטובר 2015). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". airesearch.com. אורכב מ-המקור ב-1 בפברואר 2016. נבדק ב-23 באוקטובר 2015. {{cite web}}: (עזרה)
  57. ^ "GPUs Continue to Dominate the AI Accelerator Market for Now". InformationWeek (באנגלית). בדצמבר 2019. אורכב מ-המקור ב-10 ביוני 2020. נבדק ב-11 ביוני 2020. {{cite news}}: (עזרה)
  58. ^ Babbage, Google's First Tensor Processing Unit : Origins, The Chip Letter, ‏2024-02-25
  59. ^ Ray, Tiernan (2019). "AI is changing the entire nature of computation". ZDNet (באנגלית). אורכב מ-המקור ב-25 במאי 2020. נבדק ב-11 ביוני 2020. {{cite news}}: (עזרה)
  60. ^ "AI and Compute". OpenAI (באנגלית). 16 במאי 2018. אורכב מ-המקור ב-17 ביוני 2020. נבדק ב-11 ביוני 2020. {{cite web}}: (עזרה)